SMART
Self-Monitoring, Analysis and Reporting Technology (dt. System zur Selbstüberwachung, Analyse und Statusmeldung)
smart
- Ist ein Industriestandard zur Überwachung von Festplattenlaufwerken (HDD) und Solid-State-Drives (SSD)
- Dient der Vorhersage eines möglichen Ausfalls des Speichermediums.
- Dabei werden die Werte verschiedener Sensoren mit Hilfe von unterschiedlichen Parametern ausgewertet.
- Alle aktuellen Festplatten und SSDs haben SMART Funktionalität.
Funktionsweise
- Auswertung der überwachten Daten erfolgt beim Starten des Rechners durch
- das BIOS,
- andere Firmware,
- oder durch spezielle Software.
- SMART orientiert sich an vom Festplattenhersteller festgelegten Grenzwerten, etwa für die Temperatur.
- Nach einem längeren Zeitraum kann ein zu erwartender Ausfall prognostiziert werden.
- Wird SMART "abgeschaltet", werden weiterhin alle Daten erfasst, aber keine Warnungen mehr gemeldet.
- Gespeichert werden die gesammelten Daten in einem reservierten, durch Programme nicht änderbaren Bereich der Festplatte.
- Die Überwachung verlangsamt die Festplatte nicht, da nur protokolliert wird, ohne korrigierend einzugreifen.
- Verbaute Sensoren und Chipfunktionen erfassen die Werte.
- Aktualisierung der Daten
- "Online"-Parameter, die permanent notiert werden.
- "Offline"-Parameter, die erst in Ruhepausen aktualisiert werden.
Informationswert
- Liefern keine Aussage zur Gesamtzuverlässigkeit des Rechnersystems.
- Auf Massenspeicher wie Festplatten oder SSDs beschränkt.
- Ist nicht normiert, sondern es ist den Herstellern überlassen, welche Parameter in welchen Grenzen überwacht werden.
- Die Genauigkeit der Überwachung wird diskutiert.
- Manche Temperatursensoren gelten als falsch platziert oder zu optimistisch eingestellt.
- Ergebnis einer unabhängigen Google-Studie von 2006, Dauer über neun Monate, mit 100.000 Festplatten aller Hersteller:
- Es sind 64 % aller Ausfälle mit SMART vorhersagbar.
- Die Beanspruchung der Festplatte hatte einen geringeren Einfluss auf ihre Haltbarkeit als angenommen.
- Nur im 1. und nach dem 4. Jahr verdoppelt permanentes Lesen und Schreiben die Ausfallrate.
wichtige Attribute
Attribut | Erklärung |
---|---|
Raw Read Error Rate | Lesen-Fehlerrate, Problem Lese/Schreib-Köpfe/Plattenoberfläche |
Spin Up Time | Zeit Stillstand bis volle Arbeitsumdrehung |
Reallocated Sector | Verschieben defekter Sektoren in Reserve-Sektoren |
Seek Error Rate | Fehler Ausrichtung Festplattenkopf |
Power On Hours | Laufzeit Festplatte |
Power Cycle Count | Anzahl Anschaltvorgänge |
Multi Zone Error Rate | Fehlerrate beim Schreiben |
Auswertung
Parameter
- als Raw-Werte gespeichert
- Raw-Wert wird zum besseren Verständnis in Werteskala von 0 bis 100, 200 oder 255 einsortiert
- Werteskala
- startet mit dem Skalenmaximum
- bei Fehlern oder zunehmendem Alter nähern sich Werte (value) gegen 0
- kritische Grenze (threshold) für möglichen Ausfall häufig weit über 0
wichtig: Raw-Werte nicht verwechseln mit den Values der Werteskala.
RAW-Werte
Legende | |
---|---|
A | Ausfallsrelevanter Parameter. |
Wenig bis nicht ausfallrelevanter Parameter. | |
+ | Je höher der Raw-Wert, desto besser. |
- | Je niedriger der Raw-Wert, desto besser. |
A? | ID | Hex | Parametername (Englisch) | Parametername (Deutsch) | + - | Beschreibung |
---|---|---|---|---|---|---|
01 | 0x01 | Raw Read Error Rate | Lesefehlerrate (roh) | - |
| |
02 | 0x02 | Throughput Performance | Durchsatz | + |
| |
03 | 0x03 | Spin Up Time | Beschleunigungszeit | - |
| |
04 | 0x04 | Start/Stop Count | Start/Stop-Vorgänge | - |
| |
A | 05 | 0x05 | Reallocated Sectors Count | wiederzugewiesene Sektoren | - |
|
07 | 0x07 | Seek Error Rate | Suchfehlerrate | - |
| |
09 | 0x09 | Power On Hours Count | Zeit in Betrieb | - |
| |
A | 10 | 0x0A | Spin Retry Count | Anlaufwiederholungen, nur bei HDDs relevant |
- |
|
12 | 0x0C | Power Cycle Count | Anzahl der Einschaltungen | - |
| |
A | 184 | 0xB8 | End-To-End error | Ende-zu-Ende Fehler | - |
|
A | 187 | 0xBB | Reported uncorrectable Error | Gemeldete unkorrigierbare Fehler | - |
|
A | 188 | 0xBC | Command Timeout | Kommandos, welche nicht rechtzeitig ausgeführt werden konnten | - |
|
193 | 0xC1 | Load Cycle Count
bzw. Load/Unload Cycle Count |
Parkvorgänge | - |
| |
194 | 0xC2 | Drive Temperature | Festplatten-Temperatur | - |
| |
195 | 0xC3 | Hardware ECC Recovered | gerettete Bitfehler | - |
| |
A | 196 | 0xC4 | Reallocation Event Count | - |
| |
A | 197 | 0xC5 | Current Pending Sector Count | - |
| |
A | 198 | 0xC6 | Uncorrectable Sector Count | Nicht korrigierbare Sektoren | - |
|
199 | 0xC7 | Ultra DMA CRC Error Count | DMA-CRC-Fehler | - |
| |
A | 201 | 0xC9 | Soft Read Error Rate | - |
|
- Es gibt noch zahlreiche weitere Parameter, auch herstellerexklusive.
Beispiel
Die Auswertung wichtiger S.M.A.R.T.-Parameter am Beispiel einer Hitachi 250 GB-Festplatte, angeschlossen über Serial-ATA und ausgelesen mit den smartmontools.
Value | ist ein normalisierter Messwert, der zumeist rückwärts zählt (je niedriger, desto schlechter). |
---|---|
Worst | der bisher schlechteste Wert. |
Threshold | die Grenze, unter die der Wert nicht fallen darf. |
Typ | steht für die Bedeutung des Parameters: „Pre-fail“ ist eine Warnung vor einem baldigen Ausfall, während „Old age“ bedeutet, dass es sich allgemein um fortschreitende Alterung handelt (Die aktuelle Temperatur fällt nicht unbedingt in eine der beiden Kategorien). |
Updated | zeigt an, ob der Wert permanent (always) oder erst durch einen Selbsttest vom Typ „Offline data collection“ aktualisiert wird. |
RAW Value | ist der eigentliche Messwert, also etwa die gemessene Temperatur oder die Zahl der Fehler. |
Parameter-ID | Parametername | Value | Worst | Threshold | Typ | Updated | RAW Value | Bemerkung |
---|---|---|---|---|---|---|---|---|
2 | Throughput Performance | 100 | 100 | 050 | Pre-fail | Offline | 0 | |
3 | Spin Up Time | 118 | 118 | 024 | Pre-fail | Always | 294 | Hitachi verwendet eine eigene Zählweise, keine (Milli-)Sekunden. |
4 | Start Stop Count | 100 | 100 | 000 | Old age | Always | 772 | 772 mal wurde der Festplattenmotor an-/ausgeschaltet, inklusive Standby-Starts. |
5 | Reallocated Sector Count | 100 | 100 | 005 | Pre-fail | Always | 55 | 55 Sektoren wegen Defekts gegen Reservesektoren ausgetauscht. Laufwerk schätzt das als problemlos ein. |
7 | Seek Error Rate | 100 | 100 | 067 | Pre-fail | Always | 0 | Bisher gab es keine Schreib-/Lesefehler. |
9 | Power On Hours | 100 | 100 | 000 | Old age | Always | 1775 | Laufwerk wurde bisher 1775 Stunden mit Strom versorgt. Umfasst auch Standbyphasen. Immer prüfen, ob der Wert Std., Min. oder Sek. darstellt. |
10 | Spin Retry Count | 100 | 100 | 060 | Pre-fail | Always | 0 | Bisher gab es keine Fehlstarts, die Festplatte lief immer problemlos an. |
12 | Power Cycle Count | 100 | 100 | 000 | Old age | Always | 745 | Bisher wurde der PC mit dieser Festplatte 745-mal an- und ausgeschaltet. |
194 | Temperature | 161 | 161 | 000 | Old age | Always | 34 10 49 |
Aktuelle Temperatur wäre hier 34°C. Bisherige Lebensmaxima des Laufwerkes waren 10°C bzw. 49°C. Value ist daher von 200 auf 161 gesunken. |
199 | UDMA CRC Error Count | 200 | 253 | 000 | Old age | Always | 730 | Bisher gab es 730 Übertragungsfehler zum Mainboard. Ursache: fehlerhafter Festplatten-Controller, defektes Anschlusskabel oder Wackelkontakt. |
- Auswertung:
- Laufwerk ist in Ordnung.
- Kein Grenzwert erreicht.
- Reallocated Sector Count-Wert: Die 55 ausgewechselten Sektoren sind laut einer Google-Studie bedenklich.
- UDMA CRC Error Count-Wert: Besser Kabel tauschen. Wert danach im Auge behalten.