|
|
Zeile 273: |
Zeile 273: |
|
| |
|
| *Es gibt noch zahlreiche weitere Parameter, auch herstellerexklusive. | | *Es gibt noch zahlreiche weitere Parameter, auch herstellerexklusive. |
|
| |
| === Beispiel ===
| |
| Die Auswertung wichtiger S.M.A.R.T.-Parameter am Beispiel einer Hitachi 250 GB-Festplatte, angeschlossen über Serial-ATA und ausgelesen mit den smartmontools.
| |
|
| |
| {| class="wikitable"
| |
| !style="background:#98e5b3;"|Value
| |
| |ist ein normalisierter Messwert, der zumeist rückwärts zählt (je niedriger, desto schlechter).
| |
| |-
| |
| !style="background:#d5c39c;"|Worst
| |
| |der bisher schlechteste Wert.
| |
| |-
| |
| !style="background:#dca799;"|Threshold
| |
| |die Grenze, unter die der Wert nicht fallen darf.<!-- ?? -->
| |
|
| |
| |-
| |
| !style="background:#ececec;"|Typ
| |
| |steht für die Bedeutung des Parameters: „'''Pre-fail'''“ ist eine Warnung vor einem baldigen Ausfall, während „'''Old age'''“ bedeutet, dass es sich allgemein um fortschreitende Alterung handelt (Die aktuelle Temperatur fällt nicht unbedingt in eine der beiden Kategorien).
| |
| |-
| |
| !style="background:#ececec;"|Updated
| |
| |zeigt an, ob der Wert permanent (always) oder erst durch einen [[#Selbsttest und Fehler-Logbuch|Selbsttest]] vom Typ „Offline data collection“ aktualisiert wird.
| |
| |-
| |
| !style="background:#ececec;"|RAW Value
| |
| |ist der eigentliche Messwert, also etwa die gemessene Temperatur oder die Zahl der Fehler.
| |
| |}
| |
|
| |
|
| |
| {| class="wikitable" style="text-align: center;"
| |
| |-style="background: #ececec;"
| |
| !Parameter-ID
| |
| !Parametername
| |
| !style="background:#98e5b3;"|Value
| |
| !style="background:#d5c39c;"|Worst
| |
| !style="background:#dca799;"|Threshold
| |
| !Typ
| |
| !Updated
| |
| !RAW Value
| |
| !Bemerkung
| |
| |-
| |
| |style="background: #ececec;"| 2
| |
| |style="background: #ececec;"| Throughput Performance
| |
| |style="background: #e6fff0;"| 100
| |
| |style="background: #fff0c8;"| 100
| |
| |style="background: #ffebdc;"| 050
| |
| | Pre-fail
| |
| | Offline
| |
| | 0
| |
| |
| |
| |-
| |
| |style="background: #ececec;"| 3
| |
| |style="background: #ececec;"| Spin Up Time
| |
| |style="background: #e6fff0;"| 118
| |
| |style="background: #fff0c8;"| 118
| |
| |style="background: #ffebdc;"| 024
| |
| | Pre-fail
| |
| | Always
| |
| | 294
| |
| |Hitachi verwendet eine eigene Zählweise, keine (Milli-)Sekunden.
| |
| |-
| |
| |style="background: #ececec;"| 4
| |
| |style="background: #ececec;"| Start Stop Count
| |
| |style="background: #e6fff0;"| 100
| |
| |style="background: #fff0c8;"| 100
| |
| |style="background: #ffebdc;"| 000
| |
| | Old age
| |
| | Always
| |
| | 772
| |
| |772 mal wurde der Festplattenmotor an-/ausgeschaltet, inklusive Standby-Starts.
| |
| |-
| |
| |style="background: #ececec;"| 5
| |
| |style="background: #ececec;"| Reallocated Sector Count
| |
| |style="background: #e6fff0;"| 100
| |
| |style="background: #fff0c8;"| 100
| |
| |style="background: #ffebdc;"| 005
| |
| | Pre-fail
| |
| | Always
| |
| | 55
| |
| |55 Sektoren wurden wegen Defekts gegen Reservesektoren ausgetauscht. Das Laufwerk schätzt das aber noch als problemlos ein (der Value ist nach wie vor 100) – vielleicht zu Unrecht.
| |
| |-
| |
| |style="background: #ececec;"| 7
| |
| |style="background: #ececec;"| Seek Error Rate
| |
| |style="background: #e6fff0;"| 100
| |
| |style="background: #fff0c8;"| 100
| |
| |style="background: #ffebdc;"| 067
| |
| | Pre-fail
| |
| | Always
| |
| | 0
| |
| |Bisher gab es keine Schreib-/Lesefehler.
| |
| |-
| |
| |style="background: #ececec;"| 9
| |
| |style="background: #ececec;"| Power On Hours
| |
| |style="background: #e6fff0;"| 100
| |
| |style="background: #fff0c8;"| 100
| |
| |style="background: #ffebdc;"| 000
| |
| | Old age
| |
| | Always
| |
| | 1775
| |
| |Laufwerk wurde bisher 1775 Stunden mit Strom versorgt. Das umfasst auch Standbyphasen, in denen die Platten stillstanden. Wenn das Auswertungsprogramm das Festplattenmodell nicht kennt, muss man selbst einschätzen, ob der Wert Stunden, Minuten oder Sekunden darstellt.
| |
| |-
| |
| |style="background: #ececec;"| 10
| |
| |style="background: #ececec;"| Spin Retry Count
| |
| |style="background: #e6fff0;"| 100
| |
| |style="background: #fff0c8;"| 100
| |
| |style="background: #ffebdc;"| 060
| |
| | Pre-fail
| |
| | Always
| |
| | 0
| |
| |Bisher gab es keine Fehlstarts, die Festplatte lief immer problemlos an.
| |
| |-
| |
| |style="background: #ececec;"| 12
| |
| |style="background: #ececec;"| Power Cycle Count
| |
| |style="background: #e6fff0;"| 100
| |
| |style="background: #fff0c8;"| 100
| |
| |style="background: #ffebdc;"| 000
| |
| | Old age
| |
| | Always
| |
| | 745
| |
| |Bisher wurde der PC mit dieser Festplatte 745-mal an- und ausgeschaltet.
| |
| |-
| |
| |style="background: #ececec;"| 194
| |
| |style="background: #ececec;"| Temperature
| |
| |style="background: #e6fff0;"| 161
| |
| |style="background: #fff0c8;"| 161
| |
| |style="background: #ffebdc;"| 000
| |
| | Old age
| |
| | Always
| |
| | '''34'''<br />+('''10'''·2<sup>16</sup> + '''49'''·2<sup>32</sup>)
| |
| |Aktuelle Temperatur wäre hier 34 °C. Bisherige Lebensmaxima des Laufwerkes waren 10 °C bzw. 49 °C. Value ist daher von 200 auf 161 gesunken.
| |
| |-
| |
| |style="background: #ececec;"| 199
| |
| |style="background: #ececec;"| UDMA CRC Error Count
| |
| |style="background: #e6fff0;"| 200
| |
| |style="background: #fff0c8;"| 253
| |
| |style="background: #ffebdc;"| 000
| |
| | Old age
| |
| | Always
| |
| | 730
| |
| ||Bisher gab es 730 Übertragungsfehler zur Hauptplatine („mainboard“). Ursache ist entweder ein fehlerhafter Festplatten-Controller, ein defektes Anschlusskabel oder ein [[Wackelkontakt]].
| |
| |}
| |
|
| |
|
| ==Beispiel== | | ==Beispiel== |
- Self-Monitoring, Analysis and Reporting Technology (dt. System zur Selbstüberwachung, Analyse und Statusmeldung)
- ist ein Industriestandard zur Überwachung von Festplattenlaufwerken (HDD) und Solid-State-Drives (SSD)
- dient der Vorhersage eines möglichen Ausfalls des Speichermediums.
- dabei die Werte verschiedener Sensoren mit Hilfe von unterschiedlichen Parametern ausgewertet.
- Alle aktuellen Festplatten und SSDs haben SMART Funktionalität.
Funktionsweise
- Auswertung der überwachten Daten erfolgt beim Starten des Rechners durch
- das BIOS,
- andere Firmware,
- oder durch spezielle Software.
- SMART orientiert sich an vom Festplattenhersteller festgelegten Grenzwerten, etwa für die Temperatur.
- Nach einem längeren Zeitraum kann ein zu erwartender Ausfall prognostiziert werden.
- Wird SMART "abgeschaltet", werden weiterhin alle Daten erfasst, aber keine Warnungen mehr gemeldet.
- Gespeichert werden die gesammelten Daten in einem reservierten, durch Programme nicht änderbaren Bereich der Festplatte.
- Die Überwachung verlangsamt die Festplatte nicht, da nur protokolliert wird, ohne korrigierend einzugreifen.
- Verbaute Sensoren und Chipfunktionen erfassen die Werte.
- Aktualisierung der Daten
- "Online"-Parameter, die permanent notiert werden.
- "Offline"-Parameter, die erst in Ruhepausen aktualisiert werden.
Informationswert
- Liefern keine Aussage zur Gesamtzuverlässigkeit des Rechnersystems.
- Auf Massenspeicher wie Festplatten oder SSDs beschränkt.
- Ist nicht normiert, sondern es ist den Herstellern überlassen, welche Parameter in welchen Grenzen überwacht werden.
- Die Genauigkeit der Überwachung wird diskutiert.
- Manche Temperatursensoren gelten als falsch platziert oder zu optimistisch eingestellt.
- Ergebnis einer unabhängigen Google-Studie von 2006, Dauer über neun Monate, mit 100.000 Festplatten aller Hersteller:
- Es sind 64 % aller Ausfälle mit SMART vorhersagbar.
- Die Beanspruchung der Festplatte hatte einen geringeren Einfluss auf ihre Haltbarkeit als angenommen.
- Nur im 1. und nach dem 4. Jahr verdoppelt permanentes Lesen und Schreiben die Ausfallrate.
Auswertung
Parameter
- als Raw-Werte gespeichert
- Raw-Wert wird zum besseren Verständnis in Werteskala von 0 bis 100, 200 oder 255 einsortiert
- Werteskala
- startet mit dem Skalenmaximum
- bei Fehlern oder zunehmendem Alter nähern sich Werte (value) gegen 0
- kritische Grenze (threshold) für möglichen Ausfall häufig weit über 0
wichtig:
Raw-Werte nicht verwechseln mit den Values der Werteskala.
RAW-Werte
Legende
|
A
|
Ausfallsrelevanter Parameter.
|
|
Wenig bis nicht ausfallrelevanter Parameter.
|
+
|
Je höher der Raw-Wert, desto besser.
|
-
|
Je niedriger der Raw-Wert, desto besser.
|
A?
|
ID
|
Hex
|
Parametername (Englisch)
|
Parametername (Deutsch)
|
+ -
|
Beschreibung
|
|
01
|
0x01
|
Raw Read Error Rate
|
Lesefehlerrate (roh)
|
-
|
- Nicht korrigierbare Fehler beim Lesen von der Festplatte, führt zum erneuten Einlesen
- Problem mit der Plattenoberfläche
|
|
02
|
0x02
|
Throughput Performance
|
Durchsatz
|
+
|
- allgemeiner Datendurchsatz bzw. Effizienz der Festplatte
- Deutet stark auf bremsende Probleme im Laufwerk hin.
|
|
03
|
0x03
|
Spin Up Time
|
Beschleunigungszeit
|
-
|
- Durchschnitt der Startzeit in (Milli-)Sekunden.
- Deutet auf Probleme beim Motor oder den Plattenlagern hin.
|
|
04
|
0x04
|
Start/Stop Count
|
Start/Stop-Vorgänge
|
-
|
- Anzahl der Start- bzw. Stop-Vorgänge eines Laufwerkes (auch Standby)
- Deutet auf Abnutzung hin, da dieser Vorgang Festplatten am stärksten belastet.
|
A
|
05
|
0x05
|
Reallocated Sectors Count
|
wiederzugewiesene Sektoren
|
-
|
- Anzahl der verbrauchten Reservesektoren.
- Deutet auf Oberflächenprobleme hin, da nur dann ein Reservesektor einen bisher verwendeten ersetzt.
- Ist dieser RAW-Zähler ungleich 0, ist Wahrscheinlichkeit für einen Ausfall 5-facht.
|
|
07
|
0x07
|
Seek Error Rate
|
Suchfehlerrate
|
-
|
- Nicht korrigierbare Fehler beim Lesen von der Festplatte, führt zum erneuten Einlesen.
- Deutet auf Positionierungsproblem der Schreib-Lese-Einheit hin.
|
|
09
|
0x09
|
Power On Hours Count
|
Zeit in Betrieb
|
-
|
- Laufleistung in Stunden oder Sekunden (inklusive Standby)
- Deutet auf Abnutzung hin, sagt aber nichts über Nutzungsumstände in dieser Zeit aus.
|
A
|
10
|
0x0A
|
Spin Retry Count
|
Anlaufwiederholungen, nur bei HDDs relevant
|
-
|
- Anzahl der Anlaufversuche zum Hochdrehen der Festplatten auf Nenndrehzahl. Ein ansteigender Wert deutet auf mechanische Probleme im Antrieb der Festplatte hin.
|
|
12
|
0x0C
|
Power Cycle Count
|
Anzahl der Einschaltungen
|
-
|
- Gibt an, wie oft das Laufwerk ein- und ausgeschaltet worden ist.
|
A
|
184
|
0xB8
|
End-To-End error
|
Ende-zu-Ende Fehler
|
-
|
- Steigende Werte zeigen Parityfehler zwischen Speichermedium und Laufwerkcontroller an.
|
A
|
187
|
0xBB
|
Reported uncorrectable Error
|
Gemeldete unkorrigierbare Fehler
|
-
|
- Fehler welche durch die integrierte Vorwärtsfehlerkorrektur (ECC) nicht korrigiert werden konnten.
|
A
|
188
|
0xBC
|
Command Timeout
|
Kommandos, welche nicht rechtzeitig ausgeführt werden konnten
|
-
|
- Anzahl der Kommandoabbrüche wegen Zeitüberschreitung
|
|
193
|
0xC1
|
Load Cycle Count
bzw.
Load/Unload Cycle Count
|
Parkvorgänge
|
-
|
- Parkvorgänge der Schreib-Lese-Einheit auf die neben den Platten befindliche Plastikrampe.
- Meist nur bei Notebooklaufwerken. Deutet auf Abnutzung hin; vorgesehen sind rund 300.000 – der Raw-Wert zeigt die bisherigen.
- Geparkt wird die Schreib-Lese-Einheit beim Ausschalten oder nach rund 10 s Leerlauf. Das erzeugt ein mitunter irritierendes Geräusch.
|
|
194
|
0xC2
|
Drive Temperature
|
Festplatten-Temperatur
|
-
|
- Temperatur des Laufwerkes in °C
- Der als raw-value angegebene Wert kann drei Werte enthalten Min-,Ist- und Max-Wert.
- Hohe Temperaturen (ab 40°C) haben nur während des 3.Jahres Auswirkungen (Verdopplung Ausfallwahrscheinlichkeit), danach nicht mehr. Temperaturen unter 25°C sind weit gefährlicher als solche über 40°C. 20°C 2x, 15°C 3x so hohe Ausfallrate.
|
|
195
|
0xC3
|
Hardware ECC Recovered
|
gerettete Bitfehler
|
-
|
- korrigierte Bitfehler beim Lesen
- Kann auf Problem mit Plattenoberfläche hindeuten.
- Die hohe Datendichte von Festplatten hat zur Folge, dass beim Lesen die Fehlerkorrektur zwangsläufig anschlägt. Sehr hohe Werte sind kein Grund zur Beunruhigung.
|
A
|
196
|
0xC4
|
Reallocation Event Count
|
|
-
|
- Anzahl bisher durchgeführten erfolgreichen und fehlgeschlagenen Neuzuweisungen der Sektorposition als Folge von Lesefehlern von defekten Sektoren.
|
A
|
197
|
0xC5
|
Current Pending Sector Count
|
|
-
|
- Anzahl der aufgrund von Lesefehlern wartenden Sektoren auf Zuweisung einer neuen Sektorposition
|
A
|
198
|
0xC6
|
Uncorrectable Sector Count
|
Nicht korrigierbare Sektoren
|
-
|
- Anzahl bisheriger nicht korrigierbarer Sektorfehler bei Schreibe- oder Leseoperationen.
|
|
199
|
0xC7
|
Ultra DMA CRC Error Count
|
DMA-CRC-Fehler
|
-
|
- Anzahl der aufgetretenen CRC-Fehler
- Ursache können defekte Kabel, verschmutzte Kontakte, Übertaktung oder fehlerhafte Festplattentreiber sein. Die Übertragung wird in Stufen immer langsamer wiederholt. Misslingt dies, wird der Zugriff auf die Festplatte gesperrt.
|
A
|
201
|
0xC9
|
Soft Read Error Rate
|
|
-
|
- Anzahl der nicht per Software korrigierbaren Lesefehler.
|
- Es gibt noch zahlreiche weitere Parameter, auch herstellerexklusive.
Beispiel
Quellen
Wikipedia SMART
Thomas Krenn SMART
Thomas Krenn SMART-Tests mit smartctl