Version vom 2. Juli 2020, 18:15 Uhr

Self-Monitoring, Analysis and Reporting Technology (dt. System zur Selbstüberwachung, Analyse und Statusmeldung)
- ist ein Industriestandard zur Überwachung von Festplattenlaufwerken (HDD) und Solid-State-Drives (SSD)
- dient der Vorhersage eines möglichen Ausfalls des Speichermediums.
- dabei die Werte verschiedener Sensoren mit Hilfe von unterschiedlichen Parametern ausgewertet.
Alle aktuellen Festplatten und SSDs haben SMART Funktionalität.

Funktionsweise

Auswertung der überwachten Daten erfolgt beim Starten des Rechners durch
- das BIOS,
- andere Firmware,
- oder durch spezielle Software.
SMART orientiert sich an vom Festplattenhersteller festgelegten Grenzwerten, etwa für die Temperatur.
Nach einem längeren Zeitraum kann ein zu erwartender Ausfall prognostiziert werden.
Wird SMART "abgeschaltet", werden weiterhin alle Daten erfasst, aber keine Warnungen mehr gemeldet.
Gespeichert werden die gesammelten Daten in einem reservierten, durch Programme nicht änderbaren Bereich der Festplatte.
Die Überwachung verlangsamt die Festplatte nicht, da nur protokolliert wird, ohne korrigierend einzugreifen.
Verbaute Sensoren und Chipfunktionen erfassen die Werte.
Aktualisierung der Daten
- "Online"-Parameter, die permanent notiert werden.
- "Offline"-Parameter, die erst in Ruhepausen aktualisiert werden.

Informationswert

Liefern keine Aussage zur Gesamtzuverlässigkeit des Rechnersystems.
Auf Massenspeicher wie Festplatten oder SSDs beschränkt.
Ist nicht normiert, sondern es ist den Herstellern überlassen, welche Parameter in welchen Grenzen überwacht werden.
Die Genauigkeit der Überwachung wird diskutiert.
- Manche Temperatursensoren gelten als falsch platziert oder zu optimistisch eingestellt.
Ergebnis einer unabhängigen Google-Studie von 2006, Dauer über neun Monate, mit 100.000 Festplatten aller Hersteller:
- Es sind 64 % aller Ausfälle mit SMART vorhersagbar.
- Die Beanspruchung der Festplatte hatte einen geringeren Einfluss auf ihre Haltbarkeit als angenommen.
- Nur im 1. und nach dem 4. Jahr verdoppelt permanentes Lesen und Schreiben die Ausfallrate.

Auswertung

Parameter

als Raw-Werte gespeichert
Raw-Wert wird zum besseren Verständnis in Werteskala von 0 bis 100, 200 oder 255 einsortiert
Werteskala
- startet mit dem Skalenmaximum
- bei Fehlern oder zunehmendem Alter nähern sich Werte (value) gegen 0
- kritische Grenze (threshold) für möglichen Ausfall häufig weit über 0

wichtig:
Raw-Werte nicht verwechseln mit den Values der Werteskala.

RAW-Werte

Legende
	Ausfallsrelevanter Parameter.
	wenig bis nicht ausfallrelevanter Parameter
+	Je höher der Raw-Wert, desto besser
-	Je niedriger der Raw-Wert, desto besser

ID	Hex	Parametername (Englisch)	Parametername (Deutsch)	+ -	Beschreibung
01	0x01	(Raw) Read Error Rate	Lesefehlerrate (roh)	-	Nicht korrigierbare Fehler beim Lesen von der Festplatte, führt zum erneuten Einlesen Problem mit der Plattenoberfläche
02	0x02	Throughput Performance	Durchsatz	+	allgemeiner Datendurchsatz bzw. Effizienz der Festplatte Deutet stark auf bremsende Probleme im Laufwerk hin.
03	0x03	Spin Up Time	Beschleunigungszeit	-	Durchschnitt der Startzeit in (Milli-)Sekunden. Deutet auf Probleme beim Motor oder den Plattenlagern hin.
04	0x04	Start/Stop Count	Start/Stop-Vorgänge	-	Anzahl der Start- bzw. Stop-Vorgänge eines Laufwerkes (auch Standby) Deutet auf Abnutzung hin, da dieser Vorgang Festplatten am stärksten belastet.
05	0x05	Reallocated Sectors Count	wiederzugewiesene Sektoren	-	Anzahl der verbrauchten Reservesektoren. Deutet auf Oberflächenprobleme hin, da nur dann ein Reservesektor einen bisher verwendeten ersetzt. Ist dieser RAW-Zähler ungleich 0, ist Wahrscheinlichkeit für einen Ausfall 5-facht.
07	0x07	Seek Error Rate	Suchfehlerrate	-	Nicht korrigierbare Fehler beim Lesen von der Festplatte, führt zum erneuten Einlesen. Deutet auf Positionierungsproblem der Schreib-Lese-Einheit hin.
09	0x09	Power On Hours Count	Zeit in Betrieb	-	Laufleistung in Stunden oder Sekunden (inklusive Standby) Deutet auf Abnutzung hin, sagt aber nichts über Nutzungsumstände in dieser Zeit aus.
10	0x0A	Spin Retry Count	Anlaufwiederholungen, nur bei HDDs relevant	-	Anzahl der Anlaufversuche zum Hochdrehen der Festplatten auf Nenndrehzahl. Ein ansteigender Wert deutet auf mechanische Probleme im Antrieb der Festplatte hin.
12	0x0C	Power Cycle Count	Anzahl der Einschaltungen	-	Gibt an, wie oft das Laufwerk ein- und ausgeschaltet worden ist.
184	0xB8	End-To-End error	Ende-zu-Ende Fehler	-	Steigende Werte zeigen Parityfehler zwischen Speichermedium und Laufwerkcontroller an.
187	0xBB	Reported uncorrectable Error	Gemeldete unkorrigierbare Fehler	-	Fehler welche durch die integrierte Vorwärtsfehlerkorrektur (ECC) nicht korrigiert werden konnten.
188	0xBC	Command Timeout	Kommandos, welche nicht rechtzeitig ausgeführt werden konnten	-	Anzahl der Kommandoabbrüche wegen Zeitüberschreitung
193	0xC1	Load Cycle Count bzw. Load/Unload Cycle Count	Parkvorgänge	-	Parkvorgänge der Schreib-Lese-Einheit auf die neben den Platten befindliche Plastikrampe. Meist nur bei Notebooklaufwerken. Deutet auf Abnutzung hin; vorgesehen sind rund 300.000 – der Raw-Wert zeigt die bisherigen. Geparkt wird die Schreib-Lese-Einheit beim Ausschalten oder nach rund 10 s Leerlauf. Das erzeugt ein mitunter irritierendes Geräusch.
194	0xC2	Drive Temperature	Festplatten-Temperatur	-	Temperatur des Laufwerkes in °C Da manche Laufwerke auch Maximal- und Minimalwert speichern, ist eine frühere Unterkühlung oder Überhitzung während des Betriebes erkennbar. Der als raw-value angegebene Wert enthält dann alle drei Zahlen hintereinander. Hohe Temperaturen (ab 40 °C) haben erst nach drei Jahren Auswirkung. In diesem Jahr verdoppeln sie die Ausfallwahrscheinlichkeit. Danach verlieren sie ihre Bedeutung wieder. Über alle Alter gemittelt, sind Temperaturen unter 25 °C weit gefährlicher als solche über 40 °C. 20 °C verdoppeln, 15 °C verdreifachen die Ausfallrate; gemessen wurde dabei bis 52 °C. Manche Hersteller verwenden ungenaue oder falsch platzierte Sensoren.
195	0xC3	Hardware ECC Recovered	gerettete Bitfehler	-	korrigierte Bitfehler beim Lesen Kann auf Problem mit der Plattenoberfläche hindeuten. Die hohe Datendichte heutiger Festplatten hat zur Folge, dass beim Lesen die Fehlerkorrektur zwangsläufig anschlägt. Auch sehr hohe Werte hier sind also kein Grund zur Beunruhigung. Samsung-Laufwerke der P80-Serie tragen hier fälschlicherweise oft sehr niedrige Skalenwerte ein. Generell sind sehr hohe Raw-Werte üblich, die wegen Wechseln von einer Technik auf eine neuere (engl.: „technology change“) auch zwischen Modellen desselben Herstellers nicht vergleichbar sind. Sie steigen bei Lesevorgängen, da nur dann eine Fehlerkorrektur stattfindet. Ausfallrelevant sind nur die Skalenwerte. Selten werden die Werte auch „ECC On-the-fly“ genannt.
196	0xC4	Reallocation Event Count		-	Anzahl bisher durchgeführten erfolgreichen und fehlgeschlagenen Neuzuweisungen der Sektorposition als Folge von Lesefehlern von defekten Sektoren.
197	0xC5	Current Pending Sector Count		-	Anzahl der aufgrund von Lesefehlern wartenden Sektoren auf Zuweisung einer neuen Sektorposition
198	0xC6	Uncorrectable Sector Count	Nicht korrigierbare Sektoren	-	Anzahl bisheriger nicht korrigierbarer Sektorfehler bei Schreibe- oder Leseoperationen.
199	0xC7	Ultra DMA CRC Error Count	DMA-CRC-Fehler	-	Anzahl der aufgetretenen CRC-Fehler Ursache können defekte Kabel, verschmutzte Kontakte, Übertaktung oder fehlerhafte Festplattentreiber sein. Die Übertragung wird in Stufen immer langsamer wiederholt. Misslingt dies, wird der Zugriff auf die Festplatte gesperrt.
201	0xC9	Soft Read Error Rate		-	Anzahl der nicht per Software korrigierbaren Lesefehler.

Es gibt noch zahlreiche weitere Parameter, auch herstellerexklusive. Vollständige Listen finden sich im Literatur-Abschnitt der Weblinks.

Beispiel

Die Auswertung wichtiger S.M.A.R.T.-Parameter am Beispiel einer Hitachi 250 GB-Festplatte, angeschlossen über Serial-ATA und ausgelesen mit den smartmontools.

Parameter-ID	Parametername	Value (normalisierter aktueller Messwert)	Worst (bisher schlechtester Wert)	Threshold (Grenzwert – Value sollte größer sein)	Typ (maximaler Messwert kurz vor dem Ausfall)	Updated (Echtzeit- oder Messwert nach einem Selbsttest)	RAW Value (eigentlicher Messwert)	Bemerkung
2	Throughput Performance	100	100	050	Pre-fail	Offline	0
3	Spin Up Time	118	118	024	Pre-fail	Always	294	Hitachi verwendet eine eigene Zählweise, keine (Milli-)Sekunden.
4	Start Stop Count	100	100	000	Old age	Always	772	772 mal wurde der Festplattenmotor an-/ausgeschaltet, inklusive Standby-Starts.
5	Reallocated Sector Count	100	100	005	Pre-fail	Always	55	55 Sektoren wurden wegen Defekts gegen Reservesektoren ausgetauscht. Das Laufwerk schätzt das aber noch als problemlos ein (der Value ist nach wie vor 100) – vielleicht zu Unrecht.
7	Seek Error Rate	100	100	067	Pre-fail	Always	0	Bisher gab es keine Schreib-/Lesefehler.
9	Power On Hours	100	100	000	Old age	Always	1775	Laufwerk wurde bisher 1775 Stunden mit Strom versorgt. Das umfasst auch Standbyphasen, in denen die Platten stillstanden. Wenn das Auswertungsprogramm das Festplattenmodell nicht kennt, muss man selbst einschätzen, ob der Wert Stunden, Minuten oder Sekunden darstellt.
10	Spin Retry Count	100	100	060	Pre-fail	Always	0	Bisher gab es keine Fehlstarts, die Festplatte lief immer problemlos an.
12	Power Cycle Count	100	100	000	Old age	Always	745	Bisher wurde der PC mit dieser Festplatte 745-mal an- und ausgeschaltet.
194	Temperature	161	161	000	Old age	Always	34 +(10·2¹⁶ + 49·2³²)	Aktuelle Temperatur wäre hier 34 °C. Bisherige Lebensmaxima des Laufwerkes waren 10 °C bzw. 49 °C. Value ist daher von 200 auf 161 gesunken.
199	UDMA CRC Error Count	200	253	000	Old age	Always	730	Bisher gab es 730 Übertragungsfehler zur Hauptplatine („mainboard“). Ursache ist entweder ein fehlerhafter Festplatten-Controller, ein defektes Anschlusskabel oder ein Wackelkontakt.

Value	ist ein normalisierter Messwert, der zumeist rückwärts zählt (je niedriger, desto schlechter).
Worst	der bisher schlechteste Wert.
Threshold	die Grenze, unter die der Wert nicht fallen darf.
Typ	steht für die Bedeutung des Parameters: „Pre-fail“ ist eine Warnung vor einem baldigen Ausfall, während „Old age“ bedeutet, dass es sich allgemein um fortschreitende Alterung handelt (Die aktuelle Temperatur fällt nicht unbedingt in eine der beiden Kategorien).
Updated	zeigt an, ob der Wert permanent (always) oder erst durch einen Selbsttest vom Typ „Offline data collection“ aktualisiert wird.
RAW Value	ist der eigentliche Messwert, also etwa die gemessene Temperatur oder die Zahl der Fehler.

Beispiel

Quellen

Wikipedia SMART

Thomas Krenn SMART

Thomas Krenn SMART-Tests mit smartctl

@@ Zeile 78: / Zeile 78: @@
 |data-sort-value="0"|-
 |
-* Nicht korrigierbare Fehler beim Lesen von der Festplatte
+* Nicht korrigierbare Fehler beim Lesen von der Festplatte, führt zum erneuten Einlesen
-* führt zum erneuten Einlesen
 * Problem mit der Plattenoberfläche
-* ''Einige Laufwerke haben hier sehr hohe Raw-Werte, die auch zwischen Modellen eines Herstellers nicht vergleichbar sind. Bei neueren [[Seagate]]-Laufwerken ist er fälschlicherweise identisch mit dem bei Hardware ECC Recovered. Ausfallrelevant sind nur die Skalenwerte.''
 |-
 |02
@@ Zeile 100: / Zeile 98: @@
 * Durchschnitt der Startzeit in (Milli-)Sekunden.
 * Deutet auf Probleme beim Motor oder den Plattenlagern hin.
-* ''Bei fabrikneuen Maxtor- und Quantum-Laufwerken kam es hier im ersten Monat häufig zu Falschalarmen.''
 |-
 |04
@@ Zeile 118: / Zeile 115: @@
 |
 * Anzahl der verbrauchten Reservesektoren.
-* Deutet auf Oberflächenprobleme hin, da nur dann automatisch ein Reservesektor einen bisher verwendeten ersetzt.
+* Deutet auf Oberflächenprobleme hin, da nur dann ein Reservesektor einen bisher verwendeten ersetzt.
-* ''Ist dieser RAW-Zähler ungleich null, ist die Wahrscheinlichkeit für einen Ausfall verfünffacht. Meist folgt dieser dem ersten „Reallocation Event“ binnen eines halben Jahres.''
+* Ist dieser RAW-Zähler ungleich 0, ist Wahrscheinlichkeit für einen Ausfall 5-facht.
 |-
 |07
@@ Zeile 129: / Zeile 126: @@
 * Nicht korrigierbare Fehler beim Lesen von der Festplatte, führt zum erneuten Einlesen.
 * Deutet auf Positionierungsproblem der Schreib-Lese-Einheit hin.
-* ''Auch vom Hersteller unerklärt, tragen hier einige fabrikneue Seagate-Laufwerke Skalenwerte weit unter 100 ein.''<ref>http://forums.storagereview.net/index.php?showtopic=20731</ref>
 |-
 |09
@@ Zeile 139: / Zeile 135: @@
 * Laufleistung in Stunden oder Sekunden (inklusive Standby)
 * Deutet auf Abnutzung hin, sagt aber nichts über Nutzungsumstände in dieser Zeit aus.
-* ''Bei einigen Modellen von Maxtor, z. B. bei der Maxtor DiamondMax 10 6L250S0 sind das Minuten.''
 |- style="background:#F65858"
 |10
@@ Zeile 163: / Zeile 158: @@
 |data-sort-value="0"|-
 |
-* Steigende Werte zeigen Parityfehler zwischen den Speichermedium und Laufwerkcontroller an.
+* Steigende Werte zeigen Parityfehler zwischen Speichermedium und Laufwerkcontroller an.
 |- style="background:#F65858"
 |187
@@ Zeile 171: / Zeile 166: @@
 |data-sort-value="0"|-
 |
-* Fehler welche durch die integrierte [[Vorwärtsfehlerkorrektur]] (ECC) nicht korrigiert werden konnten.
+* Fehler welche durch die integrierte Vorwärtsfehlerkorrektur (ECC) nicht korrigiert werden konnten.
 |- style="background:#F65858"
 |188
 |0xBC
 |'''Command Timeout'''
-|Kommandos welche nicht rechtzeitig ausgeführt werden konnten
+|Kommandos, welche nicht rechtzeitig ausgeführt werden konnten
 |data-sort-value="0"|-
 |
@@ Zeile 191: / Zeile 186: @@
 * Parkvorgänge der Schreib-Lese-Einheit auf die neben den Platten befindliche Plastikrampe.
 * Meist nur bei Notebooklaufwerken. Deutet auf Abnutzung hin; vorgesehen sind rund 300.000 – der Raw-Wert zeigt die bisherigen.
-* Geparkt wird die Schreib-Lese-Einheit beim Ausschalten oder nach rund 10 s Leerlauf. Das erzeugt ein mitunter irritierendes Geräusch. Kommt das Notebook zu Fall, stößt so die Schreib-Lese-Einheit nicht mehr auf die Magnetscheiben. Die Stoßfestigkeit wird auf rund 1000 [[Erdbeschleunigung|g]] verdreifacht. Auch das An- bzw. Ausschalten ist schonender, da die Einheit nicht schleifend auf einen Sonderbereich der Platten abgesenkt wird („[[Landezone (Festplatte)|Landing Zone]]“).<ref>[http://hddguru.com/content/en/articles/2006.02.17-Changing-headstack-Q-and-A/fig_13.jpg Bild: Schreib- Lesekopf in Parkposition]</ref>
+* Geparkt wird die Schreib-Lese-Einheit beim Ausschalten oder nach rund 10 s Leerlauf. Das erzeugt ein mitunter irritierendes Geräusch.
 |-
 |194
@@ Zeile 201: / Zeile 196: @@
 * Temperatur des Laufwerkes in °C
 * Da manche Laufwerke auch Maximal- und Minimalwert speichern, ist eine frühere Unterkühlung oder Überhitzung während des Betriebes erkennbar. Der als raw-value angegebene Wert enthält dann alle drei Zahlen hintereinander.
-* ''Hohe Temperaturen (ab 40 °C) haben erst nach drei Jahren Auswirkung. In diesem Jahr verdoppeln sie die Ausfallwahrscheinlichkeit. Danach verlieren sie ihre Bedeutung wieder. Über alle Alter gemittelt, sind Temperaturen unter 25 °C weit gefährlicher als solche über 40 °C. 20 °C verdoppeln, 15 °C verdreifachen die Ausfallrate; gemessen wurde dabei bis 52 °C. Manche Hersteller verwenden ungenaue oder falsch platzierte Sensoren.<ref name="google_pdf" />''
+* Hohe Temperaturen (ab 40 °C) haben erst nach drei Jahren Auswirkung. In diesem Jahr verdoppeln sie die Ausfallwahrscheinlichkeit. Danach verlieren sie ihre Bedeutung wieder. Über alle Alter gemittelt, sind Temperaturen unter 25 °C weit gefährlicher als solche über 40 °C. 20 °C verdoppeln, 15 °C verdreifachen die Ausfallrate; gemessen wurde dabei bis 52 °C. Manche Hersteller verwenden ungenaue oder falsch platzierte Sensoren.
 |-
 |195
@@ Zeile 211: / Zeile 206: @@
 * korrigierte Bitfehler beim Lesen
 * Kann auf Problem mit der Plattenoberfläche hindeuten.
-* Die hohe Datendichte heutiger Festplatten hat zur Folge, dass beim Lesen die Fehlerkorrektur zwangsläufig anschlägt.<sup>[Beleg?]</sup> Auch sehr hohe Werte hier sind also kein Grund zur Beunruhigung.
+* Die hohe Datendichte heutiger Festplatten hat zur Folge, dass beim Lesen die Fehlerkorrektur zwangsläufig anschlägt. Auch sehr hohe Werte hier sind also kein Grund zur Beunruhigung.
-* ''[[Samsung]]-Laufwerke der P80-Serie tragen hier fälschlicherweise oft sehr niedrige Skalenwerte ein. Generell sind sehr hohe Raw-Werte üblich, die wegen Wechseln von einer Technik auf eine neuere (engl.: „technology change“) auch zwischen Modellen desselben Herstellers nicht vergleichbar sind. Sie steigen bei Lesevorgängen, da nur dann eine Fehlerkorrektur stattfindet. Ausfallrelevant sind nur die Skalenwerte. Selten werden die Werte auch „ECC On-the-fly“ genannt.''
+* Samsung-Laufwerke der P80-Serie tragen hier fälschlicherweise oft sehr niedrige Skalenwerte ein. Generell sind sehr hohe Raw-Werte üblich, die wegen Wechseln von einer Technik auf eine neuere (engl.: „technology change“) auch zwischen Modellen desselben Herstellers nicht vergleichbar sind. Sie steigen bei Lesevorgängen, da nur dann eine Fehlerkorrektur stattfindet. Ausfallrelevant sind nur die Skalenwerte. Selten werden die Werte auch „ECC On-the-fly“ genannt.''
 |- style="background:#F65858"
 |196
@@ Zeile 245: / Zeile 240: @@
 |
 * Anzahl der aufgetretenen [[Zyklische Redundanzprüfung|CRC]]-Fehler
-* Ursache können defekte Kabel, verschmutzte Kontakte, [[Übertakten|Übertaktung]] oder fehlerhafte Festplattentreiber sein. Die Übertragung wird in Stufen immer langsamer wiederholt. Misslingt dies, wird der Zugriff auf die Festplatte gesperrt.
+* Ursache können defekte Kabel, verschmutzte Kontakte, Übertaktung oder fehlerhafte Festplattentreiber sein. Die Übertragung wird in Stufen immer langsamer wiederholt. Misslingt dies, wird der Zugriff auf die Festplatte gesperrt.
 |- style="background:#F65858"
 |201

SMART: Unterschied zwischen den Versionen

Robertquies (Diskussion | Beiträge)

Version vom 2. Juli 2020, 18:15 Uhr

Funktionsweise

Informationswert

Auswertung

Parameter

RAW-Werte

Beispiel

Beispiel

Quellen