Self-Monitoring, Analysis and Reporting Technology (dt. System zur Selbstüberwachung, Analyse und Statusmeldung)
ist ein Industriestandard zur Überwachung von Festplattenlaufwerken (HDD) und Solid-State-Drives (SSD)
dient der Vorhersage eines möglichen Ausfalls des Speichermediums.
dabei die Werte verschiedener Sensoren mit Hilfe von unterschiedlichen Parametern ausgewertet.
Übliche Parameter
Jeder Wert wird zuerst als Raw-Data gespeichert. Dieser wird dann zum besseren Verständnis auf einer Werteskala von 0 bis 100, 200 oder 255 einsortiert. Die unterschiedlichen Skalen dienen dabei einer feineren Abstufung, wo der Hersteller sie für sinnvoll erachtet. Mit dem Skalenmaximum startend, nähert sich der Wert (value) bei Fehlern oder zunehmendem Alter null. Häufig ist die kritische Grenze (Threshold) aber schon weit darüber angesiedelt.[1]
Nachstehende Tabelle zeigt die einzelnen Parameter und die Bewertung der jeweiligen Raw-Werte auf (nicht zu verwechseln mit den Values der Werteskala):
Legende der Raw-Werte
A
Ausfallsrelevanter Parameter. So vorhanden, können damit mögliche Ausfälle prognostiziert werden.
I
Informierend, für die Ausfallsprognose wenig bis nicht relevanter Parameter
Je höher der Raw-Wert, desto besser
Je niedriger der Raw-Wert, desto besser
ID
Hex
Parametername (Englisch)
Parametername (Deutsch)
A
I
Besser
Beschreibung
01
0x01
(Raw) Read Error Rate
Lesefehlerrate (roh)
Nicht korrigierbare Fehler beim Lesen von der Festplatte, führt zum erneuten Einlesen.
Deutet auf Problem mit der Plattenoberfläche hin.
Einige Laufwerke haben hier sehr hohe Raw-Werte, die auch zwischen Modellen eines Herstellers nicht vergleichbar sind. Bei neueren Seagate-Laufwerken ist er fälschlicherweise identisch mit dem bei Hardware ECC Recovered. Ausfallrelevant sind nur die Skalenwerte.
02
0x02
Throughput Performance
Durchsatz
allgemeiner Datendurchsatz bzw. Effizienz der Festplatte
Deutet stark auf bremsende Probleme im Laufwerk hin.
03
0x03
Spin Up Time
Beschleunigungszeit
Durchschnitt der Startzeit in (Milli-)Sekunden.
Deutet auf Probleme beim Motor oder den Plattenlagern hin.
Bei fabrikneuen Maxtor- und Quantum-Laufwerken kam es hier im ersten Monat häufig zu Falschalarmen.
04
0x04
Start/Stop Count
Start/Stop-Vorgänge
ja
Anzahl der Start- bzw. Stop-Vorgänge eines Laufwerkes (auch Standby)
Deutet auf Abnutzung hin, da dieser Vorgang Festplatten am stärksten belastet.
05
0x05
Reallocated Sectors Count
wiederzugewiesene Sektoren
Anzahl der verbrauchten Reservesektoren.
Deutet auf Oberflächenprobleme hin, da nur dann automatisch ein Reservesektor einen bisher verwendeten ersetzt.
Ist dieser RAW-Zähler ungleich null, ist die Wahrscheinlichkeit für einen Ausfall verfünffacht. Meist folgt dieser dem ersten „Reallocation Event“ binnen eines halben Jahres.
07
0x07
Seek Error Rate
Suchfehlerrate
Nicht korrigierbare Fehler beim Lesen von der Festplatte, führt zum erneuten Einlesen.
Deutet auf Positionierungsproblem der Schreib-Lese-Einheit hin.
Auch vom Hersteller unerklärt, tragen hier einige fabrikneue Seagate-Laufwerke Skalenwerte weit unter 100 ein.[2]
09
0x09
Power On Hours Count
Zeit in Betrieb
ja
Laufleistung in Stunden oder Sekunden (inklusive Standby)
Deutet auf Abnutzung hin, sagt aber nichts über Nutzungsumstände in dieser Zeit aus.
Bei einigen Modellen von Maxtor, z. B. bei der Maxtor DiamondMax 10 6L250S0 sind das Minuten.
10
0x0A
Spin Retry Count
Anlaufwiederholungen, nur bei HDDs relevant
Anzahl der Anlaufversuche zum Hochdrehen der Festplatten auf Nenndrehzahl. Ein ansteigender Wert deutet auf mechanische Probleme im Antrieb der Festplatte hin.
12
0x0C
Power Cycle Count
Anzahl der Einschaltungen
ja
Gibt an, wie oft das Laufwerk ein- und ausgeschaltet worden ist.
184
0xB8
End-To-End error
Ende-zu-Ende Fehler
Steigende Werte zeigen Parityfehler zwischen den Speichermedium und Laufwerkcontroller an.
187
0xBB
Reported uncorrectable Error
Gemeldete unkorrigierbare Fehler
Fehler welche durch die integrierte Vorwärtsfehlerkorrektur (ECC) nicht korrigiert werden konnten.
188
0xBC
Command Timeout
Kommandos welche nicht rechtzeitig ausgeführt werden konnten
Anzahl der Kommandoabbrüche wegen Zeitüberschreitung
193
0xC1
Load Cycle Count
bzw.
Load/Unload Cycle Count
Parkvorgänge
ja
Parkvorgänge der Schreib-Lese-Einheit auf die neben den Platten befindliche Plastikrampe.
Meist nur bei Notebooklaufwerken. Deutet auf Abnutzung hin; vorgesehen sind rund 300.000 – der Raw-Wert zeigt die bisherigen.
Geparkt wird die Schreib-Lese-Einheit beim Ausschalten oder nach rund 10 s Leerlauf. Das erzeugt ein mitunter irritierendes Geräusch. Kommt das Notebook zu Fall, stößt so die Schreib-Lese-Einheit nicht mehr auf die Magnetscheiben. Die Stoßfestigkeit wird auf rund 1000 g verdreifacht. Auch das An- bzw. Ausschalten ist schonender, da die Einheit nicht schleifend auf einen Sonderbereich der Platten abgesenkt wird („Landing Zone“).[3]
194
0xC2
Drive Temperature
Festplatten-Temperatur
Temperatur des Laufwerkes in °C
Da manche Laufwerke auch Maximal- und Minimalwert speichern, ist eine frühere Unterkühlung oder Überhitzung während des Betriebes erkennbar. Der als raw-value angegebene Wert enthält dann alle drei Zahlen hintereinander.
Hohe Temperaturen (ab 40 °C) haben erst nach drei Jahren Auswirkung. In diesem Jahr verdoppeln sie die Ausfallwahrscheinlichkeit. Danach verlieren sie ihre Bedeutung wieder. Über alle Alter gemittelt, sind Temperaturen unter 25 °C weit gefährlicher als solche über 40 °C. 20 °C verdoppeln, 15 °C verdreifachen die Ausfallrate; gemessen wurde dabei bis 52 °C. Manche Hersteller verwenden ungenaue oder falsch platzierte Sensoren.[4]
195
0xC3
Hardware ECC Recovered
gerettete Bitfehler
korrigierte Bitfehler beim Lesen
Kann auf Problem mit der Plattenoberfläche hindeuten.
Die hohe Datendichte heutiger Festplatten hat zur Folge, dass beim Lesen die Fehlerkorrektur zwangsläufig anschlägt.[Beleg?] Auch sehr hohe Werte hier sind also kein Grund zur Beunruhigung.
Samsung-Laufwerke der P80-Serie tragen hier fälschlicherweise oft sehr niedrige Skalenwerte ein. Generell sind sehr hohe Raw-Werte üblich, die wegen Wechseln von einer Technik auf eine neuere (engl.: „technology change“) auch zwischen Modellen desselben Herstellers nicht vergleichbar sind. Sie steigen bei Lesevorgängen, da nur dann eine Fehlerkorrektur stattfindet. Ausfallrelevant sind nur die Skalenwerte. Selten werden die Werte auch „ECC On-the-fly“ genannt.
196
0xC4
Reallocation Event Count
Anzahl bisher durchgeführten erfolgreichen und fehlgeschlagenen Neuzuweisungen der Sektorposition als Folge von Lesefehlern von defekten Sektoren.
197
0xC5
Current Pending Sector Count
Anzahl der aufgrund von Lesefehlern wartenden Sektoren auf Zuweisung einer neuen Sektorposition
198
0xC6
Uncorrectable Sector Count
Nicht korrigierbare Sektoren
Anzahl bisheriger nicht korrigierbarer Sektorfehler bei Schreibe- oder Leseoperationen.
Ursache können defekte Kabel, verschmutzte Kontakte, Übertaktung oder fehlerhafte Festplattentreiber sein. Die Übertragung wird in Stufen immer langsamer wiederholt. Misslingt dies, wird der Zugriff auf die Festplatte gesperrt.
201
0xC9
Soft Read Error Rate
Anzahl der nicht per Software korrigierbaren Lesefehler.
Es gibt noch zahlreiche weitere Parameter, auch herstellerexklusive. Vollständige Listen finden sich im Literatur-Abschnitt der Weblinks.