SMART

Aus Foxwiki
  • Self-Monitoring, Analysis and Reporting Technology (dt. System zur Selbstüberwachung, Analyse und Statusmeldung)
    • ist ein Industriestandard zur Überwachung von Festplattenlaufwerken (HDD) und Solid-State-Drives (SSD)
    • dient der Vorhersage eines möglichen Ausfalls des Speichermediums.
    • dabei die Werte verschiedener Sensoren mit Hilfe von unterschiedlichen Parametern ausgewertet.
  • Alle aktuellen Festplatten und SSDs haben SMART Funktionalität.

Funktionsweise

  • Auswertung der überwachten Daten erfolgt beim Starten des Rechners durch
    • das BIOS,
    • andere Firmware,
    • oder durch spezielle Software.
  • SMART orientiert sich an vom Festplattenhersteller festgelegten Grenzwerten, etwa für die Temperatur.
  • Nach einem längeren Zeitraum kann ein zu erwartender Ausfall prognostiziert werden.
  • Wird SMART "abgeschaltet", werden weiterhin alle Daten erfasst, aber keine Warnungen mehr gemeldet.
  • Gespeichert werden die gesammelten Daten in einem reservierten, durch Programme nicht änderbaren Bereich der Festplatte.
  • Die Überwachung verlangsamt die Festplatte nicht, da nur protokolliert wird, ohne korrigierend einzugreifen.
  • Verbaute Sensoren und Chipfunktionen erfassen die Werte.
  • Aktualisierung der Daten
    • "Online"-Parameter, die permanent notiert werden.
    • "Offline"-Parameter, die erst in Ruhepausen aktualisiert werden.

Informationswert

  • Liefern keine Aussage zur Gesamtzuverlässigkeit des Rechnersystems.
  • Auf Massenspeicher wie Festplatten oder SSDs beschränkt.
  • Ist nicht normiert, sondern es ist den Herstellern überlassen, welche Parameter in welchen Grenzen überwacht werden.
  • Die Genauigkeit der Überwachung wird diskutiert.
    • Manche Temperatursensoren gelten als falsch platziert oder zu optimistisch eingestellt.
  • Ergebnis einer unabhängigen Google-Studie von 2006, Dauer über neun Monate, mit 100.000 Festplatten aller Hersteller:
    • Es sind 64 % aller Ausfälle mit SMART vorhersagbar.
    • Die Beanspruchung der Festplatte hatte einen geringeren Einfluss auf ihre Haltbarkeit als angenommen.
    • Nur im 1. und nach dem 4. Jahr verdoppelt permanentes Lesen und Schreiben die Ausfallrate.

Auswertung

Parameter

  • als Raw-Werte gespeichert
  • Raw-Wert wird zum besseren Verständnis in Werteskala von 0 bis 100, 200 oder 255 einsortiert
  • Werteskala
    • startet mit dem Skalenmaximum
    • bei Fehlern oder zunehmendem Alter nähern sich Werte (value) gegen 0
    • kritische Grenze (threshold) für möglichen Ausfall häufig weit über 0
wichtig:
Raw-Werte nicht verwechseln mit den Values der Werteskala.

RAW-Werte

Legende
A Ausfallsrelevanter Parameter.
Wenig bis nicht ausfallrelevanter Parameter.
+ Je höher der Raw-Wert, desto besser.
- Je niedriger der Raw-Wert, desto besser.
A? ID Hex Parametername (Englisch) Parametername (Deutsch) + - Beschreibung
01 0x01 Raw Read Error Rate Lesefehlerrate (roh) -
  • Nicht korrigierbare Fehler beim Lesen von der Festplatte, führt zum erneuten Einlesen
  • Problem mit der Plattenoberfläche
02 0x02 Throughput Performance Durchsatz +
  • allgemeiner Datendurchsatz bzw. Effizienz der Festplatte
  • Deutet stark auf bremsende Probleme im Laufwerk hin.
03 0x03 Spin Up Time Beschleunigungszeit -
  • Durchschnitt der Startzeit in (Milli-)Sekunden.
  • Deutet auf Probleme beim Motor oder den Plattenlagern hin.
04 0x04 Start/Stop Count Start/Stop-Vorgänge -
  • Anzahl der Start- bzw. Stop-Vorgänge eines Laufwerkes (auch Standby)
  • Deutet auf Abnutzung hin, da dieser Vorgang Festplatten am stärksten belastet.
A 05 0x05 Reallocated Sectors Count wiederzugewiesene Sektoren -
  • Anzahl der verbrauchten Reservesektoren.
  • Deutet auf Oberflächenprobleme hin, da nur dann ein Reservesektor einen bisher verwendeten ersetzt.
  • Ist dieser RAW-Zähler ungleich 0, ist Wahrscheinlichkeit für einen Ausfall 5-facht.
07 0x07 Seek Error Rate Suchfehlerrate -
  • Nicht korrigierbare Fehler beim Lesen von der Festplatte, führt zum erneuten Einlesen.
  • Deutet auf Positionierungsproblem der Schreib-Lese-Einheit hin.
09 0x09 Power On Hours Count Zeit in Betrieb -
  • Laufleistung in Stunden oder Sekunden (inklusive Standby)
  • Deutet auf Abnutzung hin, sagt aber nichts über Nutzungsumstände in dieser Zeit aus.
A 10 0x0A Spin Retry Count Anlaufwiederholungen,
nur bei HDDs relevant
-
  • Anzahl der Anlaufversuche zum Hochdrehen der Festplatten auf Nenndrehzahl. Ein ansteigender Wert deutet auf mechanische Probleme im Antrieb der Festplatte hin.
12 0x0C Power Cycle Count Anzahl der Einschaltungen -
  • Gibt an, wie oft das Laufwerk ein- und ausgeschaltet worden ist.
A 184 0xB8 End-To-End error Ende-zu-Ende Fehler -
  • Steigende Werte zeigen Parityfehler zwischen Speichermedium und Laufwerkcontroller an.
A 187 0xBB Reported uncorrectable Error Gemeldete unkorrigierbare Fehler -
  • Fehler welche durch die integrierte Vorwärtsfehlerkorrektur (ECC) nicht korrigiert werden konnten.
A 188 0xBC Command Timeout Kommandos, welche nicht rechtzeitig ausgeführt werden konnten -
  • Anzahl der Kommandoabbrüche wegen Zeitüberschreitung
193 0xC1 Load Cycle Count

bzw. Load/Unload Cycle Count

Parkvorgänge -
  • Parkvorgänge der Schreib-Lese-Einheit auf die neben den Platten befindliche Plastikrampe.
  • Meist nur bei Notebooklaufwerken. Deutet auf Abnutzung hin; vorgesehen sind rund 300.000 – der Raw-Wert zeigt die bisherigen.
  • Geparkt wird die Schreib-Lese-Einheit beim Ausschalten oder nach rund 10 s Leerlauf. Das erzeugt ein mitunter irritierendes Geräusch.
194 0xC2 Drive Temperature Festplatten-Temperatur -
  • Temperatur des Laufwerkes in °C
  • Der als raw-value angegebene Wert kann drei Werte enthalten Min-,Ist- und Max-Wert.
  • Hohe Temperaturen (ab 40°C) haben nur während des 3.Jahres Auswirkungen (Verdopplung Ausfallwahrscheinlichkeit), danach nicht mehr. Temperaturen unter 25°C sind weit gefährlicher als solche über 40°C. 20°C 2x, 15°C 3x so hohe Ausfallrate.
195 0xC3 Hardware ECC Recovered gerettete Bitfehler -
  • korrigierte Bitfehler beim Lesen
  • Kann auf Problem mit Plattenoberfläche hindeuten.
  • Die hohe Datendichte von Festplatten hat zur Folge, dass beim Lesen die Fehlerkorrektur zwangsläufig anschlägt. Sehr hohe Werte sind kein Grund zur Beunruhigung.
A 196 0xC4 Reallocation Event Count -
  • Anzahl bisher durchgeführten erfolgreichen und fehlgeschlagenen Neuzuweisungen der Sektorposition als Folge von Lesefehlern von defekten Sektoren.
A 197 0xC5 Current Pending Sector Count -
  • Anzahl der aufgrund von Lesefehlern wartenden Sektoren auf Zuweisung einer neuen Sektorposition
A 198 0xC6 Uncorrectable Sector Count Nicht korrigierbare Sektoren -
  • Anzahl bisheriger nicht korrigierbarer Sektorfehler bei Schreibe- oder Leseoperationen.
199 0xC7 Ultra DMA CRC Error Count DMA-CRC-Fehler -
  • Anzahl der aufgetretenen CRC-Fehler
  • Ursache können defekte Kabel, verschmutzte Kontakte, Übertaktung oder fehlerhafte Festplattentreiber sein. Die Übertragung wird in Stufen immer langsamer wiederholt. Misslingt dies, wird der Zugriff auf die Festplatte gesperrt.
A 201 0xC9 Soft Read Error Rate -
  • Anzahl der nicht per Software korrigierbaren Lesefehler.


  • Es gibt noch zahlreiche weitere Parameter, auch herstellerexklusive.

Beispiel

Quellen

Wikipedia SMART

Thomas Krenn SMART

Thomas Krenn SMART-Tests mit smartctl