SMART
SMART - Self-Monitoring, Analysis and Reporting Technology
Beschreibung
System zur Selbstüberwachung, Analyse und Statusmeldung
- Industriestandard
Überwachung von Festplattenlaufwerken (HDD) und Solid-State-Drives (SSD)
- Vorhersage eines möglichen Ausfalls des Speichermediums
- Dabei werden die Werte verschiedener Sensoren mithilfe von unterschiedlichen Parametern ausgewertet
- Alle aktuellen Festplatten und SSDs haben SMART-Funktionalität
Funktionsweise
Auswertung der überwachten Daten erfolgt beim Starten des Rechners durch
SMART orientiert sich an vom Festplattenhersteller festgelegten Grenzwerten, etwa für die Temperatur
Nach einem längeren Zeitraum kann ein zu erwartender Ausfall prognostiziert werden
- Wird SMART "abgeschaltet", werden weiterhin alle Daten erfasst, aber keine Warnungen mehr gemeldet
Gespeichert werden die gesammelten Daten in einem reservierten, durch Programme nicht änderbaren Bereich der Festplatte
Die Überwachung verlangsamt die Festplatte nicht, da nur protokolliert wird, ohne korrigierend einzugreifen
Verbaute Sensoren und Chipfunktionen erfassen die Werte
Aktualisierung der Daten
Parameter | Eigenschaft |
---|---|
Online | werden permanent notiert |
Offline | werden im Ruhepausen aktualisiert |
Informationswert
- Liefern keine Aussage zur Gesamtzuverlässigkeit des Rechnersystems
- Auf Massenspeicher wie Festplatten oder SSDs beschränkt
- Ist nicht normiert, sondern es ist den Herstellern überlassen, welche Parameter in welchen Grenzen überwacht werden
- Die Genauigkeit der Überwachung wird diskutiert
- Manche Temperatursensoren gelten als falsch platziert oder zu optimistisch eingestellt
- Ergebnis einer unabhängigen Google-Studie von 2006, Dauer über neun Monate, mit 100.000 Festplatten aller Hersteller
- Es sind 64 % aller Ausfälle mit SMART vorhersagbar
- Die Beanspruchung der Festplatte hatte einen geringeren Einfluss auf ihre Haltbarkeit als angenommen
- Nur im 1. und nach dem 4. Jahr verdoppelt permanentes Lesen und Schreiben die Ausfallrate
Wichtige Attribute
Attribut | Erklärung |
---|---|
Raw Read Error Rate | Lesen-Fehlerrate, Problem Lese/Schreib-Köpfe/Plattenoberfläche |
Spin Up Time | Zeit Stillstand bis volle Arbeitsumdrehung |
Reallocated Sector | Verschieben defekter Sektoren in Reserve-Sektoren |
Seek Error Rate | Fehler Ausrichtung Festplattenkopf |
Power On Hours | Laufzeit Festplatte |
Power Cycle Count | Anzahl Anschaltvorgänge |
Multi Zone Error Rate | Fehlerrate beim Schreiben |
Auswertung
Parameter
- als Raw-Werte gespeichert
- Raw-Wert wird zum besseren Verständnis in Werteskala von 0 bis 100, 200 oder 255 einsortiert
- Werteskala
- startet mit dem Skalenmaximum
- bei Fehlern oder zunehmendem Alter nähern sich Werte (value) gegen 0
- kritische Grenze (threshold) für möglichen Ausfall häufig weit über 0
- Achtung
Raw-Werte nicht mit Values der Werteskala verwechseln!
RAW-Werte
Legende | |
---|---|
A | Ausfallsrelevanter Parameter |
Wenig bis nicht ausfallrelevanter Parameter | |
+ | Je höher der Raw-Wert, desto besser |
- | Je niedriger der Raw-Wert, desto besser |
A? | ID | Hex | Parametername (Englisch) | Parametername (Deutsch) | + - | Beschreibung |
---|---|---|---|---|---|---|
01 | 0x01 | Raw Read Error Rate | Lesefehlerrate (roh) | - |
| |
02 | 0x02 | Throughput Performance | Durchsatz | + |
| |
03 | 0x03 | Spin Up Time | Beschleunigungszeit | - |
| |
04 | 0x04 | Start/Stop Count | Start/Stop-Vorgänge | - |
| |
A | 05 | 0x05 | Reallocated Sectors Count | wiederzugewiesene Sektoren | - |
|
07 | 0x07 | Seek Error Rate | Suchfehlerrate | - |
| |
09 | 0x09 | Power On Hours Count | Zeit in Betrieb | - |
| |
A | 10 | 0x0A | Spin Retry Count | Anlaufwiederholungen, nur bei HDDs relevant |
- |
|
12 | 0x0C | Power Cycle Count | Anzahl der Einschaltungen | - |
| |
A | 184 | 0xB8 | End-To-End error | Ende-zu-Ende Fehler | - |
|
A | 187 | 0xBB | Reported uncorrectable Error | Gemeldete unkorrigierbare Fehler | - |
|
A | 188 | 0xBC | Command Timeout | Kommandos, welche nicht rechtzeitig ausgeführt werden konnten | - |
|
193 | 0xC1 | Load Cycle Count
bzw Load/Unload Cycle Count |
Parkvorgänge | - |
| |
194 | 0xC2 | Drive Temperature | Festplatten-Temperatur | - |
| |
195 | 0xC3 | Hardware ECC Recovered | gerettete Bitfehler | - |
| |
A | 196 | 0xC4 | Reallocation Event Count | - |
| |
A | 197 | 0xC5 | Current Pending Sector Count | - |
| |
A | 198 | 0xC6 | Uncorrectable Sector Count | Nicht korrigierbare Sektoren | - |
|
199 | 0xC7 | Ultra DMA CRC Error Count | DMA-CRC-Fehler | - |
| |
A | 201 | 0xC9 | Soft Read Error Rate | - |
|
- Es gibt noch zahlreiche weitere Parameter, auch herstellerexklusive
Beispiel
Die Auswertung wichtiger S.M.A.R.T.-Parameter am Beispiel einer Hitachi 250 GB-Festplatte, angeschlossen über Serial-ATA und ausgelesen mit den smartmontools
Value | ist ein normalisierter Messwert, der zumeist rückwärts zählt (je niedriger, desto schlechter) |
---|---|
Worst | der bisher schlechteste Wert |
Threshold | die Grenze, unter die der Wert nicht fallen darf. |
Typ | steht für die Bedeutung des Parameters: „Pre-fail“ ist eine Warnung vor einem baldigen Ausfall, während „Old age“ bedeutet, dass es sich allgemein um fortschreitende Alterung handelt (Die aktuelle Temperatur fällt nicht unbedingt in eine der beiden Kategorien) |
Updated | zeigt an, ob der Wert permanent (always) oder erst durch einen Selbsttest vom Typ „Offline data collection“ aktualisiert wird |
RAW Value | ist der eigentliche Messwert, also etwa die gemessene Temperatur oder die Zahl der Fehler |
Parameter-ID | Parametername | Value | Worst | Threshold | Typ | Updated | RAW Value | Bemerkung |
---|---|---|---|---|---|---|---|---|
2 | Throughput Performance | 100 | 100 | 050 | Pre-fail | Offline | 0 | |
3 | Spin Up Time | 118 | 118 | 024 | Pre-fail | Always | 294 | Hitachi verwendet eine eigene Zählweise, keine (Milli-)Sekunden |
4 | Start Stop Count | 100 | 100 | 000 | Old age | Always | 772 | 772 mal wurde der Festplattenmotor an-/ausgeschaltet, inklusive Standby-Starts |
5 | Reallocated Sector Count | 100 | 100 | 005 | Pre-fail | Always | 55 | 55 Sektoren wegen Defekts gegen Reservesektoren ausgetauscht. Laufwerk schätzt das als problemlos ein |
7 | Seek Error Rate | 100 | 100 | 067 | Pre-fail | Always | 0 | Bisher gab es keine Schreib-/Lesefehler |
9 | Power On Hours | 100 | 100 | 000 | Old age | Always | 1775 | Laufwerk wurde bisher 1775 Stunden mit Strom versorgt. Umfasst auch Standbyphasen. Immer prüfen, ob der Wert Std., Min. oder Sek. darstellt |
10 | Spin Retry Count | 100 | 100 | 060 | Pre-fail | Always | 0 | Bisher gab es keine Fehlstarts, die Festplatte lief immer problemlos an |
12 | Power Cycle Count | 100 | 100 | 000 | Old age | Always | 745 | Bisher wurde der PC mit dieser Festplatte 745-mal an- und ausgeschaltet |
194 | Temperature | 161 | 161 | 000 | Old age | Always | 34 10 49 |
Aktuelle Temperatur wäre hier 34°C. Bisherige Lebensmaxima des Laufwerkes waren 10°C bzw. 49°C. Value ist daher von 200 auf 161 gesunken |
199 | UDMA CRC Error Count | 200 | 253 | 000 | Old age | Always | 730 | Bisher gab es 730 Übertragungsfehler zum Mainboard. Ursache: fehlerhafter Festplatten-Controller, defektes Anschlusskabel oder Wackelkontakt |
- Auswertung
- Laufwerk ist in Ordnung
- Kein Grenzwert erreicht
- Reallocated Sector Count-Wert: Die 55 ausgewechselten Sektoren sind laut einer Google-Studie bedenklich
- UDMA CRC Error Count-Wert: Besser Kabel tauschen. Wert danach im Auge behalten
Anhang
Siehe auch
Links
Weblinks
- https://de.wikipedia.org/wiki/Self-Monitoring,_Analysis_and_Reporting_Technology
- https://www.thomas-krenn.com/de/wiki/SMART
- https://www.thomas-krenn.com/de/wiki/SMART_Tests_mit_smartctl