SMART: Unterschied zwischen den Versionen
K Textersetzung - „ “ durch „ “ |
|||
(16 dazwischenliegende Versionen von 2 Benutzern werden nicht angezeigt) | |||
Zeile 1: | Zeile 1: | ||
'''S'''elf-'''M'''onitoring, '''A'''nalysis and '''R'''eporting '''T'''echnology (dt. System zur Selbstüberwachung, Analyse und Statusmeldung) | |||
=smart= | |||
* | *Ist ein Industriestandard zur Überwachung von Festplattenlaufwerken (HDD) und Solid-State-Drives (SSD) | ||
* | *Dient der Vorhersage eines möglichen Ausfalls des Speichermediums. | ||
* | *Dabei werden die Werte verschiedener Sensoren mit Hilfe von unterschiedlichen Parametern ausgewertet. | ||
*Alle aktuellen Festplatten und SSDs haben SMART Funktionalität. | *Alle aktuellen Festplatten und SSDs haben SMART Funktionalität. | ||
Zeile 33: | Zeile 34: | ||
**Die Beanspruchung der Festplatte hatte einen geringeren Einfluss auf ihre Haltbarkeit als angenommen. | **Die Beanspruchung der Festplatte hatte einen geringeren Einfluss auf ihre Haltbarkeit als angenommen. | ||
**Nur im 1. und nach dem 4. Jahr verdoppelt permanentes Lesen und Schreiben die Ausfallrate. | **Nur im 1. und nach dem 4. Jahr verdoppelt permanentes Lesen und Schreiben die Ausfallrate. | ||
=wichtige Attribute= | |||
{| class="wikitable" style="margin:0px; text-align:left;" | |||
! Attribut | |||
! Erklärung | |||
|- | |||
| Raw Read Error Rate | |||
| Lesen-Fehlerrate, Problem Lese/Schreib-Köpfe/Plattenoberfläche | |||
|- | |||
| Spin Up Time | |||
| Zeit Stillstand bis volle Arbeitsumdrehung | |||
|- | |||
| Reallocated Sector | |||
| Verschieben defekter Sektoren in Reserve-Sektoren | |||
|- | |||
| Seek Error Rate | |||
| Fehler Ausrichtung Festplattenkopf | |||
|- | |||
| Power On Hours | |||
| Laufzeit Festplatte | |||
|- | |||
| Power Cycle Count | |||
| Anzahl Anschaltvorgänge | |||
|- | |||
| Multi Zone Error Rate | |||
| Fehlerrate beim Schreiben | |||
|} | |||
=Auswertung= | =Auswertung= | ||
Zeile 51: | Zeile 80: | ||
!colspan="2" scope="row"; | Legende | !colspan="2" scope="row"; | Legende | ||
|- | |- | ||
! scope="row" style="background:# | ! scope="row" style="background:#ffbcbd; | A | ||
| Ausfallsrelevanter Parameter. | | Ausfallsrelevanter Parameter. | ||
|- | |- | ||
Zeile 112: | Zeile 141: | ||
* Anzahl der Start- bzw. Stop-Vorgänge eines Laufwerkes (auch Standby) | * Anzahl der Start- bzw. Stop-Vorgänge eines Laufwerkes (auch Standby) | ||
* Deutet auf Abnutzung hin, da dieser Vorgang Festplatten am stärksten belastet. | * Deutet auf Abnutzung hin, da dieser Vorgang Festplatten am stärksten belastet. | ||
|- style="background:# | |- style="background:#ffbcbd;" | ||
|A | |A | ||
|05 | |05 | ||
Zeile 143: | Zeile 172: | ||
* Laufleistung in Stunden oder Sekunden (inklusive Standby) | * Laufleistung in Stunden oder Sekunden (inklusive Standby) | ||
* Deutet auf Abnutzung hin, sagt aber nichts über Nutzungsumstände in dieser Zeit aus. | * Deutet auf Abnutzung hin, sagt aber nichts über Nutzungsumstände in dieser Zeit aus. | ||
|- style="background:# | |- style="background:#ffbcbd" | ||
|A | |A | ||
|10 | |10 | ||
Zeile 161: | Zeile 190: | ||
| | | | ||
* Gibt an, wie oft das Laufwerk ein- und ausgeschaltet worden ist. | * Gibt an, wie oft das Laufwerk ein- und ausgeschaltet worden ist. | ||
|- style="background:# | |- style="background:#ffbcbd" | ||
|A | |A | ||
|184 | |184 | ||
Zeile 170: | Zeile 199: | ||
| | | | ||
* Steigende Werte zeigen Parityfehler zwischen Speichermedium und Laufwerkcontroller an. | * Steigende Werte zeigen Parityfehler zwischen Speichermedium und Laufwerkcontroller an. | ||
|- style="background:# | |- style="background:#ffbcbd" | ||
|A | |A | ||
|187 | |187 | ||
Zeile 179: | Zeile 208: | ||
| | | | ||
* Fehler welche durch die integrierte Vorwärtsfehlerkorrektur (ECC) nicht korrigiert werden konnten. | * Fehler welche durch die integrierte Vorwärtsfehlerkorrektur (ECC) nicht korrigiert werden konnten. | ||
|- style="background:# | |- style="background:#ffbcbd" | ||
|A | |A | ||
|188 | |188 | ||
Zeile 223: | Zeile 252: | ||
* Kann auf Problem mit Plattenoberfläche hindeuten. | * Kann auf Problem mit Plattenoberfläche hindeuten. | ||
* Die hohe Datendichte von Festplatten hat zur Folge, dass beim Lesen die Fehlerkorrektur zwangsläufig anschlägt. Sehr hohe Werte sind kein Grund zur Beunruhigung. | * Die hohe Datendichte von Festplatten hat zur Folge, dass beim Lesen die Fehlerkorrektur zwangsläufig anschlägt. Sehr hohe Werte sind kein Grund zur Beunruhigung. | ||
|- style="background:# | |- style="background:#ffbcbd" | ||
|A | |A | ||
|196 | |196 | ||
Zeile 232: | Zeile 261: | ||
| | | | ||
* Anzahl bisher durchgeführten erfolgreichen und fehlgeschlagenen Neuzuweisungen der Sektorposition als Folge von Lesefehlern von defekten Sektoren. | * Anzahl bisher durchgeführten erfolgreichen und fehlgeschlagenen Neuzuweisungen der Sektorposition als Folge von Lesefehlern von defekten Sektoren. | ||
|- style="background:# | |- style="background:#ffbcbd" | ||
|A | |A | ||
|197 | |197 | ||
Zeile 241: | Zeile 270: | ||
| | | | ||
* Anzahl der aufgrund von Lesefehlern wartenden Sektoren auf Zuweisung einer neuen Sektorposition | * Anzahl der aufgrund von Lesefehlern wartenden Sektoren auf Zuweisung einer neuen Sektorposition | ||
|- style="background:# | |- style="background:#ffbcbd" | ||
|A | |A | ||
|198 | |198 | ||
Zeile 260: | Zeile 289: | ||
* Anzahl der aufgetretenen [[Zyklische Redundanzprüfung|CRC]]-Fehler | * Anzahl der aufgetretenen [[Zyklische Redundanzprüfung|CRC]]-Fehler | ||
* Ursache können defekte Kabel, verschmutzte Kontakte, Übertaktung oder fehlerhafte Festplattentreiber sein. Die Übertragung wird in Stufen immer langsamer wiederholt. Misslingt dies, wird der Zugriff auf die Festplatte gesperrt. | * Ursache können defekte Kabel, verschmutzte Kontakte, Übertaktung oder fehlerhafte Festplattentreiber sein. Die Übertragung wird in Stufen immer langsamer wiederholt. Misslingt dies, wird der Zugriff auf die Festplatte gesperrt. | ||
|- style="background:# | |- style="background:#ffbcbd" | ||
|A | |A | ||
|201 | |201 | ||
Zeile 306: | Zeile 335: | ||
!style="background:#adffa9;"|Value | !style="background:#adffa9;"|Value | ||
!style="background:#ff898b;"|Worst | !style="background:#ff898b;"|Worst | ||
!style="background:# | !style="background:#FFDEAD;"|Threshold | ||
!Typ | !Typ | ||
!Updated | !Updated | ||
Zeile 320: | Zeile 349: | ||
| Offline | | Offline | ||
| 0 | | 0 | ||
| | | | ||
|- | |- | ||
| 3 | | 3 | ||
Zeile 337: | Zeile 366: | ||
|style="background: #ffd3d4;"| 100 | |style="background: #ffd3d4;"| 100 | ||
|style="background: #ffedd3;"| 000 | |style="background: #ffedd3;"| 000 | ||
| Old | | Old age | ||
| Always | | Always | ||
| 772 | | 772 | ||
Zeile 426: | Zeile 455: | ||
[https://www.thomas-krenn.com/de/wiki/SMART_Tests_mit_smartctl Thomas Krenn SMART-Tests mit smartctl] | [https://www.thomas-krenn.com/de/wiki/SMART_Tests_mit_smartctl Thomas Krenn SMART-Tests mit smartctl] | ||
[[ | [[Kategorie:SMART]] |
Aktuelle Version vom 29. August 2022, 13:40 Uhr
Self-Monitoring, Analysis and Reporting Technology (dt. System zur Selbstüberwachung, Analyse und Statusmeldung)
smart
- Ist ein Industriestandard zur Überwachung von Festplattenlaufwerken (HDD) und Solid-State-Drives (SSD)
- Dient der Vorhersage eines möglichen Ausfalls des Speichermediums.
- Dabei werden die Werte verschiedener Sensoren mit Hilfe von unterschiedlichen Parametern ausgewertet.
- Alle aktuellen Festplatten und SSDs haben SMART Funktionalität.
Funktionsweise
- Auswertung der überwachten Daten erfolgt beim Starten des Rechners durch
- das BIOS,
- andere Firmware,
- oder durch spezielle Software.
- SMART orientiert sich an vom Festplattenhersteller festgelegten Grenzwerten, etwa für die Temperatur.
- Nach einem längeren Zeitraum kann ein zu erwartender Ausfall prognostiziert werden.
- Wird SMART "abgeschaltet", werden weiterhin alle Daten erfasst, aber keine Warnungen mehr gemeldet.
- Gespeichert werden die gesammelten Daten in einem reservierten, durch Programme nicht änderbaren Bereich der Festplatte.
- Die Überwachung verlangsamt die Festplatte nicht, da nur protokolliert wird, ohne korrigierend einzugreifen.
- Verbaute Sensoren und Chipfunktionen erfassen die Werte.
- Aktualisierung der Daten
- "Online"-Parameter, die permanent notiert werden.
- "Offline"-Parameter, die erst in Ruhepausen aktualisiert werden.
Informationswert
- Liefern keine Aussage zur Gesamtzuverlässigkeit des Rechnersystems.
- Auf Massenspeicher wie Festplatten oder SSDs beschränkt.
- Ist nicht normiert, sondern es ist den Herstellern überlassen, welche Parameter in welchen Grenzen überwacht werden.
- Die Genauigkeit der Überwachung wird diskutiert.
- Manche Temperatursensoren gelten als falsch platziert oder zu optimistisch eingestellt.
- Ergebnis einer unabhängigen Google-Studie von 2006, Dauer über neun Monate, mit 100.000 Festplatten aller Hersteller:
- Es sind 64 % aller Ausfälle mit SMART vorhersagbar.
- Die Beanspruchung der Festplatte hatte einen geringeren Einfluss auf ihre Haltbarkeit als angenommen.
- Nur im 1. und nach dem 4. Jahr verdoppelt permanentes Lesen und Schreiben die Ausfallrate.
wichtige Attribute
Attribut | Erklärung |
---|---|
Raw Read Error Rate | Lesen-Fehlerrate, Problem Lese/Schreib-Köpfe/Plattenoberfläche |
Spin Up Time | Zeit Stillstand bis volle Arbeitsumdrehung |
Reallocated Sector | Verschieben defekter Sektoren in Reserve-Sektoren |
Seek Error Rate | Fehler Ausrichtung Festplattenkopf |
Power On Hours | Laufzeit Festplatte |
Power Cycle Count | Anzahl Anschaltvorgänge |
Multi Zone Error Rate | Fehlerrate beim Schreiben |
Auswertung
Parameter
- als Raw-Werte gespeichert
- Raw-Wert wird zum besseren Verständnis in Werteskala von 0 bis 100, 200 oder 255 einsortiert
- Werteskala
- startet mit dem Skalenmaximum
- bei Fehlern oder zunehmendem Alter nähern sich Werte (value) gegen 0
- kritische Grenze (threshold) für möglichen Ausfall häufig weit über 0
wichtig: Raw-Werte nicht verwechseln mit den Values der Werteskala.
RAW-Werte
Legende | |
---|---|
A | Ausfallsrelevanter Parameter. |
Wenig bis nicht ausfallrelevanter Parameter. | |
+ | Je höher der Raw-Wert, desto besser. |
- | Je niedriger der Raw-Wert, desto besser. |
A? | ID | Hex | Parametername (Englisch) | Parametername (Deutsch) | + - | Beschreibung |
---|---|---|---|---|---|---|
01 | 0x01 | Raw Read Error Rate | Lesefehlerrate (roh) | - |
| |
02 | 0x02 | Throughput Performance | Durchsatz | + |
| |
03 | 0x03 | Spin Up Time | Beschleunigungszeit | - |
| |
04 | 0x04 | Start/Stop Count | Start/Stop-Vorgänge | - |
| |
A | 05 | 0x05 | Reallocated Sectors Count | wiederzugewiesene Sektoren | - |
|
07 | 0x07 | Seek Error Rate | Suchfehlerrate | - |
| |
09 | 0x09 | Power On Hours Count | Zeit in Betrieb | - |
| |
A | 10 | 0x0A | Spin Retry Count | Anlaufwiederholungen, nur bei HDDs relevant |
- |
|
12 | 0x0C | Power Cycle Count | Anzahl der Einschaltungen | - |
| |
A | 184 | 0xB8 | End-To-End error | Ende-zu-Ende Fehler | - |
|
A | 187 | 0xBB | Reported uncorrectable Error | Gemeldete unkorrigierbare Fehler | - |
|
A | 188 | 0xBC | Command Timeout | Kommandos, welche nicht rechtzeitig ausgeführt werden konnten | - |
|
193 | 0xC1 | Load Cycle Count
bzw. Load/Unload Cycle Count |
Parkvorgänge | - |
| |
194 | 0xC2 | Drive Temperature | Festplatten-Temperatur | - |
| |
195 | 0xC3 | Hardware ECC Recovered | gerettete Bitfehler | - |
| |
A | 196 | 0xC4 | Reallocation Event Count | - |
| |
A | 197 | 0xC5 | Current Pending Sector Count | - |
| |
A | 198 | 0xC6 | Uncorrectable Sector Count | Nicht korrigierbare Sektoren | - |
|
199 | 0xC7 | Ultra DMA CRC Error Count | DMA-CRC-Fehler | - |
| |
A | 201 | 0xC9 | Soft Read Error Rate | - |
|
- Es gibt noch zahlreiche weitere Parameter, auch herstellerexklusive.
Beispiel
Die Auswertung wichtiger S.M.A.R.T.-Parameter am Beispiel einer Hitachi 250 GB-Festplatte, angeschlossen über Serial-ATA und ausgelesen mit den smartmontools.
Value | ist ein normalisierter Messwert, der zumeist rückwärts zählt (je niedriger, desto schlechter). |
---|---|
Worst | der bisher schlechteste Wert. |
Threshold | die Grenze, unter die der Wert nicht fallen darf. |
Typ | steht für die Bedeutung des Parameters: „Pre-fail“ ist eine Warnung vor einem baldigen Ausfall, während „Old age“ bedeutet, dass es sich allgemein um fortschreitende Alterung handelt (Die aktuelle Temperatur fällt nicht unbedingt in eine der beiden Kategorien). |
Updated | zeigt an, ob der Wert permanent (always) oder erst durch einen Selbsttest vom Typ „Offline data collection“ aktualisiert wird. |
RAW Value | ist der eigentliche Messwert, also etwa die gemessene Temperatur oder die Zahl der Fehler. |
Parameter-ID | Parametername | Value | Worst | Threshold | Typ | Updated | RAW Value | Bemerkung |
---|---|---|---|---|---|---|---|---|
2 | Throughput Performance | 100 | 100 | 050 | Pre-fail | Offline | 0 | |
3 | Spin Up Time | 118 | 118 | 024 | Pre-fail | Always | 294 | Hitachi verwendet eine eigene Zählweise, keine (Milli-)Sekunden. |
4 | Start Stop Count | 100 | 100 | 000 | Old age | Always | 772 | 772 mal wurde der Festplattenmotor an-/ausgeschaltet, inklusive Standby-Starts. |
5 | Reallocated Sector Count | 100 | 100 | 005 | Pre-fail | Always | 55 | 55 Sektoren wegen Defekts gegen Reservesektoren ausgetauscht. Laufwerk schätzt das als problemlos ein. |
7 | Seek Error Rate | 100 | 100 | 067 | Pre-fail | Always | 0 | Bisher gab es keine Schreib-/Lesefehler. |
9 | Power On Hours | 100 | 100 | 000 | Old age | Always | 1775 | Laufwerk wurde bisher 1775 Stunden mit Strom versorgt. Umfasst auch Standbyphasen. Immer prüfen, ob der Wert Std., Min. oder Sek. darstellt. |
10 | Spin Retry Count | 100 | 100 | 060 | Pre-fail | Always | 0 | Bisher gab es keine Fehlstarts, die Festplatte lief immer problemlos an. |
12 | Power Cycle Count | 100 | 100 | 000 | Old age | Always | 745 | Bisher wurde der PC mit dieser Festplatte 745-mal an- und ausgeschaltet. |
194 | Temperature | 161 | 161 | 000 | Old age | Always | 34 10 49 |
Aktuelle Temperatur wäre hier 34°C. Bisherige Lebensmaxima des Laufwerkes waren 10°C bzw. 49°C. Value ist daher von 200 auf 161 gesunken. |
199 | UDMA CRC Error Count | 200 | 253 | 000 | Old age | Always | 730 | Bisher gab es 730 Übertragungsfehler zum Mainboard. Ursache: fehlerhafter Festplatten-Controller, defektes Anschlusskabel oder Wackelkontakt. |
- Auswertung:
- Laufwerk ist in Ordnung.
- Kein Grenzwert erreicht.
- Reallocated Sector Count-Wert: Die 55 ausgewechselten Sektoren sind laut einer Google-Studie bedenklich.
- UDMA CRC Error Count-Wert: Besser Kabel tauschen. Wert danach im Auge behalten.