Error Checking and Correcting
Erscheinungsbild
Error Checking and Correcting - Verfahren zur Fehlererkennung und -behebung
Fehlererkennung
Speicherfehler
- Ursache von Speicherfehlern
Probleme einzelner Speicherzellen
- Alterung
- Fertigungsprobleme
- ionisierende Strahlung (weniger als früher vermutet)
- Möglichkeiten
ohne | Keine Erkennung oder Korrektur von Fehlern |
Fehlererkennung | Einfache Fehlererkennung mit Paritätsbit |
Fehlerkorrektur | Fehlererkennung und -behebung |
Voraussetzungen
- Chipsatz und BIOS
ECC muss unterstützt werden vom
Erkennungsverfahren
Verfahren zur Erkennung von Hauptspeicherfehlern
- Error Correction Code (ECC)
Hashwert über die 64 Bits jeder Speicherzeile
- Diese redundanten Informationen werden vom Speichercontroller berechnet und in acht weiteren Bits abgelegt (bei 32-bit-Speicherzeilen sind es sieben weitere Bits), weshalb ECC-Speicher 72 Bits pro Zeile hat
Verfahren heißt Error Checking and Correcting
- ECC kann alle 1-bit-Fehler korrigieren und alle 2-bit-Fehler sowie manche Mehr-bit-Fehler erkennen
- ECC-Speicher kommt in Desktop-PCs kaum zum Einsatz
- Weitere Techniken
- Chipkill
- Active Memory
- Memory Resiliency
- Memory RAID
Anwendung
--------------------- Kernel Begin ------------------------
WARNING: Kernel Errors Present
[Hardware Error]: CPU:0 (17:71:0 ...: 1 Time(s)
[Hardware Error]: Corrected erro ...: 1 Time(s)
[Hardware Error]: Error Addr: 0x ...: 1 Time(s)
[Hardware Error]: IPID: 0x000000 ...: 1 Time(s)
[Hardware Error]: Unified Memory ...: 1 Time(s)
[Hardware Error]: cache level: L ...: 1 Time(s)
mce: [Hardware Error]: Machine check ...: 1 Time(s)
WARNING: Kernel EDAC Messages
EDAC MC0: 1 CE Cannot decode normalized address on mc#0csrow#1channel#0 (csrow:1 channel:0 page:0x0 offset:0x0 grain:64 syndrome:0x4) ...: 1 Time(s)
Message from syslogd@mx10 at Nov 20 21:01:33 ...
kernel:[376047.608409] [Hardware Error]: Corrected error, no action required.
Message from syslogd@mx10 at Nov 20 21:01:33 ...
kernel:[376047.608537] [Hardware Error]: CPU:0 (17:71:0) MC17_STATUS[-|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|Scrub]: 0x9c2041000000011b
Message from syslogd@mx10 at Nov 20 21:01:33 ...
kernel:[376047.608722] [Hardware Error]: Error Addr: 0x000000045d982340
Message from syslogd@mx10 at Nov 20 21:01:33 ...
kernel:[376047.608846] [Hardware Error]: IPID: 0x0000009600050f00, Syndrome: 0xcf8600040a800a01
Message from syslogd@mx10 at Nov 20 21:01:33 ...
kernel:[376047.609009] [Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.
Message from syslogd@mx10 at Nov 20 21:01:33 ...
kernel:[376047.609366] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD
Konfiguration
Dateien
Anhang
Siehe auch
Dokumentation
- Man-Page
- Info-Page
Links
Weblinks