Error Checking and Correcting: Unterschied zwischen den Versionen
Erscheinungsbild
| Zeile 4: | Zeile 4: | ||
[[Fehlerkorrekturverfahren|Fehlererkennung]] | [[Fehlerkorrekturverfahren|Fehlererkennung]] | ||
{|class="wikitable options" | {|class="wikitable options" | ||
| ohne || | | ohne || Keine Erkennung oder Korrektur von Fehlern | ||
|- | |- | ||
| Fehlererkennung || | | Fehlererkennung || Einfache Fehlererkennung mit [[Paritätsbit]] | ||
|- | |- | ||
| Fehlerkorrektur ||[[ | | Fehlerkorrektur || [[Fehlerkorrektur]] | ||
|} | |} | ||
== Voraussetzungen == | |||
; Chipsatz und BIOS | ; Chipsatz und BIOS | ||
ECC muss unterstützt werden vom | ECC muss unterstützt werden vom | ||
| Zeile 20: | Zeile 18: | ||
* [[BIOS]]/[[UEFI]] | * [[BIOS]]/[[UEFI]] | ||
== Erkennungsverfahren == | |||
Zur Erkennung von Hauptspeicherfehlern gibt es mehrere Verfahren | Zur Erkennung von Hauptspeicherfehlern gibt es mehrere Verfahren | ||
Version vom 1. Februar 2025, 12:08 Uhr
Error Checking and Correcting - Verfahren zur Fehlererkennung und -behebung
Fehlererkennung
| ohne | Keine Erkennung oder Korrektur von Fehlern |
| Fehlererkennung | Einfache Fehlererkennung mit Paritätsbit |
| Fehlerkorrektur | Fehlerkorrektur |
Voraussetzungen
- Chipsatz und BIOS
ECC muss unterstützt werden vom
Erkennungsverfahren
Zur Erkennung von Hauptspeicherfehlern gibt es mehrere Verfahren
- Error Correction Code (ECC)
- ist eine Art Hashwert über die 64 Bits jeder Speicherzeile
- Diese redundanten Informationen werden vom Speichercontroller berechnet und in acht weiteren Bits abgelegt (bei 32-bit-Speicherzeilen sind es sieben weitere Bits), weshalb ECC-Speicher 72 Bits pro Zeile hat
Das Verfahren selbst heißt Error Checking and Correcting
- ECC kann alle 1-bit-Fehler korrigieren und alle 2-bit-Fehler sowie manche Mehr-bit-Fehler erkennen
- ECC-Speicher kommt in Desktop-PCs kaum zum Einsatz
- Weitere Techniken zur Fehlererkennung
- Chipkill
- Active Memory
- Memory Resiliency
- Memory RAID
- Ursache von Speicherfehlern
Die Hauptursache von Speicherfehlern ist nicht ionisierende Strahlung (wie früher vermutet), sondern eher Probleme einzelner Speicherzellen (zum Beispiel durch Alterung oder Fertigungsprobleme)
Anwendung
Message from syslogd@mx10 at Nov 20 21:01:33 ...
kernel:[376047.608409] [Hardware Error]: Corrected error, no action required.
Message from syslogd@mx10 at Nov 20 21:01:33 ...
kernel:[376047.608537] [Hardware Error]: CPU:0 (17:71:0) MC17_STATUS[-|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|Scrub]: 0x9c2041000000011b
Message from syslogd@mx10 at Nov 20 21:01:33 ...
kernel:[376047.608722] [Hardware Error]: Error Addr: 0x000000045d982340
Message from syslogd@mx10 at Nov 20 21:01:33 ...
kernel:[376047.608846] [Hardware Error]: IPID: 0x0000009600050f00, Syndrome: 0xcf8600040a800a01
Message from syslogd@mx10 at Nov 20 21:01:33 ...
kernel:[376047.609009] [Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.
Message from syslogd@mx10 at Nov 20 21:01:33 ...
kernel:[376047.609366] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD
--------------------- Kernel Begin ------------------------
WARNING: Kernel Errors Present
[Hardware Error]: CPU:0 (17:71:0 ...: 1 Time(s)
[Hardware Error]: Corrected erro ...: 1 Time(s)
[Hardware Error]: Error Addr: 0x ...: 1 Time(s)
[Hardware Error]: IPID: 0x000000 ...: 1 Time(s)
[Hardware Error]: Unified Memory ...: 1 Time(s)
[Hardware Error]: cache level: L ...: 1 Time(s)
mce: [Hardware Error]: Machine check ...: 1 Time(s)
WARNING: Kernel EDAC Messages
EDAC MC0: 1 CE Cannot decode normalized address on mc#0csrow#1channel#0 (csrow:1 channel:0 page:0x0 offset:0x0 grain:64 syndrome:0x4) ...: 1 Time(s)
Konfiguration
Dateien
Anhang
Siehe auch
Dokumentation
Man-Page
Info-Pages
Links
Weblinks