Error Checking and Correcting: Unterschied zwischen den Versionen

Versionsgeschichte interaktiv durchsuchen

VisuellWikitext

Aktuelle Version vom 4. Juni 2025, 10:19 Uhr

Error Checking and Correcting - Verfahren zur Fehlererkennung und -behebung

Fehlererkennung

Speicherfehler

Ursache von Speicherfehlern

Probleme einzelner Speicherzellen

Alterung
Fertigungsprobleme
ionisierende Strahlung (weniger als früher vermutet)

Möglichkeiten

ohne	Keine Erkennung oder Korrektur von Fehlern
Fehlererkennung	Einfache Fehlererkennung mit Paritätsbit
Fehlerkorrektur	Fehlererkennung und -behebung

Voraussetzungen

Chipsatz und BIOS

ECC muss unterstützt werden vom

Erkennungsverfahren

Verfahren zur Erkennung von Hauptspeicherfehlern

Error Correction Code (ECC)

Hashwert über die 64 Bit jeder Speicherzeile

Diese redundanten Informationen werden vom Speichercontroller berechnet und in acht weiteren Bit abgelegt (bei 32-bit-Speicherzeilen sind es sieben weitere Bits), weshalb ECC-Speicher 72 Bit pro Zeile hat

Verfahren heißt Error Checking and Correcting

ECC kann alle 1-bit-Fehler korrigieren und alle 2-bit-Fehler sowie manche Mehr-bit-Fehler erkennen
ECC-Speicher kommt in Desktop-PCs kaum zum Einsatz

Weitere Techniken

Chipkill
Active Memory
Memory Resiliency
Memory RAID

Anwendung

--------------------- Kernel Begin ------------------------ 
 WARNING:  Kernel Errors Present
    [Hardware Error]: CPU:0 (17:71:0 ...:  1 Time(s)
    [Hardware Error]: Corrected erro ...:  1 Time(s)
    [Hardware Error]: Error Addr: 0x ...:  1 Time(s)
    [Hardware Error]: IPID: 0x000000 ...:  1 Time(s)
    [Hardware Error]: Unified Memory ...:  1 Time(s)
    [Hardware Error]: cache level: L ...:  1 Time(s)
    mce: [Hardware Error]: Machine check  ...:  1 Time(s)
 
 WARNING:  Kernel EDAC Messages
    EDAC MC0: 1 CE Cannot decode normalized address on mc#0csrow#1channel#0 (csrow:1 channel:0 page:0x0 offset:0x0 grain:64 syndrome:0x4) ...:  1 Time(s)

Message from syslogd@mx10 at Nov 20 21:01:33 ...
 kernel:[376047.608409] [Hardware Error]: Corrected error, no action required.

Message from syslogd@mx10 at Nov 20 21:01:33 ...
 kernel:[376047.608537] [Hardware Error]: CPU:0 (17:71:0) MC17_STATUS[-|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|Scrub]: 0x9c2041000000011b

Message from syslogd@mx10 at Nov 20 21:01:33 ...
 kernel:[376047.608722] [Hardware Error]: Error Addr: 0x000000045d982340

Message from syslogd@mx10 at Nov 20 21:01:33 ...
 kernel:[376047.608846] [Hardware Error]: IPID: 0x0000009600050f00, Syndrome: 0xcf8600040a800a01

Message from syslogd@mx10 at Nov 20 21:01:33 ...
 kernel:[376047.609009] [Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.

Message from syslogd@mx10 at Nov 20 21:01:33 ...
 kernel:[376047.609366] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.851839] [Hardware Error]: Corrected error, no action required.

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.851965] [Hardware Error]: CPU:0 (17:71:0) MC17_STATUS[-|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0x9c2040000000011b

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.852147] [Hardware Error]: Error Addr: 0x000000045d982340

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.852271] [Hardware Error]: IPID: 0x0000009600050f00, Syndrome: 0xcf8600040a800a01

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.852434] [Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.851839] [Hardware Error]: Corrected error, no action required.

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.851965] [Hardware Error]: CPU:0 (17:71:0) MC17_STATUS[-|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0x9c2040000000011b

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.852147] [Hardware Error]: Error Addr: 0x000000045d982340

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.852271] [Hardware Error]: IPID: 0x0000009600050f00, Syndrome: 0xcf8600040a800a01

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.852434] [Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.852790] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.852790] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD

Konfiguration

Dateien

Anhang

Siehe auch

Dokumentation

Man-Page
Info-Page

Links

Weblinks

https://de.wikipedia.org/wiki/Speichermodul#Fehlererkennung_(ECC)

@@ Zeile 1: / Zeile 1: @@
-'''topic''' - Beschreibung
+'''Error Checking and Correcting''' - Verfahren zur Fehlererkennung und -behebung
-== Beschreibung ==
-== Installation ==
-<syntaxhighlight lang="bash" highlight="1" line>
+== Fehlererkennung ==
+=== Speicherfehler ===
+; Ursache von Speicherfehlern
+Probleme einzelner Speicherzellen
+* Alterung
+* Fertigungsprobleme
+* [[ionisierende Strahlung]] (weniger als früher vermutet)
+; Möglichkeiten
+{|class="wikitable options"
+| ohne || Keine Erkennung oder Korrektur von Fehlern
+|-
+| [[Fehlererkennung]] || Einfache Fehlererkennung mit [[Paritätsbit]]
+|-
+| [[Fehlerkorrektur]] || Fehlererkennung und -behebung
+|}
+== Voraussetzungen ==
+; Chipsatz und BIOS
+ECC muss unterstützt werden vom
+* [[Mainboard]]
+* [[Chipsatz]]
+* [[BIOS]]/[[UEFI]]
+== Erkennungsverfahren ==
+Verfahren zur Erkennung von Hauptspeicherfehlern
+; Error Correction Code (ECC)
+Hashwert über die 64 Bit jeder Speicherzeile
+* Diese redundanten Informationen werden vom Speichercontroller berechnet und in acht weiteren Bit abgelegt (bei 32-bit-Speicherzeilen sind es sieben weitere Bits), weshalb ECC-Speicher 72 Bit pro Zeile hat
+Verfahren heißt ''Error Checking and Correcting''
+* ECC kann alle 1-bit-Fehler korrigieren und alle 2-bit-Fehler sowie manche Mehr-bit-Fehler erkennen
+* ECC-Speicher kommt in Desktop-PCs kaum zum Einsatz
+; Weitere Techniken
+* Chipkill
+* Active Memory
+* Memory Resiliency
+* Memory RAID
+== Anwendung ==
+<syntaxhighlight lang="bash" line>
+--------------------- Kernel Begin ------------------------
+ WARNING:  Kernel Errors Present
+    [Hardware Error]: CPU:0 (17:71:0 ...:  1 Time(s)
+    [Hardware Error]: Corrected erro ...:  1 Time(s)
+    [Hardware Error]: Error Addr: 0x ...:  1 Time(s)
+    [Hardware Error]: IPID: 0x000000 ...:  1 Time(s)
+    [Hardware Error]: Unified Memory ...:  1 Time(s)
+    [Hardware Error]: cache level: L ...:  1 Time(s)
+    mce: [Hardware Error]: Machine check  ...:  1 Time(s)
+ WARNING:  Kernel EDAC Messages
+    EDAC MC0: 1 CE Cannot decode normalized address on mc#0csrow#1channel#0 (csrow:1 channel:0 page:0x0 offset:0x0 grain:64 syndrome:0x4) ...:  1 Time(s)
 </syntaxhighlight>
-== Aufruf ==
-<syntaxhighlight lang="bash" highlight="1" line>
+<syntaxhighlight lang="bash" line>
+Message from syslogd@mx10 at Nov 20 21:01:33 ...
+ kernel:[376047.608409] [Hardware Error]: Corrected error, no action required.
+Message from syslogd@mx10 at Nov 20 21:01:33 ...
+ kernel:[376047.608537] [Hardware Error]: CPU:0 (17:71:0) MC17_STATUS[-|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|Scrub]: 0x9c2041000000011b
+Message from syslogd@mx10 at Nov 20 21:01:33 ...
+ kernel:[376047.608722] [Hardware Error]: Error Addr: 0x000000045d982340
+Message from syslogd@mx10 at Nov 20 21:01:33 ...
+ kernel:[376047.608846] [Hardware Error]: IPID: 0x0000009600050f00, Syndrome: 0xcf8600040a800a01
+Message from syslogd@mx10 at Nov 20 21:01:33 ...
+ kernel:[376047.609009] [Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.
+Message from syslogd@mx10 at Nov 20 21:01:33 ...
+ kernel:[376047.609366] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD
 </syntaxhighlight>
-=== Optionen ===
-=== Parameter ===
+<syntaxhighlight lang="bash" line>
-=== Umgebungsvariablen ===
+Message from syslogd@mx10 at May 16 11:46:58 ...
-=== Exit-Status ===
+ kernel:[153472.851839] [Hardware Error]: Corrected error, no action required.
-== Anwendung ==
-=== Problembehebung ===
+Message from syslogd@mx10 at May 16 11:46:58 ...
+ kernel:[153472.851965] [Hardware Error]: CPU:0 (17:71:0) MC17_STATUS[-|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0x9c2040000000011b
+Message from syslogd@mx10 at May 16 11:46:58 ...
+ kernel:[153472.852147] [Hardware Error]: Error Addr: 0x000000045d982340
+Message from syslogd@mx10 at May 16 11:46:58 ...
+ kernel:[153472.852271] [Hardware Error]: IPID: 0x0000009600050f00, Syndrome: 0xcf8600040a800a01
+Message from syslogd@mx10 at May 16 11:46:58 ...
+ kernel:[153472.852434] [Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.
+Message from syslogd@mx10 at May 16 11:46:58 ...
+ kernel:[153472.851839] [Hardware Error]: Corrected error, no action required.
+Message from syslogd@mx10 at May 16 11:46:58 ...
+ kernel:[153472.851965] [Hardware Error]: CPU:0 (17:71:0) MC17_STATUS[-|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0x9c2040000000011b
+Message from syslogd@mx10 at May 16 11:46:58 ...
+ kernel:[153472.852147] [Hardware Error]: Error Addr: 0x000000045d982340
+Message from syslogd@mx10 at May 16 11:46:58 ...
+ kernel:[153472.852271] [Hardware Error]: IPID: 0x0000009600050f00, Syndrome: 0xcf8600040a800a01
+Message from syslogd@mx10 at May 16 11:46:58 ...
+ kernel:[153472.852434] [Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.
+Message from syslogd@mx10 at May 16 11:46:58 ...
+ kernel:[153472.852790] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD
+Message from syslogd@mx10 at May 16 11:46:58 ...
+ kernel:[153472.852790] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD
+</syntaxhighlight>
 == Konfiguration ==
 === Dateien ===
@@ Zeile 20: / Zeile 121: @@
 == Anhang ==
 === Siehe auch ===
-{{Special:PrefixIndex/{{BASEPAGENAME}}}}
+{{Special:PrefixIndex/{{BASEPAGENAME}}/}}
-==== Dokumentation ====
+=== Dokumentation ===
+; Man-Page
+;Info-Page
+=== Links ===
+==== Weblinks ====
+# https://de.wikipedia.org/wiki/Speichermodul#Fehlererkennung_(ECC)
+[[Kategorie:Arbeitsspeicher]]
+[[Kategorie:IT-Sicherheit]]
-===== Man-Page =====
-===== Info-Pages =====
-==== Links ====
-===== Projekt =====
-===== Weblinks =====
 </noinclude>