Zum Inhalt springen

Error Checking and Correcting: Unterschied zwischen den Versionen

Aus Foxwiki
Keine Bearbeitungszusammenfassung
Zeile 54: Zeile 54:
Message from syslogd@mx10 at Nov 20 21:01:33 ...
Message from syslogd@mx10 at Nov 20 21:01:33 ...
  kernel:[376047.609366] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD
  kernel:[376047.609366] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD
</syntaxhighlight>
<syntaxhighlight lang="bash" line>
--------------------- Kernel Begin ------------------------
WARNING:  Kernel Errors Present
    [Hardware Error]: CPU:0 (17:71:0 ...:  1 Time(s)
    [Hardware Error]: Corrected erro ...:  1 Time(s)
    [Hardware Error]: Error Addr: 0x ...:  1 Time(s)
    [Hardware Error]: IPID: 0x000000 ...:  1 Time(s)
    [Hardware Error]: Unified Memory ...:  1 Time(s)
    [Hardware Error]: cache level: L ...:  1 Time(s)
    mce: [Hardware Error]: Machine check  ...:  1 Time(s)
WARNING:  Kernel EDAC Messages
    EDAC MC0: 1 CE Cannot decode normalized address on mc#0csrow#1channel#0 (csrow:1 channel:0 page:0x0 offset:0x0 grain:64 syndrome:0x4) ...:  1 Time(s)
</syntaxhighlight>
</syntaxhighlight>



Version vom 1. Februar 2025, 11:57 Uhr

Error Checking and Correcting - Verfahren zur Fehlererkennung und -behebung

Fehlererkennung (ECC)

Paritäts-Bit

Einfache Fehlererkennung mit Paritätsbit

Chipsatz und BIOS

ECC muss unterstützt werden vom

Erkennungsverfahren

Zur Erkennung von Hauptspeicherfehlern gibt es mehrere Verfahren

Error Correction Code (ECC)
  • ist eine Art Hashwert über die 64 Bits jeder Speicherzeile
  • Diese redundanten Informationen werden vom Speichercontroller berechnet und in acht weiteren Bits abgelegt (bei 32-bit-Speicherzeilen sind es sieben weitere Bits), weshalb ECC-Speicher 72 Bits pro Zeile hat

Das Verfahren selbst heißt Error Checking and Correcting

  • ECC kann alle 1-bit-Fehler korrigieren und alle 2-bit-Fehler sowie manche Mehr-bit-Fehler erkennen
  • ECC-Speicher kommt in Desktop-PCs kaum zum Einsatz
Weitere Techniken zur Fehlererkennung
  • Chipkill
  • Active Memory
  • Memory Resiliency
  • Memory RAID
Ursache von Speicherfehlern

Die Hauptursache von Speicherfehlern ist nicht ionisierende Strahlung (wie früher vermutet), sondern eher Probleme einzelner Speicherzellen (zum Beispiel durch Alterung oder Fertigungsprobleme)

Anwendung

Message from syslogd@mx10 at Nov 20 21:01:33 ...
 kernel:[376047.608409] [Hardware Error]: Corrected error, no action required.

Message from syslogd@mx10 at Nov 20 21:01:33 ...
 kernel:[376047.608537] [Hardware Error]: CPU:0 (17:71:0) MC17_STATUS[-|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|Scrub]: 0x9c2041000000011b

Message from syslogd@mx10 at Nov 20 21:01:33 ...
 kernel:[376047.608722] [Hardware Error]: Error Addr: 0x000000045d982340

Message from syslogd@mx10 at Nov 20 21:01:33 ...
 kernel:[376047.608846] [Hardware Error]: IPID: 0x0000009600050f00, Syndrome: 0xcf8600040a800a01

Message from syslogd@mx10 at Nov 20 21:01:33 ...
 kernel:[376047.609009] [Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.

Message from syslogd@mx10 at Nov 20 21:01:33 ...
 kernel:[376047.609366] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD
--------------------- Kernel Begin ------------------------ 

 
 WARNING:  Kernel Errors Present
    [Hardware Error]: CPU:0 (17:71:0 ...:  1 Time(s)
    [Hardware Error]: Corrected erro ...:  1 Time(s)
    [Hardware Error]: Error Addr: 0x ...:  1 Time(s)
    [Hardware Error]: IPID: 0x000000 ...:  1 Time(s)
    [Hardware Error]: Unified Memory ...:  1 Time(s)
    [Hardware Error]: cache level: L ...:  1 Time(s)
    mce: [Hardware Error]: Machine check  ...:  1 Time(s)
 
 WARNING:  Kernel EDAC Messages
    EDAC MC0: 1 CE Cannot decode normalized address on mc#0csrow#1channel#0 (csrow:1 channel:0 page:0x0 offset:0x0 grain:64 syndrome:0x4) ...:  1 Time(s)

Konfiguration

Dateien

Anhang

Siehe auch

Dokumentation

Man-Page
Info-Pages

Links

Weblinks
  1. https://de.wikipedia.org/wiki/Speichermodul#Fehlererkennung_(ECC)