Zum Inhalt springen

Error Checking and Correcting: Unterschied zwischen den Versionen

Aus Foxwiki
Keine Bearbeitungszusammenfassung
K Textersetzung - „ Bits “ durch „ Bit “
 
(24 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 1: Zeile 1:
'''Error Checking and Correcting''' - Verfahren zur Fehlererkennung und -behebung
'''Error Checking and Correcting''' - Verfahren zur Fehlererkennung und -behebung


== Fehlererkennung (ECC) ==
== Fehlererkennung ==
* ohne [[Fehlerkorrekturverfahren|Fehlererkennung]]
=== Speicherfehler ===
* mit Fehlererkennung ([[Paritätsbit|Parität]])
; Ursache von Speicherfehlern
* mit Fehlerkorrektur ([[Fehlerkorrekturverfahren#ECC- und Paritätsprüfung|ECC]])
Probleme einzelner Speicherzellen
* Alterung
* Fertigungsprobleme
* [[ionisierende Strahlung]] (weniger als früher vermutet)


; Paritäts-Bit
; Möglichkeiten
Einfache Fehlererkennung mit Paritätsbit
{|class="wikitable options"
| ohne || Keine Erkennung oder Korrektur von Fehlern
|-
| [[Fehlererkennung]] || Einfache Fehlererkennung mit [[Paritätsbit]]
|-
| [[Fehlerkorrektur]] || Fehlererkennung und -behebung
|}


== Voraussetzungen ==
; Chipsatz und BIOS
; Chipsatz und BIOS
ECC muss unterstützt werden vom
ECC muss unterstützt werden vom
Zeile 15: Zeile 25:
* [[BIOS]]/[[UEFI]]
* [[BIOS]]/[[UEFI]]


; Erkennungsverfahren
== Erkennungsverfahren ==
Zur Erkennung von Hauptspeicherfehlern gibt es mehrere Verfahren
Verfahren zur Erkennung von Hauptspeicherfehlern


; Error Correction Code (ECC)
; Error Correction Code (ECC)
* ist eine Art Hashwert über die 64 Bits jeder Speicherzeile
Hashwert über die 64 Bit jeder Speicherzeile
* Diese redundanten Informationen werden vom Speichercontroller berechnet und in acht weiteren Bits abgelegt (bei 32-bit-Speicherzeilen sind es sieben weitere Bits), weshalb ECC-Speicher 72 Bits pro Zeile hat
* Diese redundanten Informationen werden vom Speichercontroller berechnet und in acht weiteren Bit abgelegt (bei 32-bit-Speicherzeilen sind es sieben weitere Bits), weshalb ECC-Speicher 72 Bit pro Zeile hat


Das Verfahren selbst heißt Error Checking and Correcting
Verfahren heißt ''Error Checking and Correcting''
* ECC kann alle 1-bit-Fehler korrigieren und alle 2-bit-Fehler sowie manche Mehr-bit-Fehler erkennen
* ECC kann alle 1-bit-Fehler korrigieren und alle 2-bit-Fehler sowie manche Mehr-bit-Fehler erkennen
* ECC-Speicher kommt in Desktop-PCs kaum zum Einsatz
* ECC-Speicher kommt in Desktop-PCs kaum zum Einsatz


; Weitere Techniken zur Fehlererkennung
; Weitere Techniken
* Chipkill
* Chipkill
* Active Memory
* Active Memory
Zeile 32: Zeile 42:
* Memory RAID
* Memory RAID


; Ursache von Speicherfehlern
== Anwendung ==
Die Hauptursache von Speicherfehlern ist nicht [[ionisierende Strahlung]] (wie früher vermutet), sondern eher Probleme einzelner Speicherzellen (zum Beispiel durch Alterung oder Fertigungsprobleme)
<syntaxhighlight lang="bash" line>
--------------------- Kernel Begin ------------------------
WARNING:  Kernel Errors Present
    [Hardware Error]: CPU:0 (17:71:0 ...:  1 Time(s)
    [Hardware Error]: Corrected erro ...:  1 Time(s)
    [Hardware Error]: Error Addr: 0x ...:  1 Time(s)
    [Hardware Error]: IPID: 0x000000 ...:  1 Time(s)
    [Hardware Error]: Unified Memory ...:  1 Time(s)
    [Hardware Error]: cache level: L ...:  1 Time(s)
    mce: [Hardware Error]: Machine check  ...:  1 Time(s)
WARNING:  Kernel EDAC Messages
    EDAC MC0: 1 CE Cannot decode normalized address on mc#0csrow#1channel#0 (csrow:1 channel:0 page:0x0 offset:0x0 grain:64 syndrome:0x4) ...:  1 Time(s)
</syntaxhighlight>


== Anwendung ==
<syntaxhighlight lang="bash" line>
<syntaxhighlight lang="bash" line>
Message from syslogd@mx10 at Nov 20 21:01:33 ...
Message from syslogd@mx10 at Nov 20 21:01:33 ...
Zeile 54: Zeile 76:
Message from syslogd@mx10 at Nov 20 21:01:33 ...
Message from syslogd@mx10 at Nov 20 21:01:33 ...
  kernel:[376047.609366] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD
  kernel:[376047.609366] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD
</syntaxhighlight>
<syntaxhighlight lang="bash" line>
Message from syslogd@mx10 at May 16 11:46:58 ...
kernel:[153472.851839] [Hardware Error]: Corrected error, no action required.
Message from syslogd@mx10 at May 16 11:46:58 ...
kernel:[153472.851965] [Hardware Error]: CPU:0 (17:71:0) MC17_STATUS[-|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0x9c2040000000011b
Message from syslogd@mx10 at May 16 11:46:58 ...
kernel:[153472.852147] [Hardware Error]: Error Addr: 0x000000045d982340
Message from syslogd@mx10 at May 16 11:46:58 ...
kernel:[153472.852271] [Hardware Error]: IPID: 0x0000009600050f00, Syndrome: 0xcf8600040a800a01
Message from syslogd@mx10 at May 16 11:46:58 ...
kernel:[153472.852434] [Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.
Message from syslogd@mx10 at May 16 11:46:58 ...
kernel:[153472.851839] [Hardware Error]: Corrected error, no action required.
Message from syslogd@mx10 at May 16 11:46:58 ...
kernel:[153472.851965] [Hardware Error]: CPU:0 (17:71:0) MC17_STATUS[-|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0x9c2040000000011b
Message from syslogd@mx10 at May 16 11:46:58 ...
kernel:[153472.852147] [Hardware Error]: Error Addr: 0x000000045d982340
Message from syslogd@mx10 at May 16 11:46:58 ...
kernel:[153472.852271] [Hardware Error]: IPID: 0x0000009600050f00, Syndrome: 0xcf8600040a800a01
Message from syslogd@mx10 at May 16 11:46:58 ...
kernel:[153472.852434] [Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.
Message from syslogd@mx10 at May 16 11:46:58 ...
kernel:[153472.852790] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD
Message from syslogd@mx10 at May 16 11:46:58 ...
kernel:[153472.852790] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD
</syntaxhighlight>
</syntaxhighlight>


Zeile 61: Zeile 121:
== Anhang ==
== Anhang ==
=== Siehe auch ===
=== Siehe auch ===
{{Special:PrefixIndex/{{BASEPAGENAME}}}}
{{Special:PrefixIndex/{{BASEPAGENAME}}/}}
==== Dokumentation ====
=== Dokumentation ===


===== Man-Page =====
; Man-Page
===== Info-Pages =====
;Info-Page
==== Links ====
=== Links ===
===== Weblinks =====
==== Weblinks ====
# https://de.wikipedia.org/wiki/Speichermodul#Fehlererkennung_(ECC)
# https://de.wikipedia.org/wiki/Speichermodul#Fehlererkennung_(ECC)



Aktuelle Version vom 4. Juni 2025, 10:19 Uhr

Error Checking and Correcting - Verfahren zur Fehlererkennung und -behebung

Fehlererkennung

Speicherfehler

Ursache von Speicherfehlern

Probleme einzelner Speicherzellen

Möglichkeiten
ohne Keine Erkennung oder Korrektur von Fehlern
Fehlererkennung Einfache Fehlererkennung mit Paritätsbit
Fehlerkorrektur Fehlererkennung und -behebung

Voraussetzungen

Chipsatz und BIOS

ECC muss unterstützt werden vom

Erkennungsverfahren

Verfahren zur Erkennung von Hauptspeicherfehlern

Error Correction Code (ECC)

Hashwert über die 64 Bit jeder Speicherzeile

  • Diese redundanten Informationen werden vom Speichercontroller berechnet und in acht weiteren Bit abgelegt (bei 32-bit-Speicherzeilen sind es sieben weitere Bits), weshalb ECC-Speicher 72 Bit pro Zeile hat

Verfahren heißt Error Checking and Correcting

  • ECC kann alle 1-bit-Fehler korrigieren und alle 2-bit-Fehler sowie manche Mehr-bit-Fehler erkennen
  • ECC-Speicher kommt in Desktop-PCs kaum zum Einsatz
Weitere Techniken
  • Chipkill
  • Active Memory
  • Memory Resiliency
  • Memory RAID

Anwendung

--------------------- Kernel Begin ------------------------ 
 WARNING:  Kernel Errors Present
    [Hardware Error]: CPU:0 (17:71:0 ...:  1 Time(s)
    [Hardware Error]: Corrected erro ...:  1 Time(s)
    [Hardware Error]: Error Addr: 0x ...:  1 Time(s)
    [Hardware Error]: IPID: 0x000000 ...:  1 Time(s)
    [Hardware Error]: Unified Memory ...:  1 Time(s)
    [Hardware Error]: cache level: L ...:  1 Time(s)
    mce: [Hardware Error]: Machine check  ...:  1 Time(s)
 
 WARNING:  Kernel EDAC Messages
    EDAC MC0: 1 CE Cannot decode normalized address on mc#0csrow#1channel#0 (csrow:1 channel:0 page:0x0 offset:0x0 grain:64 syndrome:0x4) ...:  1 Time(s)
Message from syslogd@mx10 at Nov 20 21:01:33 ...
 kernel:[376047.608409] [Hardware Error]: Corrected error, no action required.

Message from syslogd@mx10 at Nov 20 21:01:33 ...
 kernel:[376047.608537] [Hardware Error]: CPU:0 (17:71:0) MC17_STATUS[-|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|Scrub]: 0x9c2041000000011b

Message from syslogd@mx10 at Nov 20 21:01:33 ...
 kernel:[376047.608722] [Hardware Error]: Error Addr: 0x000000045d982340

Message from syslogd@mx10 at Nov 20 21:01:33 ...
 kernel:[376047.608846] [Hardware Error]: IPID: 0x0000009600050f00, Syndrome: 0xcf8600040a800a01

Message from syslogd@mx10 at Nov 20 21:01:33 ...
 kernel:[376047.609009] [Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.

Message from syslogd@mx10 at Nov 20 21:01:33 ...
 kernel:[376047.609366] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD
Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.851839] [Hardware Error]: Corrected error, no action required.

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.851965] [Hardware Error]: CPU:0 (17:71:0) MC17_STATUS[-|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0x9c2040000000011b

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.852147] [Hardware Error]: Error Addr: 0x000000045d982340

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.852271] [Hardware Error]: IPID: 0x0000009600050f00, Syndrome: 0xcf8600040a800a01

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.852434] [Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.851839] [Hardware Error]: Corrected error, no action required.

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.851965] [Hardware Error]: CPU:0 (17:71:0) MC17_STATUS[-|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0x9c2040000000011b

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.852147] [Hardware Error]: Error Addr: 0x000000045d982340

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.852271] [Hardware Error]: IPID: 0x0000009600050f00, Syndrome: 0xcf8600040a800a01

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.852434] [Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.852790] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD

Message from syslogd@mx10 at May 16 11:46:58 ...
 kernel:[153472.852790] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD

Konfiguration

Dateien

Anhang

Siehe auch

Dokumentation

Man-Page
Info-Page

Links

Weblinks

  1. https://de.wikipedia.org/wiki/Speichermodul#Fehlererkennung_(ECC)