Textdatei/Zeichencodierung

Zeichencodierung - Zeichencodierung von Textdatei

Beschreibung

Physische Repräsentation

Der bei Textdateien physisch binär vorliegende Inhalt wird nach einer für die jeweilige Datei fest vorgegebenen Regel in Text umgewandelt

Dabei sind folgende Zeichencodierungen gebräuchlich

ASCII stellt das am weitesten verbreitete Format dar – insbesondere, wenn die diversen Erweiterungen des Standards einbezogen werden
ISO 8859-1 (auch bekannt als Latin-1) und ISO 8859-15 sind standardisierte Erweiterungen des ASCII, die die Grundlage des bei Windows im englischen und westeuropäischen Sprachraum verwendeten Codes Windows-1252 bilden
EBCDIC ist eine auf Großrechnern von IBM gebräuchliche Codierung
Unicode ist ein internationaler Standard, der weltweit alle sinntragenden Zeichen abbildet
Im Gegensatz zu obigen Codierungen kommt Unicode dabei nicht mit 8 Bit (das heißt einem Byte) aus, da Unicode weit mehr als 256 verschiedene Zeichen definiert

Unicode

Bei der Verwendung von Unicode ist die generelle Umsetzung eines Zeichens in ein Byte nicht anwendbar

Es gibt unterschiedliche Verfahren, Unicode in eine Bytefolge umzusetzen
Am meisten verwendet werden hierbei Codierungen mit dem Ziel, die Dateigröße bei Auftreten der gebräuchlichsten Zeichen zu minimieren
Hierfür wird allerdings die Regel „geopfert“, dass jedes Zeichen immer mit derselben Anzahl Bytes codiert wird
Ein Beispiel hierfür ist die verbreitete Codierung UTF-8, die zudem die Besonderheit aufweist, dass alle im ursprünglichen ASCII enthaltenen Zeichen genau auf die gleiche Weise wie bei ASCII in einem Byte codiert werden
Der binäre Inhalt einer Datei, die ausschließlich aus solchen Zeichen besteht, ist also identisch, unabhängig davon, ob sie in ASCII oder UTF-8 codiert wurde

Text bei dem Umlaute und das Eszett falsch (als Sonderzeichen) dargestellt werden — Fehlerhafte Darstellung bei Verwendung der falschen Codierung

Bei Unicode existiert zudem die Konvention, am Beginn einer Datei mittels spezieller Bytefolgen (sogenannte Byte Order Marks) kenntlich zu machen, welche Unicode-Codierung verwendet wird

Dies ist auch deshalb nötig, da auf vielen Systemen – auch unter Windows – die bisherige auf ASCII basierende Codierung und Unicode parallel verwendet werden
Bei einer solchen Codierung beginnt die Grenze zur Binärdatei zu verschwimmen

Wird eine Textdatei unter Verwendung einer falschen Zeichencodierung interpretiert, kann sie gänzlich unlesbar sein, wenn vollständig inkompatible Codierungen verwendet werden – wie beispielsweise ASCII und EBCDIC

Wird hingegen eine abweichende, aus dem ursprünglichen ASCII abgeleitete Codierung verwendet, werden lediglich die Sonderzeichen – beispielsweise die deutschen Umlaute – falsch dargestellt, da diese nicht Bestandteil der ersten 128 standardisierten Zeichen des ASCII sind

Anhang

Siehe auch

Links

Weblinks