Textdatei/Zeilenende
Zeilenende
- Kennzeichnung des Zeilenendes
Grundsätzlich gibt es zwei Möglichkeiten festzulegen, an welcher Stelle eine neue Zeile im Text beginnen soll: die Festlegung einer konstanten Anzahl Zeichen pro Zeile oder die Verwendung definierter spezieller Zeichen zur Markierung des Zeilenendes
Festlegung einer konstanten Zeilenlänge
Die Verwendung einer festen Zeilenlänge hat den Vorteil, dass die Position einer bestimmten Zeile innerhalb der Zeichenfolge (Bytefolge) der Datei ermittelt werden kann, ohne die Datei Zeile für Zeile lesen zu müssen
- Allerdings hat sie den Nachteil, dass Zeilen mit kürzerem Inhalt „aufgefüllt“ werden müssen (siehe Padding); dies erfolgt in der Regel mit Leerzeichen
- Dadurch beansprucht die Datei mehr Speicherplatz als nötig, wenn die Zeilenlänge nicht ausgeschöpft wird
- Eine solche feste Zeilenlänge ist nur auf Großrechner-Systemen gebräuchlich
- Die Satzlänge wird dabei vom Dateisystem verwaltet oder ist bei Zugriff auf die Datei anzugeben
- Sehr häufig ist die Satzlänge von 80 Zeichen, da diese Anzahl Zeichen bei zeichenorientierten Terminals in einer Zeile dargestellt werden kann, was wiederum auf die historischen Lochkarten zurückgeht
Kennzeichnung mittels Steuerzeichen
Die übliche Definition des Zeichens zur Kennzeichnung des Zeilenendes erinnert an die ursprüngliche direkte Datenausgabe von Textdateien auf Fernschreibern oder Druckern, die in ihrer Bauart einer Schreibmaschine entsprachen
- Dort waren die „Befehle“ Wagenrücklauf (Vorlage:Lang,
CR
) und Zeilenvorschub (Vorlage:Lang,LF
) notwendig, um die Fortsetzung der Druckausgabe am Beginn der nächsten Zeile zu veranlassen – bei einem Fernschreiber waren das zwei separate Tasten - Diese beiden Steuerzeichen waren folglich die aussichtsreichsten Kandidaten, um als Markierung des Zeilenendes bei elektronischer Speicherung von Dateien verwendet zu werden
- Im Prinzip ist dabei aber ein Zeichen von beiden ausreichend, und diese Wahlmöglichkeit führte dazu, dass die Festlegung uneinheitlich erfolgte, was bis heute eine Komplikation beim systemübergreifenden Austausch von Dateien darstellt
- Hauptsächlich auf der Plattform der IBM-PC-kompatibler Computer, unter Betriebssystemen wie PC-kompatibles DOS oder Windows, wird die Folge von
CR
undLF
(ASCII: zwei Bytes) zur Markierung des Zeilenendes verwendet - Unter Unix und Unixartigen Betriebssystemen, beispielsweise Linux, wird das Zeilenende alleine mittels
LF
(ASCII, UTF-8: ein Byte) gekennzeichnet - Bei älteren Betriebssystemen von Apple, beispielsweise System 1 bis Mac OS 9 (1984–2001) war mit der ausschließlichen Verwendung von
CR
eine dritte Möglichkeit gebräuchlich - In der IBM-Großrechnerwelt wird im EBCDIC neben diesen beiden Zeichen noch ein weiteres spezielles Zeichen (Vorlage:Lang,
NL
) verwendet
Die diesbezüglich meisten Probleme entstehen beim Austausch von Dateien, häufig z. B
- zwischen der Windows- und Unix-Plattform, da diese über weite Bereiche denselben Zeichencode verwenden und mit Ausnahme des Zeilenende-Zeichens im Regelfall keine Konvertierung der Dateien erforderlich ist