Textdatei: Unterschied zwischen den Versionen
(14 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt) | |||
Zeile 6: | Zeile 6: | ||
Als '''Textdatei''' wird in der [[Informationstechnik]] eine [[Datei]] bezeichnet, die darstellbare [[Zeichen]] enthält und zum [[Speichern (Informatik)|Speichern]], [[Texteditor|Bearbeiten]], zur [[Datenübertragung]] und [[Lesen]] dient | Als '''Textdatei''' wird in der [[Informationstechnik]] eine [[Datei]] bezeichnet, die darstellbare [[Zeichen]] enthält und zum [[Speichern (Informatik)|Speichern]], [[Texteditor|Bearbeiten]], zur [[Datenübertragung]] und [[Lesen]] dient | ||
; Allgemeines | |||
Die Zeichen können durch Steuerzeichen wie Zeilen- und Seitenwechsel untergliedert sein | Die Zeichen können durch Steuerzeichen wie Zeilen- und Seitenwechsel untergliedert sein | ||
* Ein Text ist aus Sicht der [[Informationstechnologie]] ein aus [[Buchstabe]]n des [[Alphabet]]s, [[Zahlzeichen]] und anderen Zeichen (wie [[Sonderzeichen]]) zusammengesetzter [[Datenbestand]], der in einer Textdatei erfasst ist | * Ein Text ist aus Sicht der [[Informationstechnologie]] ein aus [[Buchstabe]]n des [[Alphabet]]s, [[Zahlzeichen]] und anderen Zeichen (wie [[Sonderzeichen]]) zusammengesetzter [[Datenbestand]], der in einer Textdatei erfasst ist | ||
Zeile 15: | Zeile 15: | ||
* Deshalb handelt es sich um keine Textdateien im fachsprachlichen Sinn, da die Dateiformate häufig binär sind und zur Anzeige eine spezielle Software erforderlich ist | * Deshalb handelt es sich um keine Textdateien im fachsprachlichen Sinn, da die Dateiformate häufig binär sind und zur Anzeige eine spezielle Software erforderlich ist | ||
; Fachsprachlichen Verwendung | |||
Bei einer Textdatei im fachsprachlichen Sinn wird die Menge der verfügbaren Zeichen durch die zugrunde liegende [[Zeichenkodierung|Codierung]] bestimmt | Bei einer Textdatei im fachsprachlichen Sinn wird die Menge der verfügbaren Zeichen durch die zugrunde liegende [[Zeichenkodierung|Codierung]] bestimmt | ||
* Am gebräuchlichsten sind hierbei [[American Standard Code for Information Interchange|ASCII]] oder [[UTF-8]], eine Codierung des [[Unicode]] | * Am gebräuchlichsten sind hierbei [[American Standard Code for Information Interchange|ASCII]] oder [[UTF-8]], eine Codierung des [[Unicode]] | ||
Zeile 22: | Zeile 23: | ||
* Textdateien, die eine bestimmte Notation erfordern – wie beispielsweise [[Hypertext Markup Language|HTML]]-Dateien – können zwar mit einem einfachen Texteditor bearbeitet werden, jedoch gibt es hierfür oft spezielle Programme, die die Bearbeitung erleichtern – beispielsweise durch besondere [[Syntaxhervorhebung|Hervorhebungen]] oder automatische Formatierungen | * Textdateien, die eine bestimmte Notation erfordern – wie beispielsweise [[Hypertext Markup Language|HTML]]-Dateien – können zwar mit einem einfachen Texteditor bearbeitet werden, jedoch gibt es hierfür oft spezielle Programme, die die Bearbeitung erleichtern – beispielsweise durch besondere [[Syntaxhervorhebung|Hervorhebungen]] oder automatische Formatierungen | ||
== Binär-/Textdatei == | |||
Abgrenzung von Binär- und Textdateien | |||
Folglich ist eine Textdatei im Gegensatz zu einer Binärdatei ohne die Verwendung spezieller Programme lesbar und kann mit einem einfachen [[Texteditor]] – wie beispielsweise mit [[Editor (Windows)|Notepad]] unter [[Microsoft Windows|Windows]] oder [[vi]] oder [[Nano (Texteditor)|Nano]] unter [[Unix]] – betrachtet und bearbeitet werden | ; Das Gegenstück zur Textdatei ist eine [[Binärdatei]] | ||
Im Grunde werden auch Textdateien binär gespeichert, die Begriffe werden jedoch komplementär verwendet, denn die Interpretation des binären Inhalts ist ausschlaggebend: | |||
* Bei einer Textdatei wird der Inhalt als sequenzielle Folge von Zeichen eines [[Zeichensatz]]es interpretiert, bei einer Binärdatei ist eine beliebige anderweitige Interpretation des Inhalts möglich | |||
* Folglich ist eine Textdatei im Gegensatz zu einer Binärdatei ohne die Verwendung spezieller Programme lesbar und kann mit einem einfachen [[Texteditor]] – wie beispielsweise mit [[Editor (Windows)|Notepad]] unter [[Microsoft Windows|Windows]] oder [[vi]] oder [[Nano (Texteditor)|Nano]] unter [[Unix]] – betrachtet und bearbeitet werden | |||
Bei | Bei manchen [[Betriebssystem]]en existieren Konventionen in Bezug auf die [[Dateinamenserweiterung|Endung]] von [[Dateiname]]n zur Kennzeichnung des Dateityps | ||
* Unter Windows und [[macOS]] wird dem Namen einer Textdatei meist die Endung <code>.txt</code> angehängt, auch bei anderen Betriebssystemen wie beispielsweise Linux wird diese Dateiendung teilweise verwendet | * Unter Windows und [[macOS]] wird dem Namen einer Textdatei meist die Endung <code>.txt</code> angehängt, auch bei anderen Betriebssystemen wie beispielsweise Linux wird diese Dateiendung teilweise verwendet | ||
; Standardisierung | |||
Die zur Standardisierung des technischen Formats von [[E-Mail]]s entworfenen [[Multipurpose Internet Mail Extensions]] (MIME) definieren sogenannte [[Internet Media Type|Medientypen]], die mittlerweile neben dem E-Mail-Verkehr auch in vielen anderen Bereichen zur Kennzeichnung des Dateityps verwendet werden | Die zur Standardisierung des technischen Formats von [[E-Mail]]s entworfenen [[Multipurpose Internet Mail Extensions]] (MIME) definieren sogenannte [[Internet Media Type|Medientypen]], die mittlerweile neben dem E-Mail-Verkehr auch in vielen anderen Bereichen zur Kennzeichnung des Dateityps verwendet werden | ||
* Der Medientyp <code>text</code> kennzeichnet dabei Text | * Der Medientyp <code>text</code> kennzeichnet dabei Text | ||
Zeile 41: | Zeile 43: | ||
* Manche Codierungen erlauben das Stapeln [[Diakritisches Zeichen|diakritischer Zeichen]] oder die Darstellung von [[Bidirektionaler Text|bidirektionalem Text]] | * Manche Codierungen erlauben das Stapeln [[Diakritisches Zeichen|diakritischer Zeichen]] oder die Darstellung von [[Bidirektionaler Text|bidirektionalem Text]] | ||
Eine mit einer [[Textverarbeitung]] (wie | ; Textverarbeitung | ||
Eine mit einer [[Textverarbeitung]] (wie [[Microsoft Word]] oder [[LibreOffice]] Writer) erstellte Datei ist im Normalfall keine Textdatei, selbst wenn ausschließlich Text erfasst wurde, da der Text nur unter Verwendung eines geeigneten Textverarbeitungssystems wieder angezeigt und bearbeitet werden kann | |||
* Auch ein im [[PostScript]] (<code>.ps</code>), [[Portable Document Format]] (PDF, <code>.pdf</code>) oder [[TeX]]-[[Device independent file format|DVI]] (<code>.dvi</code>) vorliegender Text ist keine Textdatei, weil diese codierte Formatinformationen enthält, die auch binär sein können | * Auch ein im [[PostScript]] (<code>.ps</code>), [[Portable Document Format]] (PDF, <code>.pdf</code>) oder [[TeX]]-[[Device independent file format|DVI]] (<code>.dvi</code>) vorliegender Text ist keine Textdatei, weil diese codierte Formatinformationen enthält, die auch binär sein können | ||
* Ebenso handelt es sich bei Texten, die mittels eines [[Scanner (Datenerfassung)|Scanners]] eingelesen werden, nicht um Textdateien | * Ebenso handelt es sich bei Texten, die mittels eines [[Scanner (Datenerfassung)|Scanners]] eingelesen werden, nicht um Textdateien | ||
* Diese sind vielmehr [[Bilddatei]]en, sofern sie nicht nach dem Scan-Vorgang mittels einer [[Texterkennung]]s-Software (OCR, {{lang|en|optical character recognition}}) in eine Textdatei umgewandelt werden | * Diese sind vielmehr [[Bilddatei]]en, sofern sie nicht nach dem Scan-Vorgang mittels einer [[Texterkennung]]s-Software (OCR, {{lang|en|optical character recognition}}) in eine Textdatei umgewandelt werden | ||
; Datenkomprimierung | |||
Bei einer [[Datenkomprimierung]] kann bei Textdateien im Regelfall eine erheblich größere Einsparung bei der Speichergröße erzielt werden als bei Binärdateien | Bei einer [[Datenkomprimierung]] kann bei Textdateien im Regelfall eine erheblich größere Einsparung bei der Speichergröße erzielt werden als bei Binärdateien | ||
* Dies liegt daran, dass bei Textdateien die [[Entropie (Informationstheorie)|Informationsdichte]] geringer ist als bei den meisten Binärdateien, was die gängigen Komprimierungsalgorithmen ausnutzen – beispielsweise durch Verwendung der [[Huffman-Kodierung]] | * Dies liegt daran, dass bei Textdateien die [[Entropie (Informationstheorie)|Informationsdichte]] geringer ist als bei den meisten Binärdateien, was die gängigen Komprimierungsalgorithmen ausnutzen – beispielsweise durch Verwendung der [[Huffman-Kodierung]] | ||
<noinclude> | |||
== Anhang == | == Anhang == | ||
=== Siehe auch === | === Siehe auch === |
Aktuelle Version vom 12. November 2024, 20:07 Uhr
Textdatei - Datei, die darstellbare Zeichen enthält
Beschreibung
Als Textdatei wird in der Informationstechnik eine Datei bezeichnet, die darstellbare Zeichen enthält und zum Speichern, Bearbeiten, zur Datenübertragung und Lesen dient
- Allgemeines
Die Zeichen können durch Steuerzeichen wie Zeilen- und Seitenwechsel untergliedert sein
- Ein Text ist aus Sicht der Informationstechnologie ein aus Buchstaben des Alphabets, Zahlzeichen und anderen Zeichen (wie Sonderzeichen) zusammengesetzter Datenbestand, der in einer Textdatei erfasst ist
- Umgangssprachliche Verwendung
Im Gegensatz zu dieser fachsprachlichen Definition des Begriffs Textdatei, bei der das Dateiformat ausschlaggebend ist, orientiert sich die umgangssprachliche Verwendung des Begriffs häufig primär am für den Endbenutzer sichtbaren Inhalt der Datei: Dabei werden etwas unscharf alle Dateien als „Textdatei“ bezeichnet, die mit dem Ziel erstellt wurden, einen lesbaren Text zu präsentieren, unabhängig davon, in welcher Form sie gespeichert werden
- Bei den von üblicher Textverarbeitungs- oder Publishingsoftware bei Speicherung erzeugten Dateien handelt es sich jedoch häufig um komplexe Dateiformate, die neben dem Text Metainformation zur Beschreibung des Textlayouts, der Struktur und der verwendeten Schriften enthalten; zudem können Bilder oder Grafiken eingebettet sein
- Deshalb handelt es sich um keine Textdateien im fachsprachlichen Sinn, da die Dateiformate häufig binär sind und zur Anzeige eine spezielle Software erforderlich ist
- Fachsprachlichen Verwendung
Bei einer Textdatei im fachsprachlichen Sinn wird die Menge der verfügbaren Zeichen durch die zugrunde liegende Codierung bestimmt
- Am gebräuchlichsten sind hierbei ASCII oder UTF-8, eine Codierung des Unicode
- Eine solche Textdatei muss dabei nicht notwendigerweise Text enthalten – es kann sich beispielsweise auch um ASCII-Art handeln, also um Piktogramme auf Basis der verfügbaren Zeichen
- Wenn es sich jedoch um Text handelt und zum Verständnis der Bedeutung weder besondere Verarbeitungsschritte noch die Kenntnis einer speziellen Notation erforderlich sind, wird der Inhalt als Plain text bezeichnet
- Die Zeichenmenge wird aber auch häufig durch eine natürliche oder formale Sprache eingeschränkt
- Textdateien, die eine bestimmte Notation erfordern – wie beispielsweise HTML-Dateien – können zwar mit einem einfachen Texteditor bearbeitet werden, jedoch gibt es hierfür oft spezielle Programme, die die Bearbeitung erleichtern – beispielsweise durch besondere Hervorhebungen oder automatische Formatierungen
Binär-/Textdatei
Abgrenzung von Binär- und Textdateien
- Das Gegenstück zur Textdatei ist eine Binärdatei
Im Grunde werden auch Textdateien binär gespeichert, die Begriffe werden jedoch komplementär verwendet, denn die Interpretation des binären Inhalts ist ausschlaggebend:
- Bei einer Textdatei wird der Inhalt als sequenzielle Folge von Zeichen eines Zeichensatzes interpretiert, bei einer Binärdatei ist eine beliebige anderweitige Interpretation des Inhalts möglich
- Folglich ist eine Textdatei im Gegensatz zu einer Binärdatei ohne die Verwendung spezieller Programme lesbar und kann mit einem einfachen Texteditor – wie beispielsweise mit Notepad unter Windows oder vi oder Nano unter Unix – betrachtet und bearbeitet werden
Bei manchen Betriebssystemen existieren Konventionen in Bezug auf die Endung von Dateinamen zur Kennzeichnung des Dateityps
- Unter Windows und macOS wird dem Namen einer Textdatei meist die Endung
.txt
angehängt, auch bei anderen Betriebssystemen wie beispielsweise Linux wird diese Dateiendung teilweise verwendet
- Standardisierung
Die zur Standardisierung des technischen Formats von E-Mails entworfenen Multipurpose Internet Mail Extensions (MIME) definieren sogenannte Medientypen, die mittlerweile neben dem E-Mail-Verkehr auch in vielen anderen Bereichen zur Kennzeichnung des Dateityps verwendet werden
- Der Medientyp
text
kennzeichnet dabei Text - Die vollständige Typangabe wird noch um einen Subtyp ergänzt, der den Verwendungszweck des Textes spezifiziert
- Bei Textdateien, die direkt den „eigentlichen“ Text enthalten, der nicht für eine bestimmte maschinelle Weiterverarbeitung bestimmt ist, lautet die vollständige Typangabe
text/plain
Für den in einer Textdatei enthaltenen Text können keine besonderen Formatierungen wie beispielsweise Hervorhebungen durch Fettdarstellung festgelegt werden
- Manche Codierungen erlauben das Stapeln diakritischer Zeichen oder die Darstellung von bidirektionalem Text
- Textverarbeitung
Eine mit einer Textverarbeitung (wie Microsoft Word oder LibreOffice Writer) erstellte Datei ist im Normalfall keine Textdatei, selbst wenn ausschließlich Text erfasst wurde, da der Text nur unter Verwendung eines geeigneten Textverarbeitungssystems wieder angezeigt und bearbeitet werden kann
- Auch ein im PostScript (
.ps
), Portable Document Format (PDF,.pdf
) oder TeX-DVI (.dvi
) vorliegender Text ist keine Textdatei, weil diese codierte Formatinformationen enthält, die auch binär sein können - Ebenso handelt es sich bei Texten, die mittels eines Scanners eingelesen werden, nicht um Textdateien
- Diese sind vielmehr Bilddateien, sofern sie nicht nach dem Scan-Vorgang mittels einer Texterkennungs-Software (OCR, Vorlage:Lang) in eine Textdatei umgewandelt werden
- Datenkomprimierung
Bei einer Datenkomprimierung kann bei Textdateien im Regelfall eine erheblich größere Einsparung bei der Speichergröße erzielt werden als bei Binärdateien
- Dies liegt daran, dass bei Textdateien die Informationsdichte geringer ist als bei den meisten Binärdateien, was die gängigen Komprimierungsalgorithmen ausnutzen – beispielsweise durch Verwendung der Huffman-Kodierung
Anhang
Siehe auch
Links
Weblinks