|
|
(17 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt) |
Zeile 2: |
Zeile 2: |
|
| |
|
| == Beschreibung == | | == Beschreibung == |
| Ein '''regulärer Ausdruck''' (''regular expression'','''RegExp''' oder '''Regular expression''') ist eine [http://de.wikipedia.org/wiki/Zeichenkette Zeichenkette], die der Beschreibung von Zeichenketten mithilfe bestimmter [http://de.wikipedia.org/wiki/Syntax syntaktischer] Regeln dient. | | Ein '''regulärer Ausdruck''' (''regular expression'','''RegExp''' oder '''Regular expression''') ist eine [https://de.wikipedia.org/wiki/Zeichenkette Zeichenkette], die der Beschreibung von Zeichenketten mithilfe bestimmter [https://de.wikipedia.org/wiki/Syntax syntaktischer] Regeln dient. |
|
| |
|
| * Reguläre Ausdrücke finden vorwiegend in der [http://de.wikipedia.org/wiki/Softwareentwicklung Softwareentwicklung] Verwendung; für fast alle [http://de.wikipedia.org/wiki/Programmiersprache Programmiersprachen] existieren [http://de.wikipedia.org/wiki/Implementierung Implementierungen]. | | * Reguläre Ausdrücke finden vorwiegend in der [https://de.wikipedia.org/wiki/Softwareentwicklung Softwareentwicklung] Verwendung; für fast alle [https://de.wikipedia.org/wiki/Programmiersprache Programmiersprachen] existieren [https://de.wikipedia.org/wiki/Implementierung Implementierungen]. |
| * Eine Regular Expression (im folgenden mit RE abgekürzt) ist so etwas wie ein Suchmuster, das dazu dient, komplizierte Suchanfragen mit wenigen Zeichen zu formulieren. | | * Eine Regular Expression (im folgenden mit RE abgekürzt) ist so etwas wie ein Suchmuster, das dazu dient, komplizierte Suchanfragen mit wenigen Zeichen zu formulieren. |
| * Die Syntax ist standardisiert und wird von verschiedenen Programmen verstanden, z. B. sed, egrep, expr, perl. Das interpretierende Programm versucht, aus einer größeren Zeichenmenge (i.A. einer Zeile) eine Teilmenge zu finden, die zu der RE "passt". | | * Die Syntax ist standardisiert und wird von verschiedenen Programmen verstanden, beispielsweise sed, egrep, expr, perl. Das interpretierende Programm versucht, aus einer größeren Zeichenmenge (i.A. einer Zeile) eine Teilmenge zu finden, die zu der RE "passt". |
| * Oft gibt es mehrere Teilmengen, die passen. In diesem Fall wird die größte Teilmenge als Ergebnis verwendet. | | * Oft gibt es mehrere Teilmengen, die passen. In diesem Fall wird die größte Teilmenge als Ergebnis verwendet. |
| * [http://de.wikipedia.org/wiki/Pattern_Matching Pattern Matching] | | * [https://de.wikipedia.org/wiki/Pattern_Matching Pattern Matching] |
| * Reguläre Ausdrücke können als Filterkriterien in der Textsuche verwendet werden, indem der Text mit dem Muster des regulären Ausdrucks abgeglichen wird. | | * Reguläre Ausdrücke können als Filterkriterien in der Textsuche verwendet werden, indem der Text mit dem Muster des regulären Ausdrucks abgeglichen wird. |
| * So ist es beispielsweise möglich, alle Wörter aus einer Wortliste herauszusuchen, die mit ''S'' beginnen und auf ''D'' enden – ohne die dazwischenliegenden Buchstaben und wahlweise deren Anzahl explizit vorgeben zu müssen. | | * So ist es beispielsweise möglich, alle Wörter aus einer Wortliste herauszusuchen, die mit ''S'' beginnen und auf ''D'' enden - ohne die dazwischenliegenden Buchstaben und wahlweise deren Anzahl explizit vorgeben zu müssen. |
|
| |
|
| === Zeichenketten finden === | | === Zeichenketten finden === |
| * Eine häufige Anwendung regulärer Ausdrücke besteht darin, spezielle Zeichenketten in einer Menge von Zeichenketten zu finden. | | * Eine häufige Anwendung regulärer Ausdrücke besteht darin, spezielle Zeichenketten in einer Menge von Zeichenketten zu finden. |
| * Die im Folgenden angegebene Beschreibung ist eine (oft benutzte) Konvention, um Konzepte wie ''Zeichenklasse'', ''Quantifizierung'', ''Verknüpfung'' und ''Zusammenfassen'' konkret zu realisieren. | | * Die im Folgenden angegebene Beschreibung ist eine (oft benutzte) Konvention, um Konzepte wie ''Zeichenklasse'', ''Quantifizierung'', ''Verknüpfung'' und ''Zusammenfassen'' konkret zu realisieren. |
| * [http://de.wikipedia.org/wiki/Metazeichen Metazeichen] | | * [https://de.wikipedia.org/wiki/Metazeichen Metazeichen] |
| * Hierbei wird ein regulärer Ausdruck aus den Zeichen des zugrunde liegenden Alphabets in Kombination mit den [http://de.wikipedia.org/wiki/Metazeichen Metazeichen] <tt>[ ] ( ) { } | ? + - * ^ $ \ .</tt> (teilweise kontextabhängig) gebildet. | | * Hierbei wird ein regulärer Ausdruck aus den Zeichen des zugrunde liegenden Alphabets in Kombination mit den [https://de.wikipedia.org/wiki/Metazeichen Metazeichen] <tt>[ ] ( ) { } | ? + - * ^ $ \ .</tt> (teilweise kontextabhängig) gebildet. |
| * Die Meta-Eigenschaft eines Zeichens kann durch ein vorangestelltes [http://de.wikipedia.org/wiki/Backslash Backslash]-Zeichen aufgehoben werden. | | * Die Meta-Eigenschaft eines Zeichens kann durch ein vorangestelltes [https://de.wikipedia.org/wiki/Backslash Backslash]-Zeichen aufgehoben werden. |
| * Alle übrigen Zeichen des Alphabets stehen für sich selbst. | | * Alle übrigen Zeichen des Alphabets stehen für sich selbst. |
| * [http://de.wikipedia.org/w/index.php?title=Textersetzung&action=edit&redlink=1 Textersetzungen] | | * [https://de.wikipedia.org/w/index.php?title=Textersetzung&action=edit&redlink=1 Textersetzungen] |
| * Ein weiteres Beispiel für den Einsatz als [http://de.wikipedia.org/wiki/Filtrierung Filter] ist die Möglichkeit, komplizierte [http://de.wikipedia.org/w/index.php?title=Textersetzung&action=edit&redlink=1 Textersetzungen] durchzuführen. | | * Ein weiteres Beispiel für den Einsatz als [https://de.wikipedia.org/wiki/Filtrierung Filter] ist die Möglichkeit, komplizierte [https://de.wikipedia.org/w/index.php?title=Textersetzung&action=edit&redlink=1 Textersetzungen] durchzuführen. |
| * Neben den aufgeführten analytischen Aufgaben können reguläre Ausdrücke auch verwendet werden, um Mengen von Wörtern zu erzeugen, ohne jedes Wort einzeln angeben zu müssen. | | * Neben den aufgeführten analytischen Aufgaben können reguläre Ausdrücke auch verwendet werden, um Mengen von Wörtern zu erzeugen, ohne jedes Wort einzeln angeben zu müssen. |
| * So lässt sich beispielsweise ein Ausdruck angeben, der bei einer gegebenen (Maximal-)Zeichenanzahl alle denkbaren Zeichenkombinationen („Wörter“) erzeugt, die mit ''S'' beginnen und mit ''D'' enden. Auf diese Weise können etwa [http://de.wikipedia.org/wiki/Brute-Force systematisch] [http://de.wikipedia.org/wiki/E-Mail-Adresse E-Mail-Adressen] (vor allem der Teil vor dem [http://de.wikipedia.org/wiki/@ @]) für den [http://de.wikipedia.org/wiki/Spam Spam]-Versand [http://de.wikipedia.org/wiki/Codegenerator generiert] werden. | | * So lässt sich beispielsweise ein Ausdruck angeben, der bei einer gegebenen (Maximal-)Zeichenanzahl alle denkbaren Zeichenkombinationen ("Wörter") erzeugt, die mit ''S'' beginnen und mit ''D'' enden. Auf diese Weise können etwa [https://de.wikipedia.org/wiki/Brute-Force systematisch] [https://de.wikipedia.org/wiki/E-Mail-Adresse E-Mail-Adressen] (vor allem der Teil vor dem [https://de.wikipedia.org/wiki/@ @]) für den [https://de.wikipedia.org/wiki/Spam Spam]-Versand [https://de.wikipedia.org/wiki/Codegenerator generiert] werden. |
|
| |
|
| === Erweiterungen === | | === Erweiterungen === |
| * Die meisten heutigen Implementierungen unterstützen Erweiterungen wie zum Beispiel Rückwärtsreferenzen ''(backreferences).'' Hierbei handelt es sich nicht mehr um reguläre Ausdrücke im Sinne der theoretischen Informatik, denn die so erweiterten Ausdrücke beschreiben nicht mehr notwendigerweise Sprachen vom Typ 3 der [http://de.wikipedia.org/wiki/Chomsky-Hierarchie Chomsky-Hierarchie]. | | * Die meisten heutigen Implementierungen unterstützen Erweiterungen wie zum Beispiel Rückwärtsreferenzen ''(backreferences).'' Hierbei handelt es sich nicht mehr um reguläre Ausdrücke im Sinne der theoretischen Informatik, denn die so erweiterten Ausdrücke beschreiben nicht mehr notwendigerweise Sprachen vom Typ 3 der [https://de.wikipedia.org/wiki/Chomsky-Hierarchie Chomsky-Hierarchie]. |
| * Die folgenden Syntaxbeschreibungen beziehen sich auf die Syntax der gängigen Implementierungen mit Erweiterungen, sie entsprechen also nur teilweise der obigen Definition aus der theoretischen Informatik. | | * Die folgenden Syntaxbeschreibungen beziehen sich auf die Syntax der gängigen Implementierungen mit Erweiterungen, sie entsprechen also nur teilweise der obigen Definition aus der theoretischen Informatik. |
|
| |
|
| === Anwendung regulärer Ausdrücke === | | === Anwendung regulärer Ausdrücke === |
| [http://de.wikipedia.org/wiki/Ken_Thompson Ken Thompson] nutzte diese Notation in den 1960ern, um ''qed'' (eine Vorgängerversion des Unix-Editors [http://de.wikipedia.org/wiki/Ed ed]) zu bauen und später das Werkzeug [http://de.wikipedia.org/wiki/Grep grep] zu schreiben. | | [https://de.wikipedia.org/wiki/Ken_Thompson Ken Thompson] nutzte diese Notation in den 1960ern, um ''qed'' (eine Vorgängerversion des Unix-Editors [https://de.wikipedia.org/wiki/Ed ed]) zu bauen und später das Werkzeug [https://de.wikipedia.org/wiki/Grep grep] zu schreiben. |
|
| |
|
| Seither implementieren viele Programme und Bibliotheken von Programmiersprachen Funktionen, um ''reguläre Ausdrücke'' zum Suchen und Ersetzen von Zeichenketten zu nutzen. | | Seither implementieren viele Programme und Bibliotheken von Programmiersprachen Funktionen, um ''reguläre Ausdrücke'' zum Suchen und Ersetzen von Zeichenketten zu nutzen. |
Zeile 39: |
Zeile 39: |
| | colspan="2" | '''Bibliotheken der Programmiersprachen ''' | | | colspan="2" | '''Bibliotheken der Programmiersprachen ''' |
| |- | | |- |
| | | * [http://de.wikipedia.org/wiki/Sed_%28Unix%29 sed] | | || |
| * [http://de.wikipedia.org/wiki/Grep grep] | | * [https://de.wikipedia.org/wiki/Sed_%28Unix%29 sed] |
| * [http://de.wikipedia.org/wiki/Emacs emacs] | | * [https://de.wikipedia.org/wiki/Grep grep] |
| | * [https://de.wikipedia.org/wiki/Emacs emacs] |
| * vi | | * vi |
| | | * [http://de.wikipedia.org/wiki/Perl_%28Programmiersprache%29 Perl] | | || |
| * [http://de.wikipedia.org/wiki/C_%28Programmiersprache%29 C] | | * [https://de.wikipedia.org/wiki/Perl_%28Programmiersprache%29 Perl] |
| * [http://de.wikipedia.org/wiki/Java_%28Programmiersprache%29 Java] | | * [https://de.wikipedia.org/wiki/C_%28Programmiersprache%29 C] |
| * [http://de.wikipedia.org/wiki/Python_%28Programmiersprache%29 Python] | | * [https://de.wikipedia.org/wiki/Java_%28Programmiersprache%29 Java] |
| | | * [http://de.wikipedia.org/wiki/PHP PHP] | | * [https://de.wikipedia.org/wiki/Python_%28Programmiersprache%29 Python] |
| * [http://de.wikipedia.org/wiki/Ruby_%28Programmiersprache%29 Ruby] | | || |
| * [http://de.wikipedia.org/wiki/.NET .NET]-Framework | | * [https://de.wikipedia.org/wiki/PHP PHP] |
| |-
| | * [https://de.wikipedia.org/wiki/Ruby_%28Programmiersprache%29 Ruby] |
| | * [https://de.wikipedia.org/wiki/.NET .NET]-Framework |
| |} | | |} |
| Auch die [http://de.wikipedia.org/wiki/Textverarbeitung Textverarbeitung] und die [http://de.wikipedia.org/wiki/Tabellenkalkulation Tabellenkalkulation] des Office-Paketes [http://de.wikipedia.org/wiki/OpenOffice.org OpenOffice.org] bieten die Möglichkeit, mit regulären Ausdrücken im Text zu suchen. | | |
| | Auch die [https://de.wikipedia.org/wiki/Textverarbeitung Textverarbeitung] und die [https://de.wikipedia.org/wiki/Tabellenkalkulation Tabellenkalkulation] des Office-Paketes [https://de.wikipedia.org/wiki/OpenOffice.org OpenOffice.org] bieten die Möglichkeit, mit regulären Ausdrücken im Text zu suchen. |
|
| |
|
| === Implementierungen === | | === Implementierungen === |
| ; Basic Regular Expressions (BRE)
| | {| class="wikitable options big" |
| * „grundlegende“ reguläre Ausdrücke
| |
| ; Extended Regular Expressions (ERE)
| |
| * „erweiterte“ reguläre Ausdrücke
| |
| ; Perl Compatible Regular Expressions] (PCRE)
| |
| * In Programmiersprachen haben sich überwiegend die [http://de.wikipedia.org/wiki/Perl_Compatible_Regular_Expressions Perl Compatible Regular Expressions] (PCRE) durchgesetzt, die sich an der Umsetzung in Perl orientieren.
| |
| | |
| Einige Programme, etwa der [http://de.wikipedia.org/wiki/Texteditor Texteditor] [http://de.wikipedia.org/wiki/Vim Vim], ermöglichen, zwischen verschiedenen Syntaxen zu wechseln.
| |
| | |
| siehe [http://de.wikipedia.org/wiki/Portable_Operating_System_Interface POSIX.2]
| |
| | |
| == Suchmuster ==
| |
| [[Regular Expression/Suchmuster]]
| |
| | |
| == Listen ==
| |
| [[Regular Expression/Listen]]
| |
| | |
| == Zeichenklassen ==
| |
| ; Vordefinierten Zeichenklassen
| |
| In vielen neueren Implementationen können innerhalb der eckigen Klammern nach [http://de.wikipedia.org/wiki/POSIX POSIX] auch Klassen (vordefinierte Listen) angegeben werden, die selbst wiederum eckige Klammern enthalten.
| |
| | |
| {| class="wikitable sortable" | |
| |-
| |
| | | '''POSIX'''
| |
| | | '''Non-standard'''
| |
| | | '''Perl/Tcl'''
| |
| | | '''Vim'''
| |
| | | '''ASCII'''
| |
| | | '''Description'''
| |
| |- | | |- |
| | | <tt>[:alnum:]</tt> | | | Basic Regular Expressions (BRE) || "grundlegende" reguläre Ausdrücke |
| | | | |
| | |
| |
| | |
| |
| | | <tt>[A-Za-z0-9]</tt>
| |
| | | Alphanumeric characters
| |
| |- | | |- |
| | | | | | Extended Regular Expressions (ERE) || "erweiterte" reguläre Ausdrücke |
| | | <tt>[:word:]</tt>
| |
| | | <tt>\w</tt>
| |
| | | <tt>\w</tt>
| |
| | | <tt>[A-Za-z0-9_]</tt>
| |
| | | Alphanumeric characters plus "_"
| |
| |-
| |
| | |
| |
| | |
| |
| | | <tt>\W</tt>
| |
| | | <tt>\W</tt>
| |
| | | <tt>[^A-Za-z0-9_]</tt>
| |
| | | Non-word characters
| |
| |-
| |
| | | <tt>[:alpha:]</tt>
| |
| | |
| |
| | |
| |
| | | <tt>\a</tt>
| |
| | | <tt>[A-Za-z]</tt>
| |
| | | Alphabetic characters
| |
| |-
| |
| | | <tt>[:blank:]</tt>
| |
| | |
| |
| | |
| |
| | | <tt>\s</tt>
| |
| | | <tt>[ [http://en.wikipedia.org/wiki/%5Ct \t]]</tt>
| |
| | | Space and tab
| |
| |-
| |
| | |
| |
| | |
| |
| | | <tt>\b</tt>
| |
| | | <tt>\< \></tt>
| |
| | | <tt>(?<=\W)(?=\w)|(?<=\w)(?=\W)</tt>
| |
| | | Word boundaries
| |
| |-
| |
| | | <tt>[:cntrl:]</tt>
| |
| | |
| |
| | |
| |
| | |
| |
| | | <tt>[\x00-\x1F\x7F]</tt>
| |
| | | [http://en.wikipedia.org/wiki/Control_character Control characters]
| |
| |-
| |
| | | <tt>[:digit:]</tt>
| |
| | |
| |
| | | <tt>\d</tt>
| |
| | | <tt>\d</tt> | |
| | | <tt>[0-9]</tt>
| |
| | | Digits
| |
| |-
| |
| | |
| |
| | |
| |
| | | <tt>\D</tt>
| |
| | | <tt>\D</tt>
| |
| | | <tt>[^0-9]</tt>
| |
| | | Non-digits
| |
| |-
| |
| | | <tt>[:graph:]</tt>
| |
| | |
| |
| | |
| |
| | |
| |
| | | <tt>[\x21-\x7E]</tt>
| |
| | | Visible characters
| |
| |-
| |
| | | <tt>[:lower:]</tt>
| |
| | |
| |
| | |
| |
| | | <tt>\l</tt>
| |
| | | <tt>[a-z]</tt>
| |
| | | Lowercase letters
| |
| |-
| |
| | | <tt>[:print:]</tt>
| |
| | |
| |
| | |
| |
| | | <tt>\p</tt>
| |
| | | <tt>[\x20-\x7E]</tt>
| |
| | | Visible characters and the space character
| |
| |-
| |
| | | <tt>[:punct:]</tt>
| |
| | |
| |
| | |
| |
| | |
| |
| | | <tt>[][!"#$%&'()*+,./:;<=>?@\^_`{| class="wikitable sortable"}~-]</tt>
| |
| | | Punctuation characters
| |
| |-
| |
| | | <tt>[:space:]</tt>
| |
| | |
| |
| | | <tt>\s</tt>
| |
| | | <tt>\_s</tt>
| |
| | | <tt>[ [http://en.wikipedia.org/wiki/%5Ct \t][http://en.wikipedia.org/wiki/%5Cr \r][http://en.wikipedia.org/wiki/%5Cn \n][http://en.wikipedia.org/wiki/%5Cv \v][http://en.wikipedia.org/wiki/%5Cf \f]]</tt>
| |
| | | [http://en.wikipedia.org/wiki/Whitespace_character Whitespace characters]
| |
| |-
| |
| | |
| |
| | |
| |
| | | <tt>\S</tt>
| |
| | |
| |
| | | <tt>[^ \t\r\n\v\f]</tt>
| |
| | | Non-whitespace characters
| |
| |-
| |
| | | <tt>[:upper:]</tt>
| |
| | |
| |
| | |
| |
| | | <tt>\u</tt>
| |
| | | <tt>[A-Z]</tt>
| |
| | | Uppercase letters
| |
| |-
| |
| | | <tt>[:xdigit:]</tt>
| |
| | |
| |
| | |
| |
| | | <tt>\x</tt>
| |
| | | <tt>[A-Fa-f0-9]</tt>
| |
| | | Hexadecimal digits
| |
| |- | | |- |
| | | Perl Compatible Regular Expressions (PCRE) || In Programmiersprachen haben sich überwiegend die [https://de.wikipedia.org/wiki/Perl_Compatible_Regular_Expressions Perl Compatible Regular Expressions] (PCRE) durchgesetzt, die sich an der Umsetzung in Perl orientieren. |
| |} | | |} |
| POSIX Zeichenklassen können nur innerhalb von Klammer-Ausdrücken genutzt werden.
| |
|
| |
| ; Vordefinierten Zeichenklassen müssen in eckige Klammern
| |
| '''falsch'''
| |
| grep -E '[:alnum:]' Datei
| |
| * findet z. B. 'a', da es eines der Zeichen ':alnum:' ist, aber nicht 'b' oder '1'
| |
| * (die vordefinierte Liste wird nicht als solche interpretiert!)
| |
|
| |
| '''richtig'''
| |
| grep -E ''''['''[:alnum:]''']'''' Datei
| |
| * findet sowohl 'a', als auch 'b' oder '1', da die vordefinierte Liste nun als "Buchstabe oder Zahl" interpretiert wird
| |
|
| |
| grep -E ''''['''[:alnum:] ''']'''' Datei
| |
| * findet zusätzlich zu Buchstaben und Zahlen auch Leerzeichen
| |
|
| |
| grep -E '[0-9a-zA-Z]' Datei
| |
| * entspricht [[:alnum:]]
| |
|
| |
| === Zeichenklassen, hierarchisch sortiert ===
| |
| {| class="wikitable sortable"
| |
| |-
| |
| || <tt>'''[:cntrl:]'''</tt> — Steuerzeichen. Im ASCII sind das die Zeichen 00 bis 1F und 7F (DEL).
| |
|
| |
| <tt>'''[:print:]'''</tt> — Druckbare Zeichen: [:alnum:], [:punct:] und Leerzeichen
| |
|
| |
| <tt>'''[:blank:]'''</tt> — [http://de.wikipedia.org/wiki/Leerzeichen Leerzeichen] oder [http://de.wikipedia.org/wiki/Tabulator Tabulator]
| |
|
| |
| <tt>'''[:space:]'''</tt> — [http://de.wikipedia.org/wiki/Leerraum Whitespace]: Horizontaler und vertikaler Tabulator, [http://de.wikipedia.org/wiki/Zeilenvorschub Zeilen]- und [http://de.wikipedia.org/w/index.php?title=Seitenvorschub&action=edit&redlink=1 Seitenvorschub], [http://de.wikipedia.org/wiki/Wagenrücklauf Wagenrücklauf] und Leerzeichen
| |
|
| |
| <tt>'''[:graph:]'''</tt> — Graphische Zeichen: [:alnum:] oder [:punct:]
| |
|
| |
| <tt>'''[:punct:]'''</tt> — Satzzeichen wie: ! " # $ % & ' ( ) * + , - . / : ; < = > ? @ [ \ ] ^ _ ` { | } ~
| |
|
| |
| <tt>'''[:alnum:]'''</tt> — [http://de.wikipedia.org/wiki/Alphanumerische_Zeichen Alphanumerische Zeichen]: [:alpha:] oder [:digit:]
| |
|
| |
|
| <tt>'''[:xdigit:]'''</tt> — [http://de.wikipedia.org/wiki/Hexadezimalsystem Hexadezimale] Ziffern: 0 bis 9, A bis F, a bis f.
| | Einige Programme, etwa der [https://de.wikipedia.org/wiki/Texteditor Texteditor] [https://de.wikipedia.org/wiki/Vim Vim], ermöglichen, zwischen verschiedenen Syntaxen zu wechseln. |
| | | * siehe [https://de.wikipedia.org/wiki/Portable_Operating_System_Interface POSIX.2] |
| <tt>'''[:digit:]'''</tt> — Die Ziffern 0 bis 9
| |
| | |
| <tt>'''[:alpha:]'''</tt> — Buchstaben: [:lower:] oder [:upper:]
| |
| | |
| <tt>'''[:lower:]'''</tt> — Kleinbuchstaben: nicht notwendigerweise nur von a bis z
| |
| | |
| <tt>'''[:upper:]'''</tt> — Großbuchstaben: nicht notwendigerweise nur von A bis Z
| |
| |-
| |
| || '''Anmerkung'''
| |
| | |
| Was Buchstaben sind, ist im Allgemeinen locale-abhängig, also abhängig von der eingestellten Region und Sprache.
| |
| | |
| |-
| |
| |}
| |
| | |
| {| class="wikitable"
| |
| |+ Beispiele für Zeichenklassen, [[Hierarchie#Hierarchien in Objektsystemen|hierarchisch]] sortiert
| |
| |
| |
| * <code>'''[:cntrl:]'''</code> – Steuerzeichen. Im ASCII sind das die Zeichen <code>00</code> bis <code>1F</code> und <code>7F</code> (DEL).
| |
| * <code>'''[:print:]'''</code> – Druckbare Zeichen: <code>[:alnum:]</code>, <code>[:punct:]</code> und Leerzeichen
| |
| ** <code>'''[:space:]'''</code> – [[Leerraum|Whitespace]]: Horizontales und vertikales Tabulatorzeichen, [[Zeilenvorschub|Zeilen-]] und [[Seitenvorschub]], [[Wagenrücklauf]] und Leerzeichen{{FN|ZK1}}
| |
| *** <code>'''[:blank:]'''</code> – [[Leerzeichen]] oder [[Tabulatorzeichen]]
| |
| ** <code>'''[:graph:]'''</code> – Graphische Zeichen: <code>[:alnum:]</code> oder <code>[:punct:]</code>
| |
| *** <code>'''[:punct:]'''</code> – Satzzeichen, unter anderem [[Interpunktionszeichen]], Anführungszeichen oder Unterstriche.
| |
| *** <code>'''[:alnum:]'''</code> – [[Alphanumerische Zeichen]]: <code>[:alpha:]</code> oder <code>[:digit:]</code>
| |
| **** <code>'''[:xdigit:]'''</code> – [[Hexadezimalsystem|Hexadezimale]] Ziffern: <code>0</code> bis <code>9</code>, <code>A</code> bis <code>F</code>, <code>a</code> bis <code>f</code>.
| |
| ***** <code>'''[:digit:]'''</code> – Die Ziffern <code>0</code> bis <code>9</code>
| |
| **** <code>'''[:alpha:]'''</code> – Buchstaben: <code>[:lower:]</code> oder <code>[:upper:]</code>
| |
| ***** <code>'''[:lower:]'''</code> – Kleinbuchstaben{{FN|ZK2}}: nicht notwendigerweise nur von <code>a</code> bis <code>z</code>
| |
| ***** <code>'''[:upper:]'''</code> – Großbuchstaben{{FN|ZK2}}: nicht notwendigerweise nur von <code>A</code> bis <code>Z</code>
| |
| |-
| |
| |style="font-size:smaller"| '''Anmerkungen:'''
| |
| {{FNZ|ZK1|Das auch als „[[geschütztes Leerzeichen]]“ bekannte Zeichen mit der Unicode-Nummer 160 (hex: A0) (entspricht dem [[Entitäten in Auszeichnungssprachen|HTML-Entity]] &nbsp;) wird von der Klasse [:space:] möglicherweise nicht gefunden und muss separat anhand des [[Codepoint|Kodierpunktes]] identifiziert werden.}}
| |
| {{FNZ|ZK2|Was Buchstaben sind, ist in üblichen Betriebssystemen ''locale''-abhängig, also abhängig von der eingestellten Region und Sprache.<ref>[http://www.opengroup.org/onlinepubs/009695399/basedefs/xbd_chap09.html#tag_09_03_05 RE Bracket Expression], IEEE Std 1003.1, The Open Group Base Specifications, 2004</ref>}}
| |
| |}
| |
| | |
| '''Beispiel'''
| |
| | |
| Die Buchstaben "y" und "i" sollen durch "xx" ersetzt werden.
| |
| echo -e "Mayer\nMaier\nMeyer\nMeier" | sed 's/[yi]/xx/'
| |
| | |
| Beachten Sie, dass beim Suchen und Ersetzen immer alle Zeilen komplett ausgegeben werden, unabhängig davon ob Ersetzungen durchgeführt wurden oder nicht. Daher lassen sich mehrere Suchen und Ersetzen Anweisungen gut aneinanderreihen.
| |
| "i" und "y" sollen durch "ii" ersetzt werden, sodann "a" und "e" durch "oo"
| |
| | |
| '''$ echo -e "Mayer\nMaier\nMeyer\nMeier" | sed -e 's/[iy]/ii/g' -e 's/[ae]/oo/g''''
| |
| Mooiioor
| |
| | |
| === Vordefinierte Zeichenklassen ===
| |
| Es gibt vordefinierte Zeichenklassen, die allerdings nicht von allen Implementierungen unterstützt werden, da sie lediglich Kurzformen sind und auch durch eine ''Zeichenauswahl'' beschrieben werden können.
| |
| | |
| Wichtige Zeichenklassen sind:
| |
| | |
| {| class="wikitable sortable"
| |
| |-
| |
| | | <tt>'''\d'''</tt>
| |
| | | '''d'''igit
| |
| | | eine Ziffer [0-9]
| |
| |-
| |
| | | <tt>'''\D'''</tt>
| |
| | | no '''d'''igit
| |
| | | ein Zeichen, das keine Ziffer ist, also [^\d]
| |
| |-
| |
| | | <tt>'''\w'''</tt>
| |
| | | '''w'''ordcharacter
| |
| | | ein Buchstabe, eine Ziffer oder der Unterstrich, also [a-zA-Z_0-9] (und evtl. weitere Buchstaben, z. B. Umlaute)
| |
| |-
| |
| | | <tt>'''\W'''</tt>
| |
| | | no '''w'''ordcharacter
| |
| | | ein Zeichen, das weder Buchstabe noch Zahl noch Unterstrich ist, also [^\w]
| |
| |-
| |
| | | <tt>'''\s'''</tt>
| |
| | | white'''s'''pace
| |
| | | meistens das Leerzeichen und die Klasse der [http://de.wikipedia.org/wiki/Steuerzeichen Steuerzeichen] \f, \n, \r, \t und \v
| |
| |-
| |
| | | <tt>'''\S'''</tt>
| |
| | | no white'''s'''pace
| |
| | | ein Zeichen, das kein Whitespace ist [^\s]
| |
| |-
| |
| | | <tt>'''\b'''</tt>
| |
| | |
| |
| | | leere Zeichenkette am Wortanfang oder am Wortende
| |
| |-
| |
| | | <tt>'''\B'''</tt>
| |
| | |
| |
| | | leere Zeichenkette, die ''nicht'' den Anfang oder das Ende eines Wortes bildet
| |
| |-
| |
| | | <tt>'''\<'''</tt>
| |
| | |
| |
| | | leere Zeichenkette am Wortanfang
| |
| |-
| |
| | | <tt>'''\>'''</tt>
| |
| | |
| |
| | | leere Zeichenkette am Wortende
| |
| |-
| |
| | | <tt>'''\n'''</tt>
| |
| | | newline
| |
| | | ein [http://de.wikipedia.org/wiki/Zeilenumbruch Zeilenumbruch] im Unix-Format
| |
| |-
| |
| | | <tt>'''\r'''</tt>
| |
| | | return
| |
| | | ein [http://de.wikipedia.org/wiki/Zeilenumbruch Zeilenumbruch] im Mac-Format
| |
| |-
| |
| | | <tt>'''\r\n'''</tt>
| |
| | |
| |
| | | ein [http://de.wikipedia.org/wiki/Zeilenumbruch Zeilenumbruch] im Windows-Format
| |
| | |
| |-
| |
| |}
| |
| === Weitere Zeichen ===
| |
| {| class="wikitable sortable"
| |
| |-
| |
| | | <tt>'''^'''</tt>
| |
| | | steht für den Zeilenanfang (nicht zu verwechseln mit „<tt>^</tt>“ bei der Zeichenauswahl mittels „<tt>[</tt>“ und „<tt>]</tt>“).
| |
| |-
| |
| | | <tt>'''$'''</tt>
| |
| | | kann je nach Kontext für das Zeilen- oder Stringende stehen, wobei bei manchen Implementierungen noch ein „\n“ folgen darf. Das tatsächliche Ende wird von <tt>\z</tt> gematcht.
| |
| |-
| |
| | | <tt>'''\'''</tt>
| |
| | | hebt gegebenenfalls die Metabedeutung des nächsten Zeichens auf. Beispielsweise lässt der Ausdruck „<tt>(A\*)+</tt>“ die Zeichenketten „A*“, „A*A*“, usw. zu. Auf diese Weise lässt sich auch ein Punkt „.“ mit „<tt>\.</tt>“ suchen, während nach „<tt>\</tt>“ mit „<tt>\\</tt>“ gesucht wird.
| |
| | |
| |-
| |
| |}
| |
| | |
| === Weitere Beispiele ===
| |
| [egh]
| |
| * eines der Zeichen „e“, „g“ oder „h“
| |
| | |
| [0-6]
| |
| * eine Ziffer von „0“ bis „6“ (Bindestriche sind Indikator für einen Bereich)
| |
| | |
| [A-Za-z0-9]
| |
| * ein beliebiger lateinischer Buchstabe oder eine beliebige Ziffer
| |
| | |
| [^a]
| |
| * ein beliebiges Zeichen außer „a“ („^“ am Anfang einer Zeichenklasse negiert selbige)
| |
| | |
| [-A-Z], [A-Z-] bzw. [A-Z\-a-z], allerdings nicht gemäß POSIX)
| |
| * Auswahl enthält auch den Bindestrich „-“, wenn er das erste oder das letzte Zeichen in der Aufzählung einer Zeichenklasse ist bei PCRE, wenn seine Metafunktion innerhalb einer Auswahl durch ein vorangestelltes „\“-Zeichen aufgehoben wird | |
| | |
| \<[Aa]+n+[ae]+\>
| |
| * findet alle Wörter, die ungefähr wie Anne oder Anna aussehen, nur mit beliebig vielen "A", "n" und "e" (sofern sie jeweils mindestens ein mal vorkommen). ''AAnnneeea'' würde zum Beispiel auch passen.
| |
| | |
| [Ss]up(er|ra)
| |
| * findet alle Wörter, die ein Super, super, Supra oder supra enthalten.
| |
| | |
| ^[[:digit:]]
| |
| * findet alle Zeilen, die mit einer Ziffer beginnen.
| |
| | |
| == Quantoren ==
| |
| ; Wiederholungsfaktoren (Quantoren)
| |
| [http://de.wikipedia.org/wiki/Quantor Quantoren] (engl. ''quantifier'', auch ''Quantifizierer'') erlauben es, den vorherigen Ausdruck in verschiedener Vielfachheit in der Zeichenkette zuzulassen.
| |
| | |
| {| class="wikitable sortable"
| |
| |-
| |
| | | <tt>'''?'''</tt>
| |
| | | Der voranstehende Ausdruck ist optional, er kann einmal vorkommen, muss es aber nicht, d. h. der Ausdruck kommt null- oder einmal vor. (Dies entspricht <tt>'''{''0'',''1''}'''</tt>)
| |
| |-
| |
| | | <tt>'''+'''</tt>
| |
| | | Der voranstehende Ausdruck muss mindestens einmal vorkommen, darf aber auch mehrfach vorkommen. (Dies entspricht <tt>'''{''1'',}'''</tt>)
| |
| |-
| |
| | | <tt>'''*'''</tt>
| |
| | | Der voranstehende Ausdruck darf beliebig oft (auch keinmal) vorkommen. (Dies entspricht <tt>'''{''0'',}'''</tt>)
| |
| |-
| |
| | >''n''</span>}'''</tt>
| |
| | | Der voranstehende Ausdruck muss exakt ''n''-mal vorkommen.
| |
| |-
| |
| | >''min''</span>,}'''</tt>
| |
| | | Der voranstehende Ausdruck muss mindestens ''min''-mal vorkommen.
| |
| |-
| |
| | >''max''</span>}'''</tt>
| |
| | | Der voranstehende Ausdruck muss mindestens ''min''-mal und darf maximal ''max''-mal vorkommen.
| |
| |-
| |
| | >''max''</span>}'''</tt>
| |
| | | Der voranstehende Ausdruck darf maximal ''max''-mal vorkommen.
| |
| | |
| |-
| |
| |}
| |
| ==== Funktionsweise ====
| |
| Die Quantoren beziehen sich dabei auf den '''vorhergehenden''' regulären Ausdruck, jedoch nicht zwangsläufig auf die durch ihn gefundene Übereinstimmung. * So wird zwar zum Beispiel durch <tt>a+</tt> ein „a“ oder auch „aaaa“ vertreten,
| |
| * jedoch entspricht <tt>[0-9]+</tt> nicht nur sich wiederholenden ''gleichen'' Ziffern, sondern auch Folgen gemischter Ziffern, beispielsweise „072345“.
| |
| | |
| ==== Beispiele ====
| |
| „[ab]+“ * entspricht „a“, „b“, „aa“, „bbaab“ etc.
| |
| | |
| „[0-9]{2,5}“ * entspricht zwei, drei, vier oder fünf Ziffern in Folgez. B. „42“ oder „54072“, jedoch nicht den Zeichenfolgen „0“, „1.1“ oder „a1a1“.
| |
| | |
| === Gieriges Verhalten von Quantoren ===
| |
| Quantoren sind standardmäßig „gierig“ (engl. ''greedy'') implementiert.
| |
| | |
| Soll eine Zeichenkette ''nur'' aus dem gesuchten Muster bestehen (und es nicht nur enthalten), so muss in den meisten Implementierungen explizit definiert werden, dass das Muster vom Anfang (<tt>\A</tt> oder <tt>^</tt>) bis zum Ende der Zeichenkette (<tt>\Z</tt>, <tt>\z</tt> oder <tt>$</tt>) reichen soll.
| |
| * Andernfalls erkennt zum Beispiel <tt>[0-9]{2,5}</tt> auch bei der Zeichenkette „1234507“ die Teilzeichenkette „12345“.
| |
| * Aus dem gleichen Grund würde beispielsweise <tt>a*</tt> immer einen Treffer ergeben, da jede Zeichenfolge – selbst das [http://de.wikipedia.org/wiki/Leeres_Wort leere Wort] „“ – mindestens 0-mal das Zeichen „a“ enthält.
| |
| * Das heißt, ein regulärer Ausdruck wird zur größtmöglichen Übereinstimmung aufgelöst.
| |
| | |
| ==== Genügsame Quantoren ====
| |
| Da dieses Verhalten jedoch nicht immer so gewollt ist, lassen sich bei vielen neueren Implementierungen Quantoren als „genügsam“ oder „zurückhaltend“ (engl. ''non-greedy'', ''reluctant'') deklarieren.
| |
| * Zum Beispiel wird in Perl hierfür dem Quantor ein Fragezeichen <tt>'''?'''</tt> nachgestellt.
| |
| * Die Implementierung von genügsamen Quantoren ist vergleichsweise aufwändig (erfordert [http://de.wikipedia.org/wiki/Backtracking Backtracking]), weshalb nicht alle Implementierungen diese unterstützen.
| |
| | |
| ''' Beispiel (Perl-Syntax) '''
| |
| * Angenommen, es wird der reguläre Ausdruck <tt>'''A.*B'''</tt> auf die Zeichenfolge „ABCDEB“ angewandt, so würde er sie komplett als „ABCDEB“ finden.
| |
| * Mit Hilfe des „non-greedy“-Quantors „<tt>*?</tt>“ matcht der nun modifizierte Ausdruck – also <tt>'''A.*?B'''</tt> – nur die Zeichenkette „AB“, bricht also die Suche nach dem ersten gefundenen „B“ ab.
| |
| * Ein gleichwertiger regulärer Ausdruck für Interpreter, die diesen Quantor nicht unterstützen, wäre <tt>A[^B]*B</tt>.
| |
| | |
| Die Zeichen <tt>^</tt> und <tt>$</tt> matchen im ''multiline-''Modus (wenn der m-Modifier gesetzt wird) auch Zeilenanfänge und -enden.
| |
| | |
| ==== Possessives Verhalten ====
| |
| Eine Variante des oben beschriebenen gierigen Verhaltens ist das ''possessive Matching''.
| |
| * Da hierbei jedoch das Backtracking verhindert wird, werden einmal übereinstimmende Zeichen nicht wieder freigegeben.
| |
| * Aufgrund dessen finden sich in der Literatur auch die synonymen Bezeichnungen ''atomic grouping'', ''independent subexpression'' oder ''non-backtracking subpattern''.
| |
| * Die Syntax für diese Konstrukte variiert bei den verschiedenen Programmiersprachen.
| |
| | |
| Ursprünglich wurden solche Teilausdrücke ''(Subpattern)'' in Perl durch <tt>'''(?>'''<span >''Ausdruck''</span>''')'''</tt> formuliert.
| |
| | |
| Daneben existieren seit Perl 5.10 die äquivalenten, in Java bereits üblichen possessiven Quantoren <tt>++</tt>, <tt>*+</tt>, <tt>?+</tt> und <tt>{''min'',''max''}+</tt>.
| |
| | |
| Angenommen es wird auf die Zeichenfolge „ABCDEB“ der reguläre Ausdruck <tt>'''A.*+B'''</tt> angewandt, so würde er keine Übereinstimmung finden.
| |
| * Bei der Abarbeitung des regulären Ausdrucks würde der Teil <tt>'''.*+'''</tt> bis zum Ende der Zeichenkette übereinstimmen.
| |
| * Um jedoch den gesamten Ausdruck zu matchen, müsste ein Zeichen (hier also das „B“) wieder freigegeben werden.
| |
| * Der possessive Quantor verbietet dies aufgrund des unterdrückten Backtrackings, weshalb keine erfolgreiche Übereinstimmung gefunden werden kann.
| |
| | |
| == Gruppierungen und Referenzen ==
| |
| === Gruppierungen ===
| |
| Ausdrücke lassen sich mit runden Klammern <tt>'''('''</tt> und <tt>''')'''</tt> ''zusammenfassen'':
| |
| '''„<tt>(abc)+</tt>“ erlaubt ein „abc“, „abcabc“, „abcabcabc“ etc.'''
| |
| | |
| === Rückreferenzen ===
| |
| Einige Implementierungen speichern die gefundenen Übereinstimmungen von Gruppierungen ab und ermöglichen deren Wiederverwendung im regulären Ausdruck oder bei der Textersetzung.
| |
| | |
| Diese werden ''Rückwärtsreferenzen'' (engl. ''back references'') genannt.
| |
| | |
| Häufig wird dazu die Schreibweise <tt>'''\''n'''''</tt> oder <tt>'''$''n'''''</tt> verwendet, wobei ''n'' die Übereinstimmung der ''n''-ten Gruppierung entspricht.
| |
| | |
| Eine Sonderstellung stellt dabei ''n''=0 dar, das meist für die Übereinstimmung des gesamten regulären Ausdruck steht.
| |
| | |
| '''Beispiel '''* Ein Suchen und Ersetzen mit <tt>'''AA(.*?)BB'''</tt> als regulären Suchausdruck und <tt>'''\1'''</tt> als Ersetzung ersetzt alle Zeichenketten, die von '''AA''' und '''BB''' eingeschlossen sind, durch den zwischen '''AA''' und '''BB''' enthaltenen Text.
| |
| * D.h. '''AA''' und '''BB''' und der Text dazwischen werden ersetzt durch den Text, der ursprünglich zwischen '''AA''' und '''BB''' stand, also fehlen '''AA''' und '''BB''' im Ergebnis.
| |
| | |
| ==== Geklammerte Ausdrücke referenzieren ====
| |
| Eine Teilzeichenkette, die auf einen geklammerten Teilausdruck gepasst hat, lässt sich durch "<tt>\n</tt>" referenzieren. Dabei steht "<tt>n</tt>" für eine einzelne Ziffer, die den n-ten geklammerten Teilausdruck auswählt.
| |
| | |
| ==== Bezugnahme auf die Ergebnismenge ====
| |
| Bei den bisherigen Anweisungen wurde der gesamte Zeileninhalt ausgegeben. Es gibt jedoch die Möglichkeit, direkt auf die effektive Ergebnismenge oder einen Teil daraus Bezug zu nehmen.
| |
| | |
| Die hierfür erforderliche s-Anweisung führt kein Suchen und Ersetzen durch, sondern durchsucht den Datenstrom anhand der RE und bildet aufgrund des Ausdrucks in () nochmals eine Teilmenge, die ausgegeben werden kann.
| |
| | |
| ''' BeispielTESTEN!! '''
| |
| Aus der folgenden Zeile soll nur das Element "blau" ausgegeben werden.
| |
| | |
| '''echo "-rot-blau-gelb" | sed 's/.*\(blau\).*/\1/g''''
| |
| Die gesamte RE lautet: /.*blau.*/
| |
| | |
| Es soll jedoch nur der Teil der Ergebnismenge ausgegeben werden, der "blau" enthält. Folglich ist "blau" in runde Klammern zu setzen.
| |
| | |
| /.*\(blau\).*/
| |
| '''echo "-rot-blau-gelb" | sed 's/.*\(blau\).*/\1/g''''
| |
| | |
| * s"Suchen und Ersetzen", wobei kein "Ersetzen" durchgeführt wird
| |
| * .*Beginn der RE: beliebiges Zeichen 0-n mal
| |
| * \(blau\)"blau" soll, falls es sich aus der Ergebnismenge extrahieren läßt, ausgegeben werden
| |
| * .*Ende der RE: beliebiges Zeichen 0-n mal
| |
| * \1die Ergebnismenge der 1. geklammerten RE wird ausgegeben
| |
| * bei mehreren REs, wird jeder RE eine Zahl zugeordnet: \1 = 1.RE \2 = 2.RE usw.
| |
| | |
| ==== Praktische Anwendung von Rückreferenzen ====
| |
| Umschreiben einer URL
| |
| | |
| Image
| |
| | |
| === Gruppierungen ohne Rückreferenz ===
| |
| ''' engl. non-capturing '''
| |
| Die Syntax lautet in den meisten Implementierungen <tt>'''(?:</tt>…<tt>)'''</tt>.
| |
| | |
| Regular expressionp-Dokumentationen weisen darauf hin, dass die Erzeugung von Rückwärtsreferenzen stets vermieden werden soll, wenn kein späterer Zugriff auf sie erfolge.
| |
| | |
| Denn die Erzeugung der Referenzen kostet Ausführungszeit und belegt Platz zur Speicherung der gefundenen Übereinstimmung.
| |
| | |
| Zudem lassen die Implementationen nur eine begrenzte Anzahl an Rückwärtsreferenzen zu (häufig nur maximal 9).
| |
| | |
| ==== Beispiel ====
| |
| \d+(?:-\d+)*
| |
| * Findet Folgen von durch Bindestriche getrennte Zahlenfolgen, ohne dabei die letzte durch einen Bindestrich getrennte Zahlenfolge als Rückreferenz zu erhalten.
| |
| | |
| == Suchen & Ersetzen ==
| |
| Beim reinen s-Befehl werden immer alle Zeilen ausgegeben, unabhängig davon, ob Ersetzungen durchgeführt wurden oder nicht. Dies lässt sich ändern, indem man ihn mit dem p-Befehl kombiniert. Die Abläufe sind wie folgt:
| |
| | |
| '''p-Befehl'''
| |
| | |
| '''echo "dies wird nicht ausgegeben" | sed -n '/.*diiss.*/p''''
| |
| # gibt es eine Ergebnismenge, die zur RE "passt"?
| |
| # wenn ja, gibt die ganze Zeile aus.
| |
| | |
| '''s-Befehl ohne p-Befehl'''
| |
| | |
| '''echo "dies wird ausgegeben" | sed 's/wird/wird immer/''''
| |
| # gibt es eine Ergebnismenge, die zur RE "passt"?
| |
| # wenn ja, welches ist die effektive Ergebnismenge?
| |
| # ersetze diese durch den Replace-String
| |
| # gib die ganze Zeile aus (egal, ob geändert oder nicht)
| |
| | |
| '''s-Befehl mit p-Befehl'''
| |
| | |
| '''echo -e "xxx\nnächste Zeile" | sed -n 's/xxx/Ausgabe/p''''
| |
| # Die Kombination von s- und p-Befehl bewirkt, dass
| |
| # nur die geänderten Zeilen ausgegeben werden.
| |
| # Die Option -n darf nicht vergessen werden.
| |
| | |
| Im Allgemeinen ist es sinnvoll, den g-Spezifizierer ("global") zu verwenden, der direkt vor oder hinter dem p-Befehl steht:
| |
| | |
| '''echo -e "xxx--xxx\nnächste Zeile" | sed -n 's/xxx/Ausgabe/pg''''
| |
| # alle "xxx" werden ersetzt
| |
| | |
| === Ersatzmuster ===
| |
| Bei einigen Tools (ex, sed und ed) werden zwei Muster angegeben: Ein Suchmuster (links) und ein Ersatzmuster (rechts). Nur die folgenden Zeichen sind in einem Ersatzmuster gültig:
| |
| | |
| {| class="wikitable sortable"
| |
| |-
| |
| | |
| |
| | | '''ex'''
| |
| | | '''sed'''
| |
| | | '''Ed'''
| |
| | |
| |
| |-
| |
| | | <tt>'''\'''</tt>
| |
| | | X
| |
| | | X
| |
| | | X
| |
| | | Sonderbedeutung des nächsten Zeichens aufhebe
| |
| |-
| |
| | | <tt>'''\n'''</tt>
| |
| | | X
| |
| | | X
| |
| | | X
| |
| | | Verwendet das in \( \) gespeicherte Muster erneut
| |
| |-
| |
| | | <tt>'''&'''</tt>
| |
| | | X
| |
| | | X
| |
| | |
| |
| | | Verwendet das vorherige Suchmuster erneut
| |
| |-
| |
| | | <tt>'''~'''</tt>
| |
| | | X
| |
| | |
| |
| | |
| |
| | | Verwendet das vorherige Ersatzmuster erneut
| |
| |-
| |
| | | <tt>'''\u'''</tt>
| |
| | | X
| |
| | |
| |
| | |
| |
| | | Ändert das erste Zeichen des Ersatzmusters auf Großschreibung
| |
| |-
| |
| | | <tt>'''\U'''</tt>
| |
| | | X
| |
| | |
| |
| | |
| |
| | | Ändert alle Zeichen des Ersatzmusters auf Großschreibung
| |
| |-
| |
| | | <tt>'''\l'''</tt>
| |
| | | X
| |
| | |
| |
| | |
| |
| | | Ändert das erste Zeichen des Ersatzmusters auf Kleinschreibung
| |
| |-
| |
| | | <tt>'''\L'''</tt>
| |
| | | X
| |
| | |
| |
| | |
| |
| | | Ändert alle Zeichen des Ersatzmusters auf Kleinschreibung
| |
| |-
| |
| | | <tt>'''\E'''</tt>
| |
| | | X
| |
| | |
| |
| | |
| |
| | | Hebt das vorangegangene \U oder \L auf
| |
| |-
| |
| | | <tt>'''\e'''</tt>
| |
| | | X
| |
| | |
| |
| | |
| |
| | | Hebt das vorangegangene \u oder \l auf
| |
| | |
| |-
| |
| |}
| |
| == Verknüpfungen ==
| |
| ; Verknüpfung regulärer Ausdrücken
| |
| Mehrere reguläre Ausdrücke können durch Aneinanderfügen zusammengeführt werden. Ein solcher Ausdruck findet dann alle Zeichenketten, die aneinander gehängt zu dem jeweiligen Ausdruck passen.
| |
| | |
| ''' Beispiel '''
| |
| "[Aa]lpha"
| |
| | |
| Es besteht aus den einzelnen Bausteinen
| |
| * "<tt>[Aa]</tt>"
| |
| * "<tt>l</tt>"
| |
| * "<tt>p</tt>"
| |
| * "<tt>h</tt>"
| |
| * "<tt>a</tt>"
| |
| | |
| === Verknüpfung durch "oder" ===
| |
| Durch den Operator "<tt>|</tt>" lassen sich reguläre Ausdrücke mit einem "oder" verknüpfen.
| |
| | |
| Der daraus entstehende Ausdruck findet Zeichenketten, die entweder auf den einen oder den anderen Ausdruck passen.
| |
| | |
| ''' Beispiel '''
| |
| | |
| "[Aa]lpha|[Bb]ravo"
| |
| * findet alle Textstücke "Alpha", "alpha", "Bravo" und "bravo"
| |
| * <tt>grep -E</tt> oder <tt>egrep</tt>
| |
| | |
| echo "--rot--gelb--" | sed 's/\(gelb\|rot\)/x/g'
| |
| echo "--rot--gelb--" | sed 's/gelb\|rot/x/g'
| |
| | |
| * die runden Klammern und das oder-Zeichen "|" müssen escaped werden
| |
| * die runden Klammern können weggelassen werden
| |
| | |
| ==== Alternativen ====
| |
| Man kann alternative Ausdrücke mit dem „<tt>'''|'''</tt>“-Symbol zulassen.
| |
| | |
| „ABC|abc“ bedeutet „ABC“ oder „abc“, aber z. B. nicht „Abc“.
| |
| | |
| ==== Beispiele ====
| |
| a|b* * "a", "b", "bb", "bbb", …
| |
| | |
| (a|b)*
| |
| * beliebig viele „a“ und „b“, einschließlich einer leeren Zeichenkette
| |
| * „“, „a“, „b“, „aa“, „ab“, „ba“, „bb“, „aaa“, …
| |
| | |
| ab*(c|ε)
| |
| * ε = leer
| |
| * Zeichenketten beginnend mit „a“
| |
| * kein- oder mehrmals „b“
| |
| * optional a "c": {"a", "ac", "ab", "abc", "abb", "abbc", ...}
| |
| | |
| (0|(1(01*0)*1))*
| |
| * set of binary numbers that are multiples of 3: { ε, "0", "00", "11", "000", "011", "110", "0000", "0011", "0110", "1001", "1100", "1111", "00000", ... }
| |
| | |
| === Rangfolge ===
| |
| ; Rangfolge der Regeln
| |
| Ähnlich wie bei mathematischen Ausdrücken (Punkt- vor Strichrechnung) unterliegen die Verknüpfungsoperatoren einer Rangfolge:
| |
| * Wiederholungen kommen vor Verkettungen
| |
| * Verkettungen vor "oder"
| |
| * Diese Regeln lassen sich durch Klammern überschreiben
| |
|
| |
|
| <noinclude> | | <noinclude> |
Zeile 690: |
Zeile 74: |
| == Anhang == | | == Anhang == |
| === Siehe auch === | | === Siehe auch === |
| {{Special:PrefixIndex/{{BASEPAGENAME}}}} | | {{Special:PrefixIndex/{{BASEPAGENAME}}/}} |
| ==== Links ====
| | |
| ===== Weblinks =====
| | === Links === |
| | ==== Weblinks ==== |
| | |
| | [[Kategorie:Regular Expression]] |
|
| |
|
| [[Kategorie:RegEx]]
| |
| </noinclude> | | </noinclude> |