Regular Expression

Regular Expression (Regulärer Ausdruck) - Sprache zur Beschreibung von Zeichenketten

Beschreibung

Ein regulärer Ausdruck (regular expression,RegExp oder Regular expression) ist eine Zeichenkette, die der Beschreibung von Zeichenketten mithilfe bestimmter syntaktischer Regeln dient.

Reguläre Ausdrücke finden vorwiegend in der Softwareentwicklung Verwendung; für fast alle Programmiersprachen existieren Implementierungen.
Eine Regular Expression (im folgenden mit RE abgekürzt) ist so etwas wie ein Suchmuster, das dazu dient, komplizierte Suchanfragen mit wenigen Zeichen zu formulieren.
Die Syntax ist standardisiert und wird von verschiedenen Programmen verstanden, z. B. sed, egrep, expr, perl. Das interpretierende Programm versucht, aus einer größeren Zeichenmenge (i.A. einer Zeile) eine Teilmenge zu finden, die zu der RE "passt".
Oft gibt es mehrere Teilmengen, die passen. In diesem Fall wird die größte Teilmenge als Ergebnis verwendet.
Pattern Matching
Reguläre Ausdrücke können als Filterkriterien in der Textsuche verwendet werden, indem der Text mit dem Muster des regulären Ausdrucks abgeglichen wird.
So ist es beispielsweise möglich, alle Wörter aus einer Wortliste herauszusuchen, die mit S beginnen und auf D enden – ohne die dazwischenliegenden Buchstaben und wahlweise deren Anzahl explizit vorgeben zu müssen.

Zeichenketten finden

Eine häufige Anwendung regulärer Ausdrücke besteht darin, spezielle Zeichenketten in einer Menge von Zeichenketten zu finden.
Die im Folgenden angegebene Beschreibung ist eine (oft benutzte) Konvention, um Konzepte wie Zeichenklasse, Quantifizierung, Verknüpfung und Zusammenfassen konkret zu realisieren.
Metazeichen
Hierbei wird ein regulärer Ausdruck aus den Zeichen des zugrunde liegenden Alphabets in Kombination mit den Metazeichen [ ] ( ) { } | ? + - * ^ $ \ . (teilweise kontextabhängig) gebildet.
Die Meta-Eigenschaft eines Zeichens kann durch ein vorangestelltes Backslash-Zeichen aufgehoben werden.
Alle übrigen Zeichen des Alphabets stehen für sich selbst.
Textersetzungen
Ein weiteres Beispiel für den Einsatz als Filter ist die Möglichkeit, komplizierte Textersetzungen durchzuführen.
Neben den aufgeführten analytischen Aufgaben können reguläre Ausdrücke auch verwendet werden, um Mengen von Wörtern zu erzeugen, ohne jedes Wort einzeln angeben zu müssen.
So lässt sich beispielsweise ein Ausdruck angeben, der bei einer gegebenen (Maximal-)Zeichenanzahl alle denkbaren Zeichenkombinationen („Wörter“) erzeugt, die mit S beginnen und mit D enden. Auf diese Weise können etwa systematisch E-Mail-Adressen (vor allem der Teil vor dem @) für den Spam-Versand generiert werden.

Erweiterungen

Die meisten heutigen Implementierungen unterstützen Erweiterungen wie zum Beispiel Rückwärtsreferenzen (backreferences). Hierbei handelt es sich nicht mehr um reguläre Ausdrücke im Sinne der theoretischen Informatik, denn die so erweiterten Ausdrücke beschreiben nicht mehr notwendigerweise Sprachen vom Typ 3 der Chomsky-Hierarchie.
Die folgenden Syntaxbeschreibungen beziehen sich auf die Syntax der gängigen Implementierungen mit Erweiterungen, sie entsprechen also nur teilweise der obigen Definition aus der theoretischen Informatik.

Anwendung regulärer Ausdrücke

Ken Thompson nutzte diese Notation in den 1960ern, um qed (eine Vorgängerversion des Unix-Editors ed) zu bauen und später das Werkzeug grep zu schreiben.

Seither implementieren viele Programme und Bibliotheken von Programmiersprachen Funktionen, um reguläre Ausdrücke zum Suchen und Ersetzen von Zeichenketten zu nutzen.

Beispiele für Regular expressionp-Implementierungen

Programme	Bibliotheken der Programmiersprachen
* sed grep emacs vi	* Perl C Java Python	* PHP Ruby .NET-Framework

Auch die Textverarbeitung und die Tabellenkalkulation des Office-Paketes OpenOffice.org bieten die Möglichkeit, mit regulären Ausdrücken im Text zu suchen.

Implementierungen

Basic Regular Expressions (BRE)

„grundlegende“ reguläre Ausdrücke

Extended Regular Expressions (ERE)

„erweiterte“ reguläre Ausdrücke

Perl Compatible Regular Expressions] (PCRE)

In Programmiersprachen haben sich überwiegend die Perl Compatible Regular Expressions (PCRE) durchgesetzt, die sich an der Umsetzung in Perl orientieren.

Einige Programme, etwa der Texteditor Vim, ermöglichen, zwischen verschiedenen Syntaxen zu wechseln.

siehe POSIX.2

Suchmuster

Regular Expression/Suchmuster

Listen

Regular Expression/Listen

Zeichenklassen

Regular Expression/Zeichenklassen

Quantoren

Regular Expression/Quantoren

Gruppierungen und Referenzen

Regular Expression/Gruppierungen und Referenzen

Suchen & Ersetzen

Regular Expression/Suchen & Ersetzen

Verknüpfungen

Verknüpfung regulärer Ausdrücken

Mehrere reguläre Ausdrücke können durch Aneinanderfügen zusammengeführt werden. Ein solcher Ausdruck findet dann alle Zeichenketten, die aneinander gehängt zu dem jeweiligen Ausdruck passen.

Beispiel

"[Aa]lpha"

Es besteht aus den einzelnen Bausteinen

"[Aa]"
"l"
"p"
"h"
"a"

Verknüpfung durch "oder"

Durch den Operator "|" lassen sich reguläre Ausdrücke mit einem "oder" verknüpfen.

Der daraus entstehende Ausdruck findet Zeichenketten, die entweder auf den einen oder den anderen Ausdruck passen.

Beispiel

"[Aa]lpha|[Bb]ravo"

findet alle Textstücke "Alpha", "alpha", "Bravo" und "bravo"
grep -E oder egrep

echo "--rot--gelb--" | sed 's/\(gelb\|rot\)/x/g'
echo "--rot--gelb--" | sed 's/gelb\|rot/x/g'

die runden Klammern und das oder-Zeichen "|" müssen escaped werden
die runden Klammern können weggelassen werden

Alternativen

Man kann alternative Ausdrücke mit dem „|“-Symbol zulassen.

„ABC|abc“ bedeutet „ABC“ oder „abc“, aber z. B. nicht „Abc“.

Beispiele

a|b* * "a", "b", "bb", "bbb", …

(a|b)*

beliebig viele „a“ und „b“, einschließlich einer leeren Zeichenkette
„“, „a“, „b“, „aa“, „ab“, „ba“, „bb“, „aaa“, …

ab*(c|ε)

ε = leer
Zeichenketten beginnend mit „a“
kein- oder mehrmals „b“
optional a "c": {"a", "ac", "ab", "abc", "abb", "abbc", ...}

(0|(1(01*0)*1))*

set of binary numbers that are multiples of 3: { ε, "0", "00", "11", "000", "011", "110", "0000", "0011", "0110", "1001", "1100", "1111", "00000", ... }

Rangfolge

Rangfolge der Regeln

Ähnlich wie bei mathematischen Ausdrücken (Punkt- vor Strichrechnung) unterliegen die Verknüpfungsoperatoren einer Rangfolge:

Wiederholungen kommen vor Verkettungen
Verkettungen vor "oder"
Diese Regeln lassen sich durch Klammern überschreiben

Anhang

Siehe auch

Links

Weblinks