Erstellung von Korpora

Für ein Korpus müssen die Texte in einem einheitlichen Format vorliegen. Zunächst stellt sich also das Problem, Texte, die idealerweise bereits elektronisch vorliegen, aber völlig unterschiedliche Formate aufweisen, zu vereinheitlichen. Die Dokumentstruktur beispielsweise (Titel, Fettdruck, Abstracts etc.) ist je nach Textart unterschiedlich. Texte können mit Metadaten ergänzt sein, z.B. Angaben zur AutorIn, Datumsangaben, Seitenumbrüche etc., die ggf. extrahiert oder speziell markiert werden müssen.


Diese Aufbereitung der Rohdaten muss immer wieder neu angepasst werden und geschieht meistens halbautomatisch.

Normalerweise werden neuere Korpora in XML (eXtensible Markup Language) codiert. Dieses Format ist einfach zu lesen, absolut kompatibel mit allen Betriebssystemen und Programmen und es gibt eine Reihe von Werkzeugen zur Verarbeitung von XML, die frei erhältlich sind.

Tokenisierung

Liegen die Texte in einem einheitlichen Format vor, müssen sie segmentiert werden. D.h., sie werden in kleinere Einheiten zerlegt: In Sätze und schliesslich in Token (auch: "laufende Wörter").

«Bei einem so geringen Unterschied bei den Mandaten im Parlament kann die eine Seite der anderen Seite keine Ultimaten stellen oder irgend etwas diktieren», verkündete Schröder.

Betrachten wir uns obigen Satz als Ausschnitt aus einem Zeitungsartikel. Die einzelnen Token müssen nun erkannt werden. Üblicherweise wird das Token definiert als die kleinste Einheit, die durch Leerzeichen oder Interpunktion begrenzt wird. Aus dem obigen Beispielssatz ergibt sich nach der Tokenisierung folgende Liste:

«
Bei
einem
so
geringen
Unterschied
bei
den
Mandaten
im
Parlament
kann
die
eine
Seite
der
anderen
Seite
keine
Ultimaten
stellen
oder
irgend
etwas
diktieren
»
,
verkündete
Schröder
.

Problematisch sind Ausdrücke wie z.B. Telefonnummern (044) 634 25 18 oder Zahlen wie 2'300'765 , die durch das obige Verfahren in einzelne Token getrennt wurden, aber anschliessend wieder zu einzelnen Token zusammengeführt werden müssen.

Satzgrenzenerkennung

Nach der Tokenisierung erfolgt normalerweise eine weitere Zusammenfassung von Token zu ganzen Sätzen. Dabei ist vor allem schwierig, Punkte in ihrer Bedeutung zu disambiguieren, also zu entscheiden, ob es sich um eine Satzgrenze oder um einen Punkt mit anderer Bedeutung ("Der 3. Okt. ist ein Montag.") handelt.

Wie funktioniert Satzgrenzen-Disambiguierung?
Mehrere Verfahren werden angewendet, um zu entscheiden, ob es sich bei dem Satzzeichen um eine Satzgrenze handelt, oder nicht:
  1. Man führt eine Liste von bekannten Abkürzungen. Das Programm, das sie Satzgrenzenerkennung macht, stützt sich auf diese Liste, um zu disambiguieren.
  2. Wenn nach dem Punkt ein Grossbuchstabe folgt, kann davon ausgegangen sein, dass es sich mit grosser Wahrscheinlichkeit um eine Satzgrenze handelt.
  3. Wortformen, die im ganzen Text ausschliesslich mit einem Punkt vorkommen, sind höchstwahrscheinlich Abkürzungen.
  4. Mit einem statistischen Verfahren wird anhand eines korrekt tokenisierten Referenztextes die Wahrscheinlichkeit berechnet, dass es sich beim gefundenen Satzzeichen um eine Satzgrenze handelt.

Vgl. Carstensen (2001, 371f.)