Daten aufbereiten und verwalten

Auf der vorherigen Seite haben wir eine kurze Einführung in XML für korpuslinguistische Zwecke erhalten. Obwohl die Codierung der Textdaten in XML der Königsweg ist, empfiehlt sich manchmal auch die "simpel-und-trotzdem-brauchbar"-Lösung, bei der mit einfachen Textdateien gearbeitet wird.

Die "simpel-und-trotzdem-brauchbar"-Lösung

Nehmen wir an, wir möchten ein Korpus an Feuilleton-Artikeln aus der NZZ im Zeitraum von 2000 bis 2003 zusammenstellen, weil uns die Verwendung des Wortes "Frieden" darin interessiert.

Es ist dann wahrscheinlich sinnvoll, Textdateien zu haben, die jeweils einen Monat Feuilleton-Artikel enthalten. Wir müssen nun nur dafür sorgen, dass in den einzelnen Dateien gleichartige Informationen liegen, also jeweils die kompletten Artikel enthalten sind und sie immer durch die gleiche Art voneinander getrennt sind (z.B. 5 Zeilenschaltungen). Wenn wir uns entschliessen, bestimmte Informationen zu entfernen, z.B. irgendwelche Fusszeilen, die LexisNexis automatisch einfügt, muss diese Information überall entfernt sein. Ansonsten wird es heikel, die Dateien miteinander zu vergleichen.

Wenn das Korpus analysiert werden soll, können wir für gewisse Analysen auch mal alle Einzeldateien zu grösseren Dateien (z.B. alle Monate eines Jahres) miteinander vereinigen. (Wer unter Mac OS X, Linux oder einem anderen Unixsystem arbeitet, hat ein paar wunderbare Werkzeuge zur Verfügung, die das einfach erledigen; siehe hier.)

Wenn die Quellen des Korpus vielfältiger sind, also z.B. Word-Dateien, HTML-Seiten, E-Mails etc. enthält, sollte man sich in erster Linie darum kümmern, diese Formate in normale Text-Dateien umzuwandeln. In einem späteren Schritt können dann ev. einzelne, oder ggf. auch alle, Dateien miteinander vereinigt werden.

Ansonsten eignen sich zur Bearbeitung von Text-Dokumenten die gleichen Text-Editoren wie für XML-Dokumente:

So aufbereitete Dateien eignen sich vor allem für die Analyse in einem Konkordanzprogramm wie AntConc. Sobald man mit annotierten Daten arbeiten möchte, ist es besser, XML zu verwenden.