Daten analysieren
Hat man das Korpus zusammengetragen und in der Formatierung bereinigt, folgt die eigentliche Analyse. Dazu gibt es natürlich vielfältige Möglichkeiten und für komplexe Fragestellungen können Standard-Analysen höchstens Teil der ganzen Methode sein. Man sollte sich nicht scheuen, auch unkonventionelle Wege zu gehen, jedoch die eigentliche Fragestellung immer im Hinterkopf behalten.
Hier wird eine kleine Palette an Analysemöglichkeiten aufgezeigt. Es gibt dafür teilweise Software, die die Analyse unterstützt. Einen Überblick gibt das
Softwareverzeichnis. Oft ist man aber genauso gut bedient, wenn man mit einem Texteditor, in dem man mit
regulären Ausdrücken suchen kann, oder mit grundlegenden
Unix-Befehlen arbeitet. Erfahrene Korpuslinguistinnen und -linguisten erstellen auch oft ihre eigene Programme (z.B. relativ einfach mit
Perl), die genau das machen, was sie wollen.
Konkordanzen
Oft interessiert man sich für den Gebrauch eines Wortes im Korpus. Um dem auf die Spur zu kommen, sind sog. "Concordance"-Programme nützlich. Es gibt einige davon, die auch kostenlos erhältlich sind, z.B.:
- AntConc
Konkordanz-Programm, das auch N-Gramme und Wortcluster berechnen kann
Download
Betriebssysteme: Windows, Mac OS X (Installationsanleitung beachten, da X11 nötig!), Linux
kostenlos
Auf der nächsten Seite gibt es eine deutsche Anleitung zur Verwendung von AntConc - ConcApp
Konkordanz-Programm, findet auch Kollokationen
Download
Betriebssystem: Windows
kostenlos - Simple Concordance Program
Erstellt Wortlisten, lässt Korpus durchsuchen etc.
Download
Betriebssysteme: Mac OS X und Windows
kostenlos
- IMS Corpus Workbench (CWB)
Mächtiges System zur Korpusverwaltung und -recherche
Informationen
Betriebssysteme: Unix/Linux (wahrscheinlich auch Mac OS X), Binaries für SPARC Solaris 2.8 und i386 Linux 2.4
Für Forschung kostenlos
Ein Beispiel aus dem Programm AntConc, in dem ein Korpus an NZZ Leitartikeln nach dem Wort "Terror" durchsucht worden ist:

Programme dieser Art können meistens auch noch mehr, z.B. Wortlisten (mit Frequenzen) erstellen oder Kollokationen berechnen.
Wortlisten/Wortgruppenlisten (N-Gramme)
Eine Liste aller vorhandenen unterschiedlichen Wörter mit Angaben zu ihren Frequenzen ist einfach erstellbar und sagt trotzdem schon viel über ein Korpus aus. Die meisten Konkordanz-Programme beherrschen das, ansonsten ist das unter Unix-Systemen (auch Mac OS X)
schnell selber gemacht.
In die gleiche Kategorie fällt das Berechnen von N-Grammen (Wortgruppen/Kollokationen/Kookkurrenzen). Es gibt verschiedene Methoden, diese zu berechnen. Die einfachste ist, einfach zu zählen, wie oft die unterschiedlichen möglichen Wortkombinationen vorkommen. Auch das können die Konkordanz-Programme meistens oder ist mit
Unix-Grundbefehlen machbar. Statistisch komplexere Methoden (wie sie z.B.
im IDS-Korpus angewandt werden) beherrschen Spezialprogramme. Besonders empfehlenswert, aber nicht ganz einfach zu bedienen, ist NSP:
- Ngram Statistics Package (NSP)
Berechnung von N-Grammen mittels ausgefeilter statistischer Methoden. Programmiert in Perl, ohne grafische Oberfläche
Download
Betriebssysteme: Mac OS X, Unix-Systeme, Windows
kostenlos
Oder auch kfNgram, das aber nur Frequenzen berechnet:
Annotierung
Oft ist es auch hilfreich, das Korpus vor der eigentlichen Analyse mit morphologischen und syntaktischen Informationen zu annotieren. Ein kostenlos verfügbares und auch für grössere Textmengen einsetzbares Programm ist TreeTagger:
- TreeTagger
Werkzeug zur Annotierung von Texten mit Wortart- und Lemma-Informationen (sprachunabhängig)
Download
Betriebssysteme: Mac OS X, PC-Linux, Sun-Sparc-Solaris
kostenlos
Für Windows gibt es sogar eine
grafische Benutzeroberfläche dieses Programms. Für die Benutzung unter anderen Betriebssystemen muss man aber auf die Shell zurück greifen.
Das Copyright dieses Kurses liegt bei Noah Bubenhofer. Bei Zitaten oder Verweisen darauf, freut der Autor sich über
eine
Mitteilung.
Ebenso bei Fehlern und anderen Hinweisen!
Diese elektronische Ressource soll wie folgt zitiert werden:
Bubenhofer, Noah (2006-2010): Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge. Elektronische Ressource: http://www.bubenhofer.com/korpuslinguistik/.