Korpustypen und ihre Zusammensetzung

Reine Textkorpora

Diese liegen in geschriebener Form vor. Das kann also eine Sammlung an Texten sein, oder auch eine Sammlung von transkribierter mündlicher Sprache.

Beispiele

Sprachkorpora

Hier liegen die Daten nicht (nur) transkribiert vor, sondern auch als Audio- und/oder Videoaufnahmen. Die Daten müssen dann mit phonetischen und linguistischen Informationen annotiert (angereichert) sein.

Beispiele

Multimodale Korpora

Sprachkorpora, die mit zusätzlichen Informationen wie Prosodien, Mimik, Gestik etc. angereichert sind. Normalerweise ist dann auch eine Videoaufnahme zum Transkript erhältlich.

Beispiele
  • Archiv für Gesprochenes Deutsch des IDS
    http://agd.ids-mannheim.de/
    Bestand: ca. 900 Videoaufnahmen, 16'300 Tonaufnahmen mit einer Gesamtdauer von 4400 Stunden, sowie 6650 Transkripte

    Die Videoaufnahmen sind jedoch nicht öffentlich zugänglich.

Baumbanken/Treebanks

Die Bezeichnung verweist auf die Syntaxbäume - die hierarchische Darstellung der syntaktischen Struktur eines Satzes. Baumbanken sind also schriftliche Korpora, die mit solchen Syntaxbäumen annotiert sind.

Beispiel

semtracks verzeichnet im semtracks Corpora Directory frei verfügbare Korpora verschiedener Sprachen.


Vgl. Carstensen et al. (2001, 369f.), Lemnitzer/Zinsmeister (2006, 102ff.)