Korpustypen und ihre Zusammensetzung

Reine Textkorpora

Diese liegen in geschriebener Form vor. Das kann also eine Sammlung an Texten sein, oder auch eine Sammlung von transkribierter mündlicher Sprache.

Beispiele

Allgemeinsprachliche Korpora

  • Deutsches Referenzkorpus DeReKo des Instituts für Deutsche Sprache (IDS)
    http://www.ids-mannheim.de/kt/projekte/korpora/
    Bestand: 24 Milliarden Tokens (Stand April 2014)
  • Referenzkorpus der deutschen Sprache des 20. Jahrhunderts (DWDS-Kernkorpus)
    http://www.dwds.de/
    Bestand: 100 Millionen Tokens im Kernkorpus (20. Jahrhundert); weitere Korpora, insgesamt 1,8 Mia. Tokens (Stand April 2014)
  • Korpus C4
    http://www.korpus-c4.org
    gemeinsames Korpus des Digitalen Wörterbuchs der deutschen Sprache des 20. Jahrhunderts (DWDS), des Austrian Academy Corpus (AAC), des Korpus Südtirol und des SCHWEIZER TEXT KORPUS (CHTK)
    Bestand: ca. 46 Millionen Tokens; im Aufbau
  • Schweizer Textkorpus
    http://www.schweizer-textkorpus.ch/
    Bestand: 20 Mio. Tokens
  • COW: Corpora from the Web
    http://hpsg.fu-berlin.de/cow/
    Bestand: im Aufbau, gegenwärtig (April 2014) über 9 Milliarden Tokens (randomisierte Sätze aus dem Web)
  • Deutsches Textarchiv
    http://www.deutschestextarchiv.de
    Bestand: Historisches Korpus deutschsprachiger Texte von 1600 bis 1900, aktuell (April 2014) über 1300 Bücher (Kernkorpus) verfügbar, ca. 100 Millionen Tokens, weitere Spezialkorpora verfügbar, im Aufbau
  • British National Corpus (BNC)
    http://www.natcorp.ox.ac.uk/
    Bestand: über 100 Millionen Tokens
  • The Corpus of Contemporary American English (COCA)
    http://corpus.byu.edu/coca/
    Bestand: 450 Millionen Tokens

Thematische Korpora/Spezialkorpora


Sprachkorpora

Hier liegen die Daten nicht (nur) transkribiert vor, sondern auch als Audio- und/oder Videoaufnahmen. Die Daten müssen dann mit phonetischen und linguistischen Informationen annotiert (angereichert) sein.

Beispiele

Baumbanken/Treebanks

Die Bezeichnung verweist auf die Syntaxbäume - die hierarchische Darstellung der syntaktischen Struktur eines Satzes. Baumbanken sind also schriftliche Korpora, die mit solchen Syntaxbäumen annotiert sind.

Beispiel

Die Forschergruppe semtracks verzeichnet im semtracks Corpora Directory frei verfügbare Korpora verschiedener Sprachen.


Vgl. Carstensen et al. (2001, 369f.), Lemnitzer/Zinsmeister (2006, 102ff.)