Korpustypen und ihre Zusammensetzung
Reine Textkorpora
Diese
liegen in geschriebener Form vor. Das kann also eine Sammlung an Texten
sein, oder auch eine Sammlung von transkribierter mündlicher Sprache.
Sprachkorpora
Hier
liegen die Daten nicht (nur) transkribiert vor, sondern auch als Audio-
und/oder Videoaufnahmen. Die Daten müssen dann mit phonetischen und
linguistischen Informationen annotiert (angereichert) sein.
Multimodale Korpora
Sprachkorpora,
die mit zusätzlichen Informationen wie Prosodien, Mimik, Gestik etc.
angereichert sind. Normalerweise ist dann auch eine Videoaufnahme zum
Transkript erhältlich.
| Beispiele |
- Archiv für Gesprochenes Deutsch des IDS
http://agd.ids-mannheim.de/
Bestand: ca. 900 Videoaufnahmen, 16'300 Tonaufnahmen mit einer Gesamtdauer von 4400 Stunden, sowie 6650 Transkripte
Die Videoaufnahmen sind jedoch nicht öffentlich zugänglich.
|
Baumbanken/Treebanks
Die
Bezeichnung verweist auf die Syntaxbäume - die hierarchische
Darstellung der syntaktischen Struktur eines Satzes. Baumbanken sind
also schriftliche Korpora, die mit solchen Syntaxbäumen annotiert sind.
semtracks verzeichnet im semtracks Corpora Directory frei verfügbare Korpora verschiedener Sprachen.
Vgl.
Carstensen et al. (2001, 369f.), Lemnitzer/Zinsmeister (2006, 102ff.)Das Copyright dieses Kurses liegt bei Noah Bubenhofer. Bei Zitaten oder Verweisen darauf, freut der Autor sich über
eine
Mitteilung.
Ebenso bei Fehlern und anderen Hinweisen!
Diese elektronische Ressource soll wie folgt zitiert werden:
Bubenhofer, Noah (2006-2010): Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge. Elektronische Ressource: http://www.bubenhofer.com/korpuslinguistik/.