DeReKo und COSMAS II des Instituts für Deutsche Sprache (IDS): Einführung

Das Institut für Deutsche Sprache in Mannheim unterhält mit dem DeReKo (Deutsches Referenzkorpus) eines der grössten deutschsprachigen Korpora. Es enthält knapp 4 Milliarden Wörter und hat den Anspruch, ein Referenzkorpus des gegenwärtigen Deutsch zu sein.

Das Korpus ist in eine Menge von Unterkorpora aufgeteilt, die teilweise auch morphologisch und syntaktisch annotiert sind.

Aufgabe 1
Auf der folgenden Webseite kannst du dir einen Überblick über das Korpusarchiv des IDS machen: http://www.ids-mannheim.de/kt/projekte/korpora/

Um das Korpus abzufragen, gibt es COSMAS II, die Nachfolgeversion von COSMAS I, dem "Corpus Search, Management and Analysis System".

Es gibt zwei Möglichkeiten, COSMAS II zu verwenden: Einerseits über ein WWW-Interface, das mit jedem modernen Browser angesteuert werden kann, andererseits mit einem PC-Client, der auf Windows-PCs installiert werden kann. In diesem Kapitel arbeiten wir mit beiden Zugangsmöglichkeiten, da der PC-Client noch immer über wenige Funktionen verfügt, die das WWW-Interface nicht beherrscht.

Achtung, wichtig: Aus Copyright-Gründen ist nur ein Teil des IDS-Korpus öffentlich zugänglich. Und auch dieser Teil ist erst nach einer kostenlosen Registrierung für nicht-kommerzielle Zwecke verfügbar. Die Registrierung erfolgt hier: http://www.ids-mannheim.de/cosmas2/projekt/registrierung/

Zum Weiterlesen: Kleine Einführung in COSMAS II mit zwei Kurzstudien zu morphosyntaktischen Variationsfällen der Zürcher Studentin Jeanette Isele als PDF-Präsentation.