DeReKo und COSMAS II des Instituts für Deutsche Sprache (IDS): Einführung

Das Institut für Deutsche Sprache in Mannheim unterhält mit dem DeReKo (Deutsches Referenzkorpus) eines der grössten deutschsprachigen Korpora. Es enthält über 25 Milliarden Wörter (Stand 15.09.2014) und hat den Anspruch, ein Referenzkorpus des gegenwärtigen Deutsch zu sein.

Das Korpus ist in eine Menge von Unterkorpora aufgeteilt, die teilweise auch morphologisch und syntaktisch annotiert sind.

Aufgabe 1
Auf der folgenden Webseite kannst du dir einen Überblick über das Korpusarchiv des IDS machen: http://www.ids-mannheim.de/kt/projekte/korpora/

Um das Korpus abzufragen, gibt es COSMAS II, die Nachfolgeversion von COSMAS I, dem "Corpus Search, Management and Analysis System".

Es gibt zwei Möglichkeiten, COSMAS II zu verwenden: Einerseits über ein WWW-Interface, das mit jedem modernen Browser angesteuert werden kann, andererseits mit einem PC-Client, der auf Windows-PCs installiert werden kann. In diesem Kapitel fokussiere ich mich auf den WWW-Client, da dieser unproblematisch auf jedem Betriebssystem im Browser benutzt werden kann. Aus historischen Gründen ist eine kurze Anleitung zum PC-Client noch immer verfügbar.

Achtung, wichtig: Aus Copyright-Gründen ist nur ein Teil des IDS-Korpus öffentlich zugänglich. Und auch dieser Teil ist erst nach einer kostenlosen Registrierung für nicht-kommerzielle Zwecke verfügbar. Die Registrierung erfolgt hier: http://www.ids-mannheim.de/cosmas2/projekt/registrierung/