Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge

Von Noah Bubenhofer, Universität Zürich

Seit über zwei Jahren ist die Einführung in die Korpuslinguistik online! Und sie wird rege benutzt, so z.B. in Veranstaltungen an den Universitäten Heidelberg (Ekkehard Felder), Jena (Peter Gallmann), Zürich (Christa Dürscheid), Kiel (Ulrike Mosel), Leipzig (Uwe Quasthoff), am Institut für Computerlinguistik in Zürich (Simon Clematide); die Website von COSMAS II des IDS, das Korpus Südtirol, die LinseLinks, der Gateway to Corpus Linguistics und die Wikipedia verweisen darauf. Und hin und wieder treffen ermutigende E-Mails ein:

Das freut mich und ermutigt mich darin, den Kurs weiter auszubauen. Bitte beachten Sie das Impressum!

Eintägiger Kurs zu Korpuslinguistik: Am 5. Juni 2009 findet der Kurs Quantitative Analyse von Texten. Theorie und Methoden zur Untersuchung von Sprachgebrauch in Diskursen statt, in dem ich in die Korpuslinguistik einführe.

Der Kurs bietet folgende Themen:

  1. Einführung in die Korpuslinguistik: Korpustypen, Erstellung, Annotationen, Anfragesysteme
  2. Web als Korpus: Wo liegen die Chancen und Risiken der Nutzung des Internets als linguistisches Korpus?
  3. Überarbeitet: COSMAS II: Eines der wichtigsten Korpora deutscher Sprache des Instituts für Deutsche Sprache (IDS) in Mannheim. Einführung in die Bedienung und die Abfragesprache.
  4. Erweitert: Weitere Korpora: Kurze Einführungen in weitere wichtige deutschsprachige Korpora.
  5. Eigenes Korpus: Hilfe und Tipps zur Erstellung eines eigenen Korpus.
  6. Datenbank Filemaker: Dieses Datenbankprogramm bietet sich an zur einfachen Verwaltung des eigenen Korpus.
  7. Anwendungen: Beispiele für die Arbeit mit Korpora
  8. Neu: Statistik: Statistik für die Korpusanalyse
  9. Visualisierung: Einführung in die Möglichkeiten der Visualisierung von Sprachdaten.
  10. Anhang: Informationen zu korpuslinguistischer Software, kleine Einführungen in grundlegende Unix-Befehle und in Reguläre Ausdrücke, sowie Literaturhinweise und ein Lexikon.

Ich danke meinen Studentinnen und Studenten für ihre Hinweise, Verbesserungsvorschläge und Korrekturen, die sie mir während des Kurses zukommen liessen!

Noah Bubenhofer, im Juni 2006

Aktualisierungen

Korpuslinguistik in Weblogs:

semtracks Political Tracker: U.S. Presidential Campaign '08: A Semantic Matrix Analysis.
In diesem Blog analysiert semtracks den US-Wahlkampf der beiden Kandidaten John McCain und Barack Obama aus linguistischer Sicht. Die maschinellen semantischen Analysen erlauben es, die signifikanten Unterschiede in der Rhetorik der beiden Kandidaten zu messen und damit Zeitgeist zu erfassen. Basis dieser Analysen sind statistische Verfahren der Korpuslinguistik, wie sie teilweise in den Kapiteln dieser Einführung beschrieben werden.

Blog Sprechtakel, linguistische Notizen: Im zwar mittlerweile nicht mehr aktualisierten Weblog zur Korpuslinguistik finden sich eine lose und unsystematische Sammlung an Kommentaren und Hinweisen zum Thema.