Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge

Von Noah Bubenhofer, Zürich, Mannheim, Dresden

Der Kurs bietet folgende Themen:

  1. Einführung in die Korpuslinguistik: Korpustypen, Erstellung, Annotationen, Anfragesysteme
  2. Web als Korpus: Wo liegen die Chancen und Risiken der Nutzung des Internets als linguistisches Korpus?
  3. DeReKo/COSMAS II: Das Deutsche Referenzkorpus DeReKo des Instituts für Deutsche Sprache (IDS) ist eines der wichtigsten Korpora deutscher Sprache. Einführung in die Bedienung mit COSMAS II.
  4. Weitere Korpora: Kurze Einführungen in weitere wichtige deutschsprachige Korpora.
  5. Überarbeitet: Korpora erstellen: Hilfe und Tipps zur Erstellung eines eigenen Korpus, neu mit aktualisierten Methoden zum Web-Crawling mit Trafilatura, zum Bezug von Schweizer Mediendaten über Swissdox@LiRI und zur Annotation.
  6. Überarbeitet: Daten analysieren: Tutorials für die Analyse von Korpusdaten mit verschiedenen Tools, neu auch Topic Modeling und Word Embeddings mit Python.
  7. Neu: KoDuP Germanistik: Korpuslinguistisches Denken und Programmieren im Kontext der Germanistik: eine Lernplattform – Einführung in Python für die Korpuslinguistik.
  8. Corpus Workbench: Einführung in die IMS Open Corpus Workbench und CQPweb zur Verwaltung von bestehenden und eigenen annotierten Korpora.
  9. Anwendungen: Beispiele für die Arbeit mit Korpora
  10. Statistik: Statistik für die Korpusanalyse
  11. Visualisierung: Einführung in die Möglichkeiten der Visualisierung von Sprachdaten.
  12. Anhang: Informationen zu korpuslinguistischer Software, kleine Einführungen in grundlegende Unix-Befehle und in Reguläre Ausdrücke sowie Literaturhinweise.

Neu:

KoDuP Germanistik: Korpuslinguistisches Denken und Programmieren im Kontext der Germanistik: eine Lernplattform

KoDuP Germanistik ist unser neues Angebot, um ins Programmieren in Python für die Korpuslinguistik einzuführen! Die Plattform ist ein Gitlab-Repo und enthält nicht nur Tutorials, sondern auch Beispielscripts.

https://gitlab.uzh.ch/noah.bubenhofer/kodup-germanistik/

 

Videos:

Wer lieber schaut statt liest, kann sich diese drei Videos ansehen, wo ich in die wichtigsten Themen der Korpuslinguistik einführe. Sie entstanden im Rahmen des MOOCs "Sprachtechnologie in den Digital Humanities" in Zusammenarbeit mit Simon Clematide und Martin Volk (Universität Zürich). Der gesamte MOOC ist über Coursera verfügbar, über YouTube und für Angehörige von Schweizer Universitäten und Hochschulen über SWITCHcast MediaSpace.

Modul 3a: Korpusanalysen für die Digital Humanities
Modul 3b: Hands-on Korpusanalysen
Modul 3c: Visualisierung von Texteigenschaften

Zudem stehen Screencast-Erklärvideos für COSMAS II und DWDS zur Verfügung:

 

 

New: The first tiny section of this introduction into corpus linguistics in English is available – the "Tbilisi Tutorial on CQPweb and XML". I originally wrote the tutorial for a workshop I gave in Tbilisi, Georgia.

Ich danke meinen Studentinnen und Studenten für ihre Hinweise, Verbesserungsvorschläge und Korrekturen, die sie mir während des Kurses zukommen liessen!

Noah Bubenhofer, im Juni 2006

Aktualisierungen

Seit neun Jahren ist die Einführung in die Korpuslinguistik online! Und sie wird rege benutzt, so z.B. in Veranstaltungen an den Universitäten Heidelberg (Ekkehard Felder), Jena (Peter Gallmann), Zürich (Christa Dürscheid), Kiel (Ulrike Mosel), Leipzig (Uwe Quasthoff), Duisburg-Essen (Ulrike Haß), Berlin (DGfS-Tutorium), am Institut für Computerlinguistik in Zürich (Simon Clematide), Hamburg, Mainz, Winterthur, Wien; die Website von COSMAS II des IDS, das Korpus Südtirol, die LinseLinks, der Gateway to Corpus Linguistics und die Wikipedia verweisen darauf. Und hin und wieder treffen ermutigende E-Mails ein:

Das freut mich und ermutigt mich darin, den Kurs weiter auszubauen. Bitte beachten Sie das Impressum!

In eigener Sache

ISBN 978-3-11-021584-7Bubenhofer, Noah: Sprachgebrauchsmuster. Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. (Sprache und Wissen 4), Berlin/New York, de Gruyter, 2009.
Google Books


Blog: Sprechtakel, linguistische Notizen