Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge
Von Noah Bubenhofer, semtracks/Institut für Deusche Sprache (IDS), Mannheim
Seit knapp vier Jahren ist die Einführung in die Korpuslinguistik online! Und sie wird rege benutzt, so z.B. in Veranstaltungen an den Universitäten Heidelberg (Ekkehard Felder), Jena (Peter Gallmann), Zürich (Christa Dürscheid), Kiel (Ulrike Mosel), Leipzig (Uwe Quasthoff), Duisburg-Essen (Ulrike Haß), Berlin (DGfS-Tutorium), am Institut für Computerlinguistik in Zürich (Simon Clematide), Hamburg, Mainz, Winterthur, Wien; die Website von COSMAS II des IDS, das Korpus Südtirol, die LinseLinks, der Gateway to Corpus Linguistics und die Wikipedia verweisen darauf. Und hin und wieder treffen ermutigende E-Mails ein:
- "[Mit der Korpuslinguistik] habe ich mich zu Anfang gefühlt, als hätte man mir als Fahrradfahrer ohne Führerschein einen Ferrari geschenkt. [...] Leider ist es ja so, dass man sich nur schwer vorstellen kann, wie man jemandem die Basis-Funktionen erkärt, wenn man bereits völlig automatisiert fährt, so dass mich die meisten Einführungen nicht weitergebracht haben [...]. Ihre jedoch ist gleichsam eine Fahrschule für Korpuslinguistikanfänger - sie fängt am Anfang an, erklärt die wichtigsten Funktionen, ohne jedoch zu sehr in Details zu gehen."
- "Kürzlich bin ich über eine Online-Einführung in die Korpuslinguistik gestoßen, die ich für äußerst gelungen halte. 'Korpuslinguistik zum Anfassen' scheint hier das Motto zu sein." (kognitionswissenschaft.org)
- "So fundierte und umfassende Informationen sind nirgends sonst zu finden! Vielen Dank für eine (anmeldungs- und kosten)freie Nutzung."
- "Übrigens noch eine offizielle Mitteilung für Deine Homepage: In meinem Proseminar Korpuslinguistik im SoSe 2009 hier am Germanistischen Seminar war der Link auf Deine Online-Einführung der meist frequentierteste. Zum Beispiel hat eine Kommilitonin (2. Hauptfach Mathematik) ein Statistik-Referat im Wesentlichen auf der Basis Deiner Darstellung gehalten und war voll des Lobes."
- "ich bin über den link auf yvonne breyer's seite auf deine gekommen - gratulation eine wirklich schöne seite!!! besonders gut gefallen hat mir deine einführung in die korpuslinguistik!"
- "vielen Dank für Ihren On-line-Kurs in Korpuslinguistik. Er ist für Lehrende und Studierende eine große Hilfe!"
- "...die fundierteste Einführung in die Korpuslinguistik im Web – bitte übernehmt aber keinesfalls die schreckliche schweizerische Schreibweise ohne Eszett!"
- "ich schlag mich mit Cosmas rum, Deine Homepage ist dazu die einzige vernüftige Quelle auf dem Netz, vielen Dank dafür."
Das freut mich und ermutigt mich darin, den Kurs weiter auszubauen. Bitte beachten Sie das Impressum!
Der Kurs bietet folgende Themen:
- Einführung in die Korpuslinguistik: Korpustypen, Erstellung, Annotationen, Anfragesysteme
- Web als Korpus: Wo liegen die Chancen und Risiken der Nutzung des Internets als linguistisches Korpus?
- Überarbeitet: DeReKo/COSMAS II: Das Deutsche Referenzkorpus DeReKo des Instituts für Deutsche Sprache (IDS) ist eines der wichtigsten Korpora deutscher Sprache. Einführung in die Bedienung mit COSMAS II.
- Weitere Korpora: Kurze Einführungen in weitere wichtige deutschsprachige Korpora.
- Eigenes Korpus: Hilfe und Tipps zur Erstellung eines eigenen Korpus.
- Datenbank Filemaker: Dieses Datenbankprogramm bietet sich an zur einfachen Verwaltung des eigenen Korpus.
- Anwendungen: Beispiele für die Arbeit mit Korpora
- Statistik: Statistik für die Korpusanalyse
- Visualisierung: Einführung in die Möglichkeiten der Visualisierung von Sprachdaten.
- Anhang: Informationen zu korpuslinguistischer Software, kleine Einführungen in grundlegende Unix-Befehle und in Reguläre Ausdrücke, sowie Literaturhinweise und ein Lexikon.
Ich danke meinen Studentinnen und Studenten für ihre Hinweise, Verbesserungsvorschläge und Korrekturen, die sie mir während des Kurses zukommen liessen!
Noah Bubenhofer, im Juni 2006
Aktualisierungen
- Mai 2010: Das Kapitel COSMAS II heisst nun DeReKo/COSMAS II, um deutlicher zwischen Korpus und Korpusabfrage-System zu unterscheiden und wurde dabei auch geringfügig überarbeitet und aktualisiert.
- Oktober 2008: Das Kapitel COSMAS II wurde überarbeitet und inhaltlich aktualisiert.
Die Informationen zum DWDS-Korpus wurden um eine Kurzanleitung ergänzt.
- August 2008: Das Kapitel Statistik ist eröffnet – und es ist kein gruseliges Kapitel, hoffe ich!
- Mai 2008: Neu ist eine kurze Anleitung zur Verwendung der Concordancing-Software AntConc verfügbar.
- August 2007: Die ersten fünf Kapitel dieses Kurses habe ich leicht aktualisiert und Fehler korrigiert. Neu hinzugekommen sind vor allem Präzisierungen zum Funktionsumfang des COSMAS II-WWW-Clients, der inzwischen fast alles auch kann, was der PC-Client kann.
In eigener Sache
Bubenhofer, Noah: Sprachgebrauchsmuster. Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. (Sprache und Wissen 4), Berlin/New York, de Gruyter, 2009.
Google Books
PaperC, kostenlos lesen
Korpuslinguistik in Weblogs:
Bundestagswahl '09:
Eine Semantische Matrixanalyse
Wie unterscheiden sich in Deutschland SPD, Linke und Grüne in ihrer Wortwahl? Wie nahe stehen sich Schwarz und Grün aus sprachlicher Sicht?
semtracks liefert Antworten auf diese und weitere Fragen rund um die wichtigsten Parteien Deutschlands. Bis zur Bundestagswahl am 27. September 2009 werden in regelmäßigen Abständen semantische Analysen publiziert.
semtracks Political Tracker: U.S. Presidential Campaign '08: A Semantic Matrix Analysis.
In diesem Blog analysiert semtracks den US-Wahlkampf der beiden Kandidaten John McCain und Barack Obama aus linguistischer Sicht. Die maschinellen semantischen Analysen erlauben es, die signifikanten Unterschiede in der Rhetorik der beiden Kandidaten zu messen und damit Zeitgeist zu erfassen. Basis dieser Analysen sind statistische Verfahren der Korpuslinguistik, wie sie teilweise in den Kapiteln dieser Einführung beschrieben werden.
Das Copyright dieses Kurses liegt bei Noah Bubenhofer. Bei Zitaten oder Verweisen darauf, freut der Autor sich über
eine
Mitteilung.
Ebenso bei Fehlern und anderen Hinweisen!
Diese elektronische Ressource soll wie folgt zitiert werden:
Bubenhofer, Noah (2006-2010): Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge. Elektronische Ressource: http://www.bubenhofer.com/korpuslinguistik/.