Vom Download zum XML-Korpus: Gangbare Wege für die Lehre

Mein Online-Handbuch Korpuslinguistik (“Einführung in die Korpuslinguistik“) enthält ein Kapitel zur Erstellung von eigenen Korpora. Es ist dabei das Ziel, einfache Wege zu beschreiben, wie man aus unterschiedlichen Quellen ein Korpus bauen kann – Wege, die auch für technisch weniger erfahrene Linguistinnen und Linguisten gangbar sind.

Entscheidend für die möglichen Wege sind dabei zwei Dinge:

  1. In welchem Datenformat liegen die Ausgangsdaten vor? Ist es ein strukturiertes (Datenbank), semi-strukturiertes (XML, HTML etc.) oder unstrukturiertes (nicht ausgezeichneter Text, RTF, Word-Doc, PDFs etc.) Format?
  2. Welches Format verlangt die Analysesoftware, mit der gearbeitet werden soll?

Viele Konkordanzprogramme wie z.B. das recht verbreitete AntConc (mein Tutorial hier) lesen unstrukturierte Textdateien, allenfalls auch HTML, allerdings ohne die HTML-Tags zu beachten. Es ist damit unmöglich, Metadaten mit den Dokumenten zu assoziieren.

State-of-the-Art ist aber natürlich XML. Die Open Corpus WorkbenchTXM (Unicode-XML-TEI text/corpus analysis platform) oder Weblicht lesen beispielsweise XML-Daten und können so codierte Metadaten und Auszeichnungen im Text (Titel, Absätze, Sätze etc.) auslesen.

Wenn es jedoch darum geht, einfache Wege aufzuzeigen, wie man z.B. von heruntergeladenen Webseiten zu sauber codierten XML-Dokumenten kommt, wird es schwierig. Ein nahe liegender Weg, den ich z. B. in meinem Aufsatz “Skandalisierung korpuslinguistisch: Eine empirisch-linguistischer Blick auf die Berichterstattung zur ‘Wulff-Affäre’” (Linguistik Online 61, 4/2013) beschreibe, geht so (für Unix-Systeme, Mac):

  1. Mit wget oder curl werden die HTML-Seiten auf den eigenen Rechner geladen.
  2. Konvertierung der HTML-Seiten nach XHTML, z.B. mittels TagSoup, einem in Java programmierten XML-Parser, der auch mit nicht validem HTML zurecht kommt.
  3. Extraktion der gewünschten Daten aus den XHTML-Dateien mit einem XSL-Stylesheet. So können der eigentliche Artikel-Text (ohne Navigation etc.) und die Metadaten (Titel, Publikationsdatum, Autor/in etc.) extrahiert werden.

Dieser Weg funktioniert besonders dann gut, wenn man eine Serie von gleich strukturierten Webseiten herunterladen möchte, z.B. Web-Foren, Online-Zeitungen etc. Etwas flexibler (und in den Funktionen mächtiger) ist z.B. der Web-Crawler Heritrix, der jedoch auch nochmals schwieriger zu bedienen ist.

Doch was ist der gangbare Weg für Linguistinnen und Linguisten, die keine Lust haben, sich in die Tiefen der XML-Verarbeitung mit XSLT, XPath etc. zu begeben? Eine mögliche Alternative, an der ich arbeite, ist:

  1. Download der Daten mit einen Tool wie dem Firefox-Plugin DownThemAll.
  2. Import der HTML-Dokumente in BaseX, einem XML-Datenbankprogramm, das auch Konvertierung der HTML-Dateien in XHTML erledigt. In BaseX kann man dann relativ intuitiv die XPath-Ausdrücke zusammenbauen, die notwendig sind, um die relevanten Textstellen aus den XHTML-Dateien zu finden.
  3. Danach muss jedoch trotzdem ein XSLT-Stylesheet erstellt werden – soll/kann man Studierende der Linguistik in die Grundregeln von XSLT einführen?

Es handelt sich also noch um eine offene Baustelle und Anregungen dazu sind sehr willkommen! Diese Seite aus meinem Online-Handbuch zur Korpuslinguistik führt wenigstens schon mal (hoffentlich auch für Laien verständlich) in XML für die Korpuslinguistik ein.

Update vom 23. Januar 2014: Inzwischen habe ich einen Weg von HTML zu XML in meinem Online-Handbuch beschrieben. Um XSLT kommt man nicht herum, aber ich hoffe, es verständlich beschrieben zu haben. Zudem habe ich dargestellt, wie man mit geschickter Anwendung von Regulären Ausdrücken von einer strukturierten Text-Datei zu XML kommt.

Veröffentlicht unter Korpuslinguistik, Korpustools | Verschlagwortet mit , , , , , , , , , , | Kommentare deaktiviert

“Überwachen und Sprache”

Ich wundere mich noch immer darüber, dass viele meiner Mitmenschen die Dimension der Snowden-Enthüllungen der Digitalüberwachung durch die Geheimdienste nicht erfassen. Die Vorstellung des “ich habe ja nichts zu verbergen” ignoriert, dass es nicht darum geht, ein paar böse Botschaften im Netz zu erfassen, sondern über die Analyse der digitalen Spuren unseres Handelns uns alle unter Generalverdacht zu stellen. Und “Analyse” bedeutet nicht, E-Mails mit einer Liste von gefährlichen Schlagwörtern abzugleichen, sondern das ganze Know-how statistischen Data Minings und maschineller Textanalyse einzusetzen, um ungewöhnliche Muster in gigantischen Datenmengen datengeleitet aufzuspüren.

Methodisch ist das hoch interessant und als Korpuslinguist versuche ich im Grunde nichts anderes zu machen. Allerdings mit anderem Erkenntnisinteresse als die Geheimdienste und geleitet von einem ethischen Codex – und mit öffentlich verfügbaren Daten. Wenn man das macht, ist jedoch ziemlich klar, was technisch möglich ist und die Dienste demnach wohl auch machen. Es ist wichtig, dieses Wissen öffentlich zu machen, damit wir Bürgerinnen und Bürger uns bewusst sind, was im Geheimen gemacht wird um entscheiden zu können, ob wir das politisch wirklich wollen.

Bildschirmfoto 2014-01-02 um 18.34.27Mein Kollege josch hat am 30. Chaos Communication Congress einen wunderbaren Vortrag zum Thema “Überwachen und Sprache” gehalten, den ich mit Nachdruck empfehle, sich anzusehen! Er demonstriert anhand eines fiktiven “Advanced Security Toolkits” zur automatischen Sprachanalyse, was heute linguistisch-statistisch möglich ist und wo die Probleme und Gefahren liegen.

Veröffentlicht unter Korpuslinguistik, Methoden | Verschlagwortet mit , , , | Kommentare deaktiviert

Merkel und die Krisen

Bildschirmfoto 2013-08-27 um 23.45.30Es gehört zur klassischen Definition einer Krise, dass man gestärkt aus ihr heraus gelangen wird. Dies ist der Topos, den auch Angela Merkel bemüht: Wenn auch die Auswirkungen auch schlimm und die Aussichten noch nicht rosig sind, so bleibt doch der Trost, dass Europa letztlich von der Krise profitieren wird – so zumindest Merkel:

“Wir haben es geschafft, Deutschland stärker aus der Finanzmarktkrise hinauszuführen, als es in sie hineingegangen ist. […] Nun wollen wir, Europa stärker aus der Krise hinausführen.”

Das sind Floskeln, wie sie in der politischen Rhetorik üblich sind. Wir berechneten Formulierungsmuster, sog. komplexe n-Gramme (cf. Scharloth/Bubenhofer 2012), die typisch für die Rhetorik von Angela Merkel sind. Die Datengrundlage waren alle Redebeiträge von Angela Merkel im Bundestag der letzten Legislaturperiode (September 2009 bis Juni 2013 – PolMine-Korpus).

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Sprechtakel, Visual Linguistics | Verschlagwortet mit , , , , , | Kommentare deaktiviert

Die Welt im Bundestag

Die weite Welt ist oft Thema unter der Glaskuppel des Bundestags: Die Parteien versuchen sich auch in außenpolitischen Themen voneinander zu differenzieren. Mit der Berechnung von Geocollocations kann analysiert werden, wie die Parlamentarierinnen und Parlamentarier über Orte, Regionen und Länder dieser Erde sprechen.

btmapSPDBildschirmfoto 2013-08-14 um 15.54.51

Ausschnitt Geocollocations SPD: Typische Wörter in Verbindung mit Orten (siehe die Karten komplett auf bubenhofer.com/geocollocations/Bundestag/)

Die folgenden Analysen basieren auf den Protokollen des Bundestags der 17. Wahlperiode, also der Zeit von 2009 bis 2013 (Korpus: Andreas Blättes PolMine). Ein Blick in die vergangene Legislatur sagt mitunter mehr darüber aus, was nach der Wahl zu erwarten ist, als die Wahlprogramme und Wahlreden.

Ich berechnete pro Partei, welche Wörter überzufällig häufig zusammen mit den jeweiligen Orten, Regionen oder Ländern verwendet werden und visualisierte die Ergebnisse auf Karten. Unter bubenhofer.com/geocollocations/Bundestag/ können die Karten im Detail eingesehen werden. Die technischen Details sind hier beschrieben.

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Sprechtakel, Visual Linguistics | Verschlagwortet mit , , , , , | 2 Kommentare

Geocollocations: Die Welt der Zeit

Durch welche Länder fließt die Donau? Was ist die Hauptstadt von Kenia? Wie heißen die Anrainerstaaten der Ostsee? – Fanden Sie solche Fragen im Geographieunterricht auch schwierig zu beantworten?

Das liegt wohl daran, dass unsere Vorstellung der Welt nicht viel mit den geographischen Realitäten zu tun hat. Stattdessen assoziieren wir mit Ländern, Städten und Regionen das, was wir darüber gelesen und gehört haben. Individuelle Assoziationen spielen eine Rolle (“der leckere Fisch damals in Rimini”) – aber auch Common Sense: Was man gemeinhin so liest (“Schweiz: Schokolade und Schwarzgeld”, “Italien: Mafia und Clowns“…). Genau das interessierte mich:

geocoll_Uebersicht

Geocollocations: Zeit Online erstes Halbjahr 2013, Übersicht; ganze Karte SVG/PDF.

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Methoden, Visual Linguistics | Verschlagwortet mit , , , , , , | 2 Kommentare

Das Weltbild des Wissenschaftsjournalismus

Der Wissenschaftsjournalismus hat sich in den letzten Jahrzehnten stark gewandelt. Während früher Zeitungen berichteten, dass “Forscher in den USA gezeigt haben, dass…”, wird heute ein differenzierteres Bild der Wissenschaft gezeichnet: In der Wissenschaft gibt es keine einheitliche Meinung zu einem Problem, da unterschiedliche Theorien und Modelle in Konkurrenz zueinander stehen (Konfliktualität) und wissenschaftliche Erkenntnis immer nur vorläufig ist (Fragilität). Siehe dazu auch den Beitrag meines Kollegen Scharloth.

In Spiegel-Artikeln zu wissenschaftlichen Themen genannte Orte und Regionen: 1947-1960.

In Spiegel-Artikeln zu wissenschaftlichen Themen genannte Orte und Regionen: 1947-1960.

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Methoden, Visual Linguistics | Verschlagwortet mit , , , , | Kommentare deaktiviert

Die Semantik von “Terrorismus”: LDA Topic Modelling

Was meinen wir eigentlich, wenn wir von “Terrorismus” sprechen? 9/11? Der “Deutsche Herbst” von 1977? Oder München 1972? Die Bedeutung von “Terrorismus” ist breit und vor allem an bestimmte Diskurse gebunden. 1972 versteht man etwas anderes unter Terrorismus als heute.

Inspiriert von einem Beitrag von Rohrdantz et al. (2012) wollte ich ausprobieren, ob die Veränderung der Bedeutung eines Wortes über ein Verfahren der automatischen Textklassifikation (LDA, Latent Dirichlet Allocation) anhand des Spiegel-Korpus beantwortet werden kann. Das hier kam dabei raus:

Terrorismus

Was ich genau gemacht habe, erkläre ich im Folgenden.

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Methoden | Verschlagwortet mit , , , | 1 Kommentar

Die typische Bergtour

Als Korpuslinguist kann ich mit Hilfe des Text+Berg-Korpus der alpinistischen Periodika des Schweizer Alpenclubs von 1864 bis heute mal eine empirisch fundierte Geschichte erzählen: Die typische Bergtour. So sieht sie aus (Klick für zoombare SVG-Datei):

Bildschirmfoto 2013-02-21 um 20.46.26

Weiterlesen

Veröffentlicht unter Korpora, Korpuslinguistik, Korpustools, Methoden, Sprechtakel, Visual Linguistics | Verschlagwortet mit , , , , , , | Kommentare deaktiviert

Diachrone Analysen: Verlaufskurven clustern

Ein halbes Jahr schlief das Sprechtakel – das tut mir leid. Die Gründe drücken die Kollokatoren zu “Familie” aus:

-2 2 6210 Beruf Vereinbarkeit 413 60% die Vereinbarkeit
[von] Familie [und] Beruf

Bzw. zu “Job“:

-1 -1 24466 neuen 4356 74% einen neuen [...] Job

Aber jetzt bin ich wieder da. Und berichte über die Möglichkeit, in diachroner Perspektive ko-variierende Lexeme zu entdecken.

Cluster kovariierender Lexeme

Abbildung 1: Cluster kovariierender Lexeme

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Methoden | Kommentare deaktiviert

Statistische Analysen von Korpora: Mit R direkt auf die CWB zugreifen

Ich bin etwas stolz auf die folgende Grafik:

Die typischen Personalpronomen in Pressetexten (sueddeutsche.de und bild.de) über Wulff und Merkel

Allerdings nicht, weil sie besonders schön aussehen würde oder weil der Inhalt sehr überraschend wäre, sondern weil sie methodisch elegant erstellt wurde. Nämlich in R unter direktem Zugriff auf die Corpus Workbench. Allerdings ist der Weg dahin doch etwas umständlich.

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Korpustools | Verschlagwortet mit , , , , | Kommentare deaktiviert