Anatomie eines Textes: Bildgebendes Verfahren für Textkorpora

Was “zeigt” sich, wenn eine Maschine einen Text “liest”, also sequenziell Wort für Wort abarbeitet? Eher für didaktische Zwecke habe ich eine kleine Spielerei versucht (und dabei mit P5.js experimentiert):

textvis

Screenshot TextVis 1.0

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Korpustools, Visual Linguistics | Verschlagwortet mit , , | Hinterlasse einen Kommentar

MOOC Sprachtechnologie in den Digital Humanities

MOOC Sprachtechnologie in den Digital Humanities: Modul Korpuslinguistik

MOOC Sprachtechnologie in den Digital Humanities: Modul Korpuslinguistik

Meine Kollegen Simon Clematide, Martin Volk und ich starten diese Woche unseren Massive Open Online Course (MOOC) zu Sprachtechnologie in den Digital Humanities. Sie können sich ab sofort kostenlos ins Kurssystem einschreiben und dann über sechs Wochen in kleinen Häppchen einen Einblick in sprachtechnologische Aspekte der Aufbereitung und quantitativen Analyse von Textdaten und Korpora gewinnen.

Ich habe ein dreiteiliges Modul zu grundlegenden korpuslinguistischen Analysekategorien mit Hands-on-Teil, sowie zu visuellen Analysemethoden, vorbereitet. Die Videos dieses Moduls werde ich demnächst auch außerhalb der MOOC-Plattform coursera publizieren.

Veröffentlicht unter Korpuslinguistik, Methoden | Verschlagwortet mit , , | Hinterlasse einen Kommentar

Google aus korpuslinguistischer Perspektive

Juliane Schröter und Robert Schikowski der Universität Zürich interviewten mich neulich in ihrem Podcast “angesprochen” zum Thema “Suchen und Finden im Internet“. Ich bin alles andere als ein Spezialist beim Thema Suchmaschinen (Tipp: “Der Google-Komplex” von Theo Röhle) und deshalb war das Interview ein guter Grund, mich ausführlicher mit Fragen zum Thema Googles Auswirkungen auf Gesellschaft und Wissenschaft auseinanderzusetzen. Aus korpuslinguistischer Perspektive sind solche Reflexionen natürlich ganz interessant – und hey, Code is Theory, deshalb ist es wichtig, die Funktionsweise von Suchmaschinen zu verstehen und deren Auswirkungen zu antizipieren! Juliane, Robert, danke für die interessanten Fragen!

Im Interview erwähnte oder benutzte Quellen/Sites:

Veröffentlicht unter Korpuslinguistik, Netzpolitik | 1 Kommentar

Digitale Informationskriege

AvatarDuginAnmiated
Am 31C3 sprachen josch und ich (arche3000) über die Möglichkeiten und Folgend des digitalen Informationskrieges, wie man ihn bei der gegenwärtigen Ukraine-Krise gut beobachten kann. Dazu zeigten wir erste Ergebnisse unseres Bots, der für Informationskriege eingesetzt werden könnte – um zu antizipieren, was möglich ist und vielleicht auch bereits gemacht wird. Leider gruselig.

Die Videoaufzeichnung unseres Talks ist online:

Bildschirmfoto 2014-12-29 um 11.12.56

Der 31C3 ist großartig – vielen Dank für die tolle Unterstützung, das Podium und überhaupt alles!

[Update vom 30. Dezember 2014, 18:00]

[Update vom 27. Januar 2015]

  • Frank Seibert vom Bayrischen Rundfunk interviewte mich zum Informationskrieg für die Sendungen orange und puls.
Veröffentlicht unter Korpuslinguistik, Methoden, Politik, Sprechtakel | Verschlagwortet mit , , | Kommentare deaktiviert für Digitale Informationskriege

Visuelle Linguistik: Ein neues Forschungsfeld?

diagramGestern endete das Symposium “Visuelle Linguistik“, das ich zusammen mit Marc Kupietz organisiert hatte. Aus unserer Sicht besonders interessant am Symposium war die breite Palette von unterschiedlichen Hintergründen, denen die Beiträge entstammten: Linguistik, Korpus- und Computerlinguistik, Digital Humanities, Informatik und Ästhetik – um nur die wichtigsten Perspektiven zu nennen.

Die Keynotes von Mark LauersdorfMartin Hilpert und Maximilian Schich boten den Rahmen für die 16 Vorträge und die zusätzlichen Poster und Live-Präsentationen. Am dritten Tag ermöglichte der Workshop von Sandra Hansen-Morath und Sascha Wolfer zu R, verschiedene Visualisierungsmethoden selber auszuprobieren.

Die Folien meines Eröffnungsvortrags, der “Visuelle Linguistik” als lohnenswertes Forschungsfeld vorschlägt, sind ab sofort online verfügbar. In den kommenden Tagen werden auch die Folien weiterer Vorträge, sowie Berichte zur Tagung, auf www.visual-linguistics.net publiziert.

Veröffentlicht unter Visual Linguistics | Verschlagwortet mit | Kommentare deaktiviert für Visuelle Linguistik: Ein neues Forschungsfeld?

Die ZEIT über Big Data in den Geisteswissenschaften

Bildschirmfoto 2014-08-21 um 21.53.18Die aktuelle ZEIT bringt auf Seite 27 einen großen Beitrag über Big Data in den Geisteswissenschaften. Grundlage sind Gespräche mit Joachim Scharloth und mir und eine Analyse von uns (und David Eugster): Wir untersuchten mit datengeleiteten Methoden das Archiv der gedruckten ZEIT in Nachkriegsdeutschland bis heute – die Studie ist hier im Preprint verfügbar* und dieses Poster (siehe Bild) enthält auf der rechten Seite eine Kürzestfassung davon.

 

 

 

 

Cover_BusseTeubert

* Scharloth, Joachim/Eugster, David/Bubenhofer, Noah (2013): Das Wuchern der Rhizome. Linguistische Diskursanalyse und Data-driven Turn. In: Busse, Dietrich/Teubert, Wolfgang (Hrsg.): Linguistische Diskursanalyse. Neue Perspektiven. Wiesbaden: Springer VS. S. 345-380.

Veröffentlicht unter Korpuslinguistik, Methoden | Verschlagwortet mit , , | Kommentare deaktiviert für Die ZEIT über Big Data in den Geisteswissenschaften

SNF Ambizione-Förderung: Visual Linguistics

Soeben habe ich die erfreuliche Nachricht erhalten: Der Schweizer Nationalfonds fördert mein Projekt “Visual Linguistics: Grundlagen der Visualisierung von sprachlichen Daten” über drei Jahre! Voraussichtlich ab 2015 werde ich das Projekt mit dem Ziel starten, ein “Visual Linguistics Framework” zu erarbeiten. Es geht im Grunde um die Fragen:

  • Wie wurden Visualisierungen zur Datenanalyse bereits bisher in der Sprachwissenschaft verwendet?
  • Welche Visualisierungsmodi gibt es in verwandten Disziplinen?
  • Welche Chancen ergeben sich durch visuelle Analysemethoden in der Welt von (sprachlicher) Big Data?
  • Aber was machen wir eigentlich, wenn wir Daten visualisieren?

Die äußerst positiven Gutachten ermutigen mich, die Aufgabe anzupacken! Danke an alle mir bekannten und unbekannten Unterstützer/innen des Projekts, die mir den nötigen Rückenwind geben!

Veröffentlicht unter Korpuslinguistik, Methoden, Visual Linguistics | 1 Kommentar

Zehn Gründe, Facebook zu verlassen

Vor ein paar Tagen habe ich mein Facebook-Konto gelöscht. Es kostete mich nicht viel Überwindung, denn ich war kein aktiver Facebook-User. Trotzdem ist es interessant, sich zu überlegen, welche Gründe gegen die Facebook-Nutzung sprechen. Hier deshalb meine zehn Gründe – fotografisch untermalt –, die auch meine letzten Facebook-Posts waren.

Weiterlesen

Veröffentlicht unter Sprechtakel | Verschlagwortet mit , , | 1 Kommentar

Visuelle Linguistik: Symposium in Hannover

Werbung in eigener Sache: Vom 19. bis 21. November 2014 findet in Hannover das Symposium “Visuelle Linguistik: Theorie und Anwendung von Visualisierungen in der Sprachwissenschaft” statt, das ich zusammen mit Marc Kupietz (IDS Mannheim) organisiere. Gegenwärtig ist der Call for Papers offen: http://www.visual-linguistics.net/symposium/

Geokollokationen, Deutscher Bundestag, Partei Die Linke WP 17

Geokollokationen, Deutscher Bundestag, Partei Die Linke WP 17, vgl. bubenhofer.com/geocollocations/

Wir freuen uns nicht nur über Beiträge, die Methoden der Visualisierung praktisch erproben, sondern auch über solche, die diese Methoden theoretisch reflektieren. Ganz explizit richtet sich das Symposium nicht nur an Wissenschaftler/innen aus der Korpus- oder Computerlinguistik, sondern aus der gesamten Sprachwissenschaft, den Digital Humanities und angrenzenden Disziplinen.

Visualisierungen zur Präsentation von Forschungsergebnissen, besonders aber auch zur Exploration von Daten, haben eine lange Tradition in der Linguistik. Man denke z.B. an Dialektkarten oder Syntaxbäume. Aber auch Transkripte gesprochener Sprache sind eine Form von Visualisierung. Besonders wichtig sind heute Visualisierungen natürlich in der quantitativen Korpuslinguistik, wo es ohne fast nicht mehr geht.

Veröffentlicht unter Korpuslinguistik, Methoden, Visual Linguistics | Verschlagwortet mit , | Kommentare deaktiviert für Visuelle Linguistik: Symposium in Hannover

Vom Download zum XML-Korpus: Gangbare Wege für die Lehre

Mein Online-Handbuch Korpuslinguistik (“Einführung in die Korpuslinguistik“) enthält ein Kapitel zur Erstellung von eigenen Korpora. Es ist dabei das Ziel, einfache Wege zu beschreiben, wie man aus unterschiedlichen Quellen ein Korpus bauen kann – Wege, die auch für technisch weniger erfahrene Linguistinnen und Linguisten gangbar sind.

Entscheidend für die möglichen Wege sind dabei zwei Dinge:

  1. In welchem Datenformat liegen die Ausgangsdaten vor? Ist es ein strukturiertes (Datenbank), semi-strukturiertes (XML, HTML etc.) oder unstrukturiertes (nicht ausgezeichneter Text, RTF, Word-Doc, PDFs etc.) Format?
  2. Welches Format verlangt die Analysesoftware, mit der gearbeitet werden soll?

Viele Konkordanzprogramme wie z.B. das recht verbreitete AntConc (mein Tutorial hier) lesen unstrukturierte Textdateien, allenfalls auch HTML, allerdings ohne die HTML-Tags zu beachten. Es ist damit unmöglich, Metadaten mit den Dokumenten zu assoziieren.

State-of-the-Art ist aber natürlich XML. Die Open Corpus WorkbenchTXM (Unicode-XML-TEI text/corpus analysis platform) oder Weblicht lesen beispielsweise XML-Daten und können so codierte Metadaten und Auszeichnungen im Text (Titel, Absätze, Sätze etc.) auslesen.

Wenn es jedoch darum geht, einfache Wege aufzuzeigen, wie man z.B. von heruntergeladenen Webseiten zu sauber codierten XML-Dokumenten kommt, wird es schwierig. Ein nahe liegender Weg, den ich z. B. in meinem Aufsatz “Skandalisierung korpuslinguistisch: Eine empirisch-linguistischer Blick auf die Berichterstattung zur ‘Wulff-Affäre’” (Linguistik Online 61, 4/2013) beschreibe, geht so (für Unix-Systeme, Mac):

  1. Mit wget oder curl werden die HTML-Seiten auf den eigenen Rechner geladen.
  2. Konvertierung der HTML-Seiten nach XHTML, z.B. mittels TagSoup, einem in Java programmierten XML-Parser, der auch mit nicht validem HTML zurecht kommt.
  3. Extraktion der gewünschten Daten aus den XHTML-Dateien mit einem XSL-Stylesheet. So können der eigentliche Artikel-Text (ohne Navigation etc.) und die Metadaten (Titel, Publikationsdatum, Autor/in etc.) extrahiert werden.

Dieser Weg funktioniert besonders dann gut, wenn man eine Serie von gleich strukturierten Webseiten herunterladen möchte, z.B. Web-Foren, Online-Zeitungen etc. Etwas flexibler (und in den Funktionen mächtiger) ist z.B. der Web-Crawler Heritrix, der jedoch auch nochmals schwieriger zu bedienen ist.

Doch was ist der gangbare Weg für Linguistinnen und Linguisten, die keine Lust haben, sich in die Tiefen der XML-Verarbeitung mit XSLT, XPath etc. zu begeben? Eine mögliche Alternative, an der ich arbeite, ist:

  1. Download der Daten mit einen Tool wie dem Firefox-Plugin DownThemAll.
  2. Import der HTML-Dokumente in BaseX, einem XML-Datenbankprogramm, das auch Konvertierung der HTML-Dateien in XHTML erledigt. In BaseX kann man dann relativ intuitiv die XPath-Ausdrücke zusammenbauen, die notwendig sind, um die relevanten Textstellen aus den XHTML-Dateien zu finden.
  3. Danach muss jedoch trotzdem ein XSLT-Stylesheet erstellt werden – soll/kann man Studierende der Linguistik in die Grundregeln von XSLT einführen?

Es handelt sich also noch um eine offene Baustelle und Anregungen dazu sind sehr willkommen! Diese Seite aus meinem Online-Handbuch zur Korpuslinguistik führt wenigstens schon mal (hoffentlich auch für Laien verständlich) in XML für die Korpuslinguistik ein.

Update vom 23. Januar 2014: Inzwischen habe ich einen Weg von HTML zu XML in meinem Online-Handbuch beschrieben. Um XSLT kommt man nicht herum, aber ich hoffe, es verständlich beschrieben zu haben. Zudem habe ich dargestellt, wie man mit geschickter Anwendung von Regulären Ausdrücken von einer strukturierten Text-Datei zu XML kommt.

Veröffentlicht unter Korpuslinguistik, Korpustools | Verschlagwortet mit , , , , , , , , , , | Kommentare deaktiviert für Vom Download zum XML-Korpus: Gangbare Wege für die Lehre