Das Weltbild des Wissenschaftsjournalismus

Der Wissenschaftsjournalismus hat sich in den letzten Jahrzehnten stark gewandelt. Während früher Zeitungen berichteten, dass “Forscher in den USA gezeigt haben, dass…”, wird heute ein differenzierteres Bild der Wissenschaft gezeichnet: In der Wissenschaft gibt es keine einheitliche Meinung zu einem Problem, da unterschiedliche Theorien und Modelle in Konkurrenz zueinander stehen (Konfliktualität) und wissenschaftliche Erkenntnis immer nur vorläufig ist (Fragilität). Siehe dazu auch den Beitrag meines Kollegen Scharloth.

In Spiegel-Artikeln zu wissenschaftlichen Themen genannte Orte und Regionen: 1947-1960.

In Spiegel-Artikeln zu wissenschaftlichen Themen genannte Orte und Regionen: 1947-1960.

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Methoden | Verschlagwortet mit , , , , | Hinterlasse einen Kommentar

Die Semantik von “Terrorismus”: LDA Topic Modelling

Was meinen wir eigentlich, wenn wir von “Terrorismus” sprechen? 9/11? Der “Deutsche Herbst” von 1977? Oder München 1972? Die Bedeutung von “Terrorismus” ist breit und vor allem an bestimmte Diskurse gebunden. 1972 versteht man etwas anderes unter Terrorismus als heute.

Inspiriert von einem Beitrag von Rohrdantz et al. (2012) wollte ich ausprobieren, ob die Veränderung der Bedeutung eines Wortes über ein Verfahren der automatischen Textklassifikation (LDA, Latent Dirichlet Allocation) anhand des Spiegel-Korpus beantwortet werden kann. Das hier kam dabei raus:

Terrorismus

Was ich genau gemacht habe, erkläre ich im Folgenden.

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Methoden | Verschlagwortet mit , , , | 1 Kommentar

Die typische Bergtour

Als Korpuslinguist kann ich mit Hilfe des Text+Berg-Korpus der alpinistischen Periodika des Schweizer Alpenclubs von 1864 bis heute mal eine empirisch fundierte Geschichte erzählen: Die typische Bergtour. So sieht sie aus (Klick für zoombare SVG-Datei):

Bildschirmfoto 2013-02-21 um 20.46.26

Weiterlesen

Veröffentlicht unter Korpora, Korpuslinguistik, Korpustools, Methoden, Sprechtakel | Verschlagwortet mit , , , , , | Hinterlasse einen Kommentar

Diachrone Analysen: Verlaufskurven clustern

Ein halbes Jahr schlief das Sprechtakel – das tut mir leid. Die Gründe drücken die Kollokatoren zu “Familie” aus:

-2 2 6210 Beruf Vereinbarkeit 413 60% die Vereinbarkeit
[von] Familie [und] Beruf

Bzw. zu “Job“:

-1 -1 24466 neuen 4356 74% einen neuen [...] Job

Aber jetzt bin ich wieder da. Und berichte über die Möglichkeit, in diachroner Perspektive ko-variierende Lexeme zu entdecken.

Cluster kovariierender Lexeme

Abbildung 1: Cluster kovariierender Lexeme

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Methoden | Kommentare deaktiviert

Statistische Analysen von Korpora: Mit R direkt auf die CWB zugreifen

Ich bin etwas stolz auf die folgende Grafik:

Die typischen Personalpronomen in Pressetexten (sueddeutsche.de und bild.de) über Wulff und Merkel

Allerdings nicht, weil sie besonders schön aussehen würde oder weil der Inhalt sehr überraschend wäre, sondern weil sie methodisch elegant erstellt wurde. Nämlich in R unter direktem Zugriff auf die Corpus Workbench. Allerdings ist der Weg dahin doch etwas umständlich.

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Korpustools | Verschlagwortet mit , , , , | Kommentare deaktiviert

LDA-Toolkit: Korpusanalyse zum Klicken statt Tippen

Korpuslinguistische Analysen begnügen sich heute nicht mehr damit, bloß Belege für ein bestimmtes Phänomen in einem bestehenden Korpus zu suchen. Vielmehr möchte man eigene Korpora aufbauen und avanciertere Analysemethoden anwenden:

  • Automatisches Wortarten-Tagging der Daten
  • Keyword-Analysen durch Vergleich mehrerer Korpora miteinander
  • n-Gramm/Cluster-Analysen, um typische Floskeln zu finden
  • …und vieles mehr

Für fast alle Wünsche gibt es inzwischen Tools, die allerdings meistens Programmierkenntnisse oder zumindest keine Scheu vor der Shell erfordern. Nicht alle Forscher/innen bringen dies mit oder interessieren sich dafür. Hier setzt Friedemann Vogels “LDA-Toolkit” an, die “Korpuslinguistische Arbeitsumgebung für linguistische Diskurs- und Imageanalysen”.

Damit lassen sich die oben genannten Funktionen (und einige mehr) mit wenigen Mausklicks mit eigenen Korpusdaten ausführen. Das Programm läuft unter Windows, ist Freeware und inzwischen in der Beta-Version 2.7 verfügbar. Ich habe es ausprobiert…

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Korpustools | Verschlagwortet mit , , , , , | 1 Kommentar

Wulff’sche Floskeln

Jetzt, da die Bundespräsidentschaft von Christian Wulff zu Ende ist, möchte ich ein paar weitere Ergebnisse der Analysen dieser Affäre präsentieren. Das Thema heute: Floskeln.

Mit einem datengeleiteten Verfahren können die typischen Sprachgebrauchmuster herausgearbeitet werden: Welche sprachlichen Muster sind typisch für den Wulff-Skandal? Als “sprachliches Muster” fassen wir hier Kombinationen von Wörtern und Wortarten, also z.B.:

in/APPR PPOSAT NN als/KOKOM

  • in seiner Zeit als
  • in seine Rolle als
  • in ihrer Laufbahn als

Beispielsweise ist das Muster “in” als Präposition (APPR), gefolgt von einem beliebigen Possesivpronomen (PPOSAT), einem Nomen (NN) und “als” als Konjunktion hoch signifikant für Pressetexte von Bild.de und der Süddeutschen.de in der Zeit der Skandalberichterstattung. Da das Muster etwas abstrakt wirkt, sind darunter noch sprachliche Realisierungen des Muster genannt: “in seiner Zeit als”, “in seiner Rolle als” etc. Davon gibt es natürlich noch einige mehr.

Die folgenden Muster bezeichnen den Skandalgegenstand:

der/ART Kredit-/TRUNC und NN

  • der Kredit- und Urlaubsaffäre
  • der Kredit- und Medienaffäre
  • der Kredit- und Medien-Affäre

 500/CARD 000/CARD NN

  • 500 000 Euro

NN bei/APPR NN NN

  • Anruf bei Bild-Chefredakteur Kai
  • Drohanruf bei Bild-Chefredakteuer Kai
  • Bundespräsidenten bei Bild-Chefredakteur Kai
  • Mailbox-Nachricht bei Bild-Chefredakteur Kai

Wichtig sind Muster, die im Zusammenhang mit dem Enthüllen und Aufarbeiten entstehen:

ADJA NN zu/APPR PPOSAT

  • kritischen Fragen zu seinem
  • engen Bezug zu seinem
  • Nähere Details zu meiner

ADJA NN ans/APPRART NN

  • letzten Tagen ans Licht
  • weitere Details ans Tageslicht

Die folgenden Muster sind Sprechakte des Entschuldigens und Rechtfertigens:

dass/KOUS ADV ein/ART ADJA

  • dass hier ein falscher [Eindruck entstehen konnte]

VAFIN PPER VVINF VMINF

  • hätte ich sagen sollen
  • hätte ich vermeiden können

Das/PDS VMFIN man/PIS VVINF

  • Das kann man schlucken
  • Das muss man verantworten
  • Das kann man erklären

Viele weitere Muster stehen für andere Aspekte der Skandalisierung. Interessant ist jedoch der Zusammenhang von Muster und Anzahl (unterschiedlichen) Realisierungen des Musters. Das Muster dass/KOUS ADV ein/ART ADJA beispielsweise weist nur sehr wenige unterschiedliche Realisierungen auf. Das Verhältnis von Muster (Type) zu Realisierung (Token) ist 33 : 100. Das Muster ADJA NN zu/APPR PPOSAT hingegen weist ein Verhältnis von 7.7 : 100 auf, ist also viel produktiver, führt also zu viel mehr unterschiedlichen Realisierungen.

Gemittelt über alle Muster in den Skandaltexten im Vergleich zu einem Referenzkorpus aus Wulff’schen Nicht-Skandaltexten und Texten zu Angela Merkel im gleichen Zeitraum und der gleichen Zeitungen zeigt nun das folgende Bild:

Im Skandalkorpus liegt der Median aller Muster bei einem Verhältnis von 20:100 (dicker Querbalken), der Durchschnitt bei etwa 30:100. Im Referenzkorpus allerdings bei etwa 2:100. Das bedeutet: In Skandalzeiten wird viel floskelhafter geschrieben als sonst. Das mag an Folgendem liegen:

  • Statements der Skandalisierten, O-Töne, werden stärker als sonst zitiert.
  • Es gibt typische Sprachfloskeln der Skandalisierung.
  • Die Skandalisierer schießen sich auf Sachverhalte ein, die immer und immer wieder vorgebracht werden.

Wulff konnte sich nicht im Amt halten; die Hoffnung, dass “dieses Stahlgewitter bald vorbei ist“, hat sich nicht erfüllt.

Veröffentlicht unter Korpora, Korpuslinguistik, Sprechtakel | Verschlagwortet mit , , , | Kommentare deaktiviert

Skandalisierung: Berichterstattung zu Wulff

Die Skandale um Bundespräsident Christian Wulff sind ein wunderbares Untersuchungsobjekt für die Linguistik. Genauer: Die Berichterstattung darüber. Wie wird ein Skandal sprachlich konstruiert?

Um dies zu untersuchen habe ich ein kleines Korpus aller Artikel zu “Wulff”, die auf Bild.de und Sueddeutsche.de erschienen sind, zusammengestellt. Das Korpus umfasst gut 2 Mio. Wörter und verteilt sich wie folgt:

Wörter Artikel Wörter/Artikel
Bild.de 907.176  2551 356
Sueddeutsche.de 1.201.773 1519 791

Nicht weiter überraschend: Bild-Artikel sind im Schnitt etwa halb so lang wie Artikel der Süddeutschen Zeitung. Interessanter ist nun das Folgende: Ein Indikator dafür, ob etwas positiv, neutral oder negativ dargestellt wird, sind Adjektive. Deshalb habe ich in den Texten alle Adjektive extrahiert, die vor “Bundespräsident” erscheinen. Dabei ist folgende Grafik entstanden:

 

Man sieht in der Grafik, wann von welcher Zeitung welche Adjektive verwendet wurden. Auf der gleichen horizontalen Linie erscheint immer das gleiche Adjektiv (darunter auch solche, die vom Tagger fälschlicherweise als Adjektiv klassifiziert wurden), wobei ersichtlich wird, zu welchen Zeitpunkten besonders viele Adjektive verwendet werden. Im Detail:

  • Um die Zeitpunkte der Wahl des Bundespräsidenten (30. Juni 2010) und nach dem ersten Bild-Bericht über Wulffs Hauskredit (13. Dezember 2011) häufen sich die verwendeten Adjektive bei beiden Zeitungen.
  • Zwischen diesen Zeitpunkten sind vor allem rot eingefärbte Adjektive zu erkennen, also solche, die in Bild-Berichten erschienen. Diese Zeitung berichtete kontinuierlicher über Wulff als die Süddeutsche.
  • Die Art der verwendeten Adjektive ändert sich: Um die Wahl herum ist vor allem vom “neuen Bundespräsidenten” die Rede, die Bild verwendet “jung”, “deutsch”, “jetzig”, “damalig”/”ehemalig” (nicht auf Wulff bezogen) etc. bis zum Kredit-Artikel hin. Ab dann ändert sich das Bild und es sind viel mehr negativ konnotierte Adjektive sichtbar: “lausig”, “tolpatschig”, “gebeutelt”, “böse” (Bild), “umstritten”, “schlecht”, “reumütig”, “bedrängt” (Süddeutsche) etc.
  • Die Anzahl der unterschiedlichen Adjektive ist seit dem Bild-Kreditbericht größer als noch bei der Wahl: Der Skandal bedeutet, dass weniger uniform über Wulff geschrieben wird; nach der Wahl scheint – zumindest gemessen an den Adjektiven – die Berichterstattung weniger emotional und etwas eintöniger gewesen zu sein. Jetzt ist sie emotionaler und adjektivfreudiger.
(Kleines Update: Grafik ohne Beschriftung der y-Achse; erster Absatz: Skandale werden natürlich konstruiert und sind nicht einfach da…)
Veröffentlicht unter Korpora, Korpuslinguistik, Sprechtakel | Verschlagwortet mit , , , , | Kommentare deaktiviert

Die Karte im Kopf: Über welche Orte schreiben wir?

Gerade bin ich auf eine Arbeit von Mark Graham gestoßen: Mapping Wikipedia’s augmentations of our planet. Er liest die Geotags von Wikipedia-Artikeln aus, um dann auf Karten darzustellen, welche Orte in der Wikipedia thematisiert werden. Wenn man die englischsprachige mit anderssprachigen Wikipedias vergleicht, sieht man erwartungsgemäß deutliche Unterschiede der erwähnten Orte.

Ein ähnliches Experiment führte ich im Rahmen meiner Diss durch, wo ich ein Korpus von Artikeln der Neuen Zürcher Zeitung der Jahre 1995 bis 2005 korpuslinguistisch auswertete. In einem Teilprojekt stellte ich die darin erwähnten Orte (Städte, Länder, Kontinente) auf Karten dar, um sozusagen die mentale Karte der Leserinnen und Leser der Zeitung zu ergründen:

Geografische Entitäten im NZZ-Korpus (Neue Zürcher Zeitung)

Geografische Entitäten im NZZ-Korpus (Neue Zürcher Zeitung), Bubenhofer 2009: http://www.bubenhofer.com/korpusanalyse/Karte/karteL.html

Die Karte ist interaktiv und man kann die Darstellung nach Ressort (Ausland, Inland, Wirtschaft etc.) und Publikationsjahr differenzieren. Zudem ist oft nicht die absolute Frequenz der Erwähnungen der Orte interessant, sondern ein Variationskoeffizient: Über welche Orte wird gleichmäßig über alle Jahre berichtet und über welche nur sporadisch, dann dafür besonders oft?

Noch interessanter als die Darstellung der Orte, über die berichtet wird, sind die Verwendung von ethnischen Bezeichnungen und Nationalitäten: Schweizer, Deutsche, Italiener, Jugoslawen etc. In der NZZ werden im Auslandsressort in Europa von 1995 bis 2005 im untersuchten Korpus hauptsächlich Schweizer, Deutsche, Polen, Ungaren, Serben und Engländer genannt (jeweils inkl. weibliche Formen). Die größten Variationskoeffizienten weisen aber die Nennung der Niederländer, Rumänen, Kroaten und Serben auf. Es handelt sich, so die These, hierbei um Nationalitäten, die in der Wahrnehmung der Schweiz problematisiert werden, da sie nur punktuell, dann aber umfassend, Thema der Berichterstattung sind.

Hier die Links zu den Karten:

Vgl. dazu: Bubenhofer, Noah (2009): Sprachgebrauchsmuster. Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. (= Sprache und Wissen 4), Berlin/New York: De Gruyer.

Veröffentlicht unter Korpora, Korpuslinguistik, Sprechtakel | Verschlagwortet mit , , | Kommentare deaktiviert

Sprechen über Berge

Das Text+Berg-Korpus eignet sich vorzüglich zu linguistische Studien für Liebhaberinnen und Liebhaber der Berge. Denn es enthält alle von 1864 bis 2009 erschienenen Jahrbücher und Alpen-Zeitschriften des Schweizer Alpenclubs: 196 Bände, knapp 36 Mio. Wörter in digitaler Form korpuslinguistisch aufbereitet.

So kann man beispielsweise fragen, wie sich das Sprechen über Berge von 1864 bis heute verändert hat: Welches Vokabular wird in Berichten über das Bergsteigen verwendet? Welche Funktionen hat das Bergsteigen für den mentalen Haushalt der Gesellschaft?

Zu Beginn bloß eine kleine Illustration zum typischen Vokabular, das in den 1960er und 70er-Jahre verwendet wird im Vergleich zum Vokabular in den 1990er und 2000er-Jahren:

Typische Wörter in den SAC-Jahrbüchern der 1960er und 70er-Jahre

Typische Wörter in den SAC-Jahrbüchern der 1960er und 70er-Jahre

Man kann der Wortwolke entnehmen, dass Personalpronomen (“ich”, “wir”) ganz wichtig sind, sich viel um die “Kameraden” und die “Freunde” dreht und damit das Gemeinschaftserlebnis Bergbesteigung inszeniert wird. Die Schönheit der Natur mit “Himmel”, “Sonne”, “Schnee” und “Gletscher” wird überschwänglich geschildert: “herrlich”, “prächtig” ist das alles. Auffallend sind viele Verben, die ein Hinweis darauf sind, dass in diesen Büchern in erster Linie Geschichten erzählt werden (wie weitere Studien bestätigen).

Typische Wörter in den SAC-Jahrbüchern der 1990er und 2000er-Jahre

Typische Wörter in den SAC-Jahrbüchern der 1990er und 2000er-Jahre

Ganz anders sieht es in den 1990er und 2000er-Jahren aus: Der “Sport” und der “Wettkampf” finden Eingang in das Betätigungsfeld in den Bergen und die Publikation des SAC erzählt weniger Geschichten und Erlebnisse aus persönlicher Perspektive, sondern ist ein Service-Heft das über Touren informiert.

Doch Wortwolken sind nur der Anfang der Analysen. Mehr folgt.

Veröffentlicht unter Korpora, Korpuslinguistik, Sprechtakel | Verschlagwortet mit , , , | Kommentare deaktiviert