Word Embeddings

Diskurslinguistische Perspektiven auf distributionelle Semantik

Noah Bubenhofer (Universität Zürich)

Berlin, BBAW, 11. Oktober 2019

Korpuspragmatik – und warum Word Embeddings interessant sind

Linguistische Diskurs- und Kulturanalyse, Korpuspragmatik

Sprachgebrauch

[…] ich gehe von der These aus, dass Musterbildungen im Sprachgebrauch einen wichtigen ‚Ort‘ der Verschränkung von Kultur und Sprache und damit eines der zentralen Objekte einer kulturanalytischen Linguistik darstellen. […]

Linke, Angelika (2011): Signifikante Muster – Perspektiven einer kulturanalytischen Linguistik. S. 27; Hervorh. NB.

Sprachgebrauchsmuster

Ich verstehe […] den Musterbegriff sehr weit: Ich fasse darunter nicht nur sowohl strukturell als auch lexikalisch definierte Muster im Sinne von Kollokationen oder festen Wendungen – wie sich amüsiert haben –, sondern auch kollektive Präferenzen für einzelne sprachliche Zeichen, Präferenzen für bestimmte syntaktische oder textuelle Muster sowie Koppelungen von sprachlichen Ausdrucksformen mit bestimmten Situationen und Kontexten.

Linke, Angelika (2011): Signifikante Muster – Perspektiven einer kulturanalytischen Linguistik. S. 39; Hervorh. NB. Vgl. auch Bubenhofer, Noah (2009): Sprachgebrauchsmuster. Korpuslinguistik als Methode der Diskurs- und Kulturanalyse.

Elemente einer Korpuspragmatik

  • Pragmatische Wende: Idiomatische Prägungen als Resultat von Konventionalisierungen von Interpretationen, die diese Konventionalisierungen ausdrucksseitig widerspiegeln (Feilke 2003)
  • Data-Driven Turn: Datengeleitete Korpusanalysen zur Generierung von Hypothesen (Teubert 2005, Bubenhofer 2009)

Feilke, Helmuth (2003): Textroutine, Textsemantik und sprachliches Wissen. In: Linke, A. et al., S. 209–230.
Teubert, Wolfgang (2005): My Version of Corpus Linguistics (International Journal of Corpus Linguistics, 10): p. 4.
Bubenhofer (2009): Sprachgebrauchsmuster. Korpuslinguistik als Methode der Diskurs- und Kulturanalyse.

Word Embeddings: Eine alte linguistische Theorie im neuen technischen Gewand

Kollokationen

Kollokationen

„You shall know a word by the company it keeps.“ (Firth 1957)

Kollokationen

Was bedeutet Synonymie?

Idee: Distanz zwischen Kollokationsprofilen messen.

Word Embeddings

weißTürGefühlessenGartenfahrenZuggrün
Schnee2512201102251
Berge28810031159
Haus15282122101
Bahnhof1964126300

100.000 Wörter (Types), 100 Dimensionen

(Mikolov et al. 2013)

Vektorraum

Anwendungsbeispiel "Geburtsberichte"

Geburt – Narrative Muster

Wir freuten uns – endlich waren wir auf der Zielgeraten. Die ersten 2 Presswehen waren noch gut zu meistern, ich merkte deutlich den Erfolg des Pressens und durfte auch schon das Köpfchen mit den Fingerspitzen berühren – herrlich!!! Dann wurde es schmerzhaft und ich dachte mir zerreißt es das Becken … aber nach der 3. Presswehe war der Kopf endlich draußen und mit der 4. Presswehe wurden dann auch die Schultern "rausgedrückt" – wobei ich gerissen bin – was ich auch deutlich gespürt habe … Zum Glück war es dann aber auch schon geschafft und ich blickte auf dieses winzige schreiende Menschlein und musste sofort weinen … es war ein sooo emotionaler Moment – unglaublich! Luisa begann nach wenigen Sekunden schon nach der Brust zu suchen … wir mussten sooo lachen – ein kleiner süßer Fresssack. Meine 2. Tochter – ein weiteres Wunder … endlich war sie da und sie wurde mir sofort auf den Bauch gelegt! Sie macht sofort die Augen auf und sah mich an … ein unvergesslicher Moment, so friedlich, vollkommen und einmalig und ein Ebenbild von Pauline!!!

N., 2011-09-03, http://www.babyforum.de

Geburten

22670den Zugang Schmerzmittel bekommen-->mir wurd schwindelig und total heiß . Einmalig . Hebi war immer mal wieder weg , da sie
79037im Zimmer. . und wir konnten ENDLICH und UNGESTÖRT dieses einmalige und wunderschöne Glück geniessen ! ! ! ! Und wenn
89490am 29.08.2013 um 16:25 Uhr auf die Welt . Ein einmaliges und wunderbares Erlebnis ! am 03. Mai setzen abend die
181908mich eine sehr , sehr wichtige Erfahrung , die sicherlich einmalig ist und die ich nie vergessen werde . Abschließend möchte
695338liefen vor Glück die Tränen ... die Hebamme musste diesen einmaligen Augenblick natürlich auch noch zerstören , in dem sie zu
718169und Kraft zu geben , entschieden wir uns für eine einmalige Gel-Gabe ( lt. ihrer Aussage bringt das Gel bei einmaliger
718179einmalige Gel-Gabe ( lt. ihrer Aussage bringt das Gel bei einmaliger Gabe bei 80 % der Frauen garnichts ) und wenn
758736Vortag wieder ein , bei der ich auf dem Dom einmalig so starken Ausfluss hatte . Man vermutet also , dieses
792075Abnabelung sofort in den Reanimationsraum 18:15 Uhr Nachgeburt kommt nach einmaligem drücken des Arztes auf den Bauch 18:30 Uhr Dammschnitt wird
955188viertel Stunde nochmals angeschlossen um zu schauen ob es ein einmaliger Zwischenfall war . Gesagt getan . Wieder kam die erste
1246530ja. . ich vermisse sie schon wieder . Bis auf einmalige unerklärliche Schmerzen in der 16. SSW gab es keine großen
1336724wirklich zu ertragen ( auch ohne PDA ) und ein einmalig überwältigendes Erlebnis ! ! Ich wünsche den Kugelbäuchen unter Euch
1446970in mir , wenn er sich drehte oder bewegte – einmalig und wunderschön . Ich versuchte , jeden Moment bewusst zu
1446997zu vergessen , denn so eine Schwangerschaft ist eine sehr einmalige Zeit , die ( im Nachhinein ) schnell vorbei ist
1462325nur das Ergebnis und das ist einfach nur wunderschön und einmalig ! Am 30.09 . hatte ich morgens einen Termin bei
1828210nicht beschreiben , was ich gefühlt habe . Es ist einmalig und lässt sich nicht in Worte fassen . Mein kleiner
1828225in Worte fassen . Mein kleiner perfekter Junge , so einmalig und wunderschön . Er schrie nicht großartig , sondern schaute
1858300… ein unvergesslicher Moment , so friedlich , vollkommen und einmalig und ein Ebenbild von Pauline ! ! ! Ich hätte
2228515miteinander zu vergleichen . Hierzu suchen wir Frauen für ein einmaliges qualitatives Interview , die in den 1970er Jahren geboren haben
2307358Hallo , habe die Geburt meines Sohnes als einmaligesEreignis erlebt und verstehe jetzt auch , was Mütter meinen
2458582" immer noch Gänsehaut und Tränen ... so wunderbar und einmalig ... ein Geschenk ! Mein Tipp an alle Erstgebärenden ...
2589838schlief ich erschöpft recht rasch wieder ein , um dieses einmalige Erlebnis zu verarbeiten . Am Nachmittag bekam ich schon Besuch
2602523gebären am angenehmsten ! Es war ein wundervolles , atemberaubendes einmaliges und recht schmerzhaftes Wunder , dass ich nicht mehr missen
2748368) und die Hebamme hat mir für das wunderbare , einmalige Erlebnis gedankt . Ein Blick auf die Uhr hat mir
2974082zu hause mein lieber niklas , deine geburt war ein einmaliges , wunderschönes erlebnis . nahezu schmerzlos ! wie ein fisch
3001636, mir nie von der Seite gewichen ist , das einmalige Erlebnis mit mir geteilt hat und mir die ganze Zeit
3220999warte . Ungefähr vier Stunden später entleert sich mein Darm einmalig , aber sonst passiert nichts . Ich gehe enttäuscht schlafen
3307792und mich nicht zu sehr verkrampfte . Er war wirklich einmalig und mir eine große große Hilfe . Ich bin so
3307833, ob ER es durchstehen wird . Er war einfach einmalig . Es dauerte nochmal eine Ewigkeit bis es neun Uhr
3430890draußen war , dann als das restliche nachglitt . Einfach einmalig schön ! ! ! So , das wars - danke
3466242, den Bericht ins Netz zu stellen Jede Geburt ist einmalig und für immer im Herzen gespeichert . Lucia MEINE GEBURT
3522560halten zu dürfen , und dieses BAd war wirklich ein einmaliges Erlebnis ! Brigitte blieb dann noch ca. 2h bei uns
3631780Sie hat sofort zu saugen begonnen , das war ein einmaliges Gefühl und ich fühlte endlich etwas Nähe , was mir
3671594in unser Herz eingraviert , und zudem hat uns diese einmalige Grenzerfahrung einen Schritt einander nähergebracht . Tim wir sind so
3747521das gab mir die letzte benötigte kraft es war ein einmaliges Erlebnis ich musste auch gar nicht pressen der kleine kam
3760635die Augen auf , - und ja ... . ein einmaliges Erlebnis so was zu sehen ... " hey , ich
3845033habe ich in wirklich schöner Erinnerung , die Betreuung war einmalig gut und hat mir so viel Gutes auf den Weg
4020739Zeit der Welt , uns kennenzulernen . Ich genoss diesen einmaligen Augenblick in vollen Zügen und fühlte mich schnell wieder besser
4115975und auchdieses Mal überkam mich wieder dieses unbeschreibliche und absolut einmalige Glücksgefühl , welches mir heute noch Tränen in die Augen
4131059! Vielen Dank kleiner Mann , dass ich so etwas einmalig schönes erleben durfte . Wenn das erste Kind 12 Tage
4171939StimmeNiemand hat dein GesichtNiemand ist wie duNiemand - weil du einmalig bist ! In Liebe , Mami Weil es mich irgendwie
4187993. Die ganze Geburt war für mich ein schmerzhaftes aber einmaliges Erlebnis , dass ich nie vergessen werde und als sehr
4285556keine binde eingelegt . denn ich dachte das war ein einmaliger " gutsch " . als wir dann vor dem spital
4324860Geburt war für mich sehr schmerzhaft , aber dennoch ein einmaliges und unvergessliches Erlebnis , welches ich in positiver Erinnerung behalten
4351214. Ich durfte meine zweite Traumgeburt erleben und werde dieses einmalige Erlebnis nie im Leben vergessen . Unser kleiner Prinz wog
4772626, damit ich sie betrachten und küssen konnte . Ein einmaliger , wunderschöner Augenblick ! Die Kleine hatte auch schon die
4926072Alles entwickelte sich immer besser . Und das alles nach einmalig Arnica , die ich ihm zwei Tage nach der Geburt
5194762Lea=2 Stunden pressen Noah=6 Minuten pressen ) aber trotzdem ein einmaliges Erlebnis was mit Heike und Holger abgerundet wurde ! Gegen
5224477. Wie bitte ? Keine Ahnung . Sie katheterisierten mich einmalig , was wohl etwas brachte . Irgendwann gewann mein Körper
5259298mir auf die Brust legen . Das war ein so einmaliger Moment , einfach unbeschreiblich ! Einen Moment bin ich noch
5385880. Inzwischen haben wir eine neue Hebamme , sie ist einmalige spitze . Ich weine und fluche , teile immer wieder
5449896habe . Das Team im KH war auch supper und einmalig . Wir waren nur 1 Tag im KH , wei
5494286hätte , hätte ich nicht so schreckliche Angst vor diesem einmaligen Erlebnis haben müssen stolze Jane mit ihrem süßen Apfelsinchen Alles
5609114war ich Verletzungsfrei . Die Geburt war ein unglaubliches , einmaliges und unvergessliches Erlebnis . Möchte es nicht missen , und
5625072Gefühl , wenn man es geschafft hat , ist einfach einmalig ! ! LG Sabine und Schnuckelchen Emma ( 20 Tage
6112391Armen , habe sie bestaunt und mir diesen wunderbaren und einmaligen Moment für den Rest meines Lebens eingeprägt . Patrizia –
6139355die Welt bringen durfte ! ! Es ist einfach eine einmalige Erfahrung die ich / wir da machen durften Hier seine
6200901Geburt 3.650g , 49cm , 37cm KU Das war ein einmalige Erlebnis und obwohl das schmerzhaft war will ich es nicht

Der typische Geburtsbericht in Fragmenten

An diesem Tag hatte ich… → …, dass es endlich losgeht → ich hatte das Gefühl, dass… → Mein Mann und ich waren… → war mich sicher, dass… → auf den Weg in die… → Ich sagte ihr, dass… → so heftig, dass ich… → fühlte sich an, als → war ich fix und fertig → Ich hatte das Gefühl, → dass es nicht mehr lange… → ich dachte, ich muss… → , aber es ging nicht → , was das Zeug hielt → dann ging alles ganz schnell → Ich weiß nur noch… → um 16:38 war es → ich konnte es nicht glauben → ich war so froh… → , dass es vorbei war → ich hätte nie gedacht, → und ich muss sagen, → Für mich war es eine… → noch vor sich haben…

Korpus

Forum          # Wörter     # Texte
http://www.urbia.de/7.364.1088808
http://www.babyforum.de/2.089.9361824
http://www.parents.at/1.199.1741647
https://www.swissmomforum.ch/1.156.193919
http://www.eltern.de/438.017716
http://www.umstandsforum.de/289.807568
Total12.537.23514.482

Forschungsfragen

  • Inhaltlich | Geburtsberichte als Teil des Geburtsdiskurses: Typische Topoi und narrative Muster
  • Methodisch | Datengeleitete Korpusanalyse zur Freilegung narrativer Muster

Bubenhofer, Noah (im Druck): Semantische Äquivalenz in Geburtserzählungen: Anwendung von Word Embeddings. In: Zeitschrift für Germanistische Linguistik.
Bubenhofer, Noah (2018): Serialität der Singularität: Korpusanalyse narrativer Muster in Geburtsberichten. In: LiLi Zeitschrift für Literaturwissenschaft und Linguistik. DOI: 10.1007/s41244-018-0096-4.

Kulturelle Praxis des Erzählens einer Geburt
(aus Sicht der Mutter)

Akteure, Handlungen, Bewertungen, Werte

Methoden: Keywords, n-Gramme (Mehrworteinheiten), Topic Modeling, Word Embeddings
Material: Serielle Texte, durchsetzt von Sprachgebrauchsmustern

Erkenntnisse über die Folie für die Produktion von Geburtsberichten – kulturspezifische Ausprägungen von Narration zur Alltagserfahrung Geburt → "sprachliche Praktiken" (Habscheid 2016)

Typische Ketten von Sprachgebrauchsmustern

Ziel: Berechnung der typischen Sequenzen von komplexen n-Grammen in den Geburtsberichten

  • Berechnung der komplexen n-Gramme, die typisch für die Geburtsberichte sind (Referenzkorpus Spiegel/Zeit)
  • Kollokationsanalyse: Typische rechte n-Gramme zu jedem n-Gramm
  • Visualisierung als interaktiver Netzwerk-Graph

→ musterhafte sprachliche Sequenzen als Indikatoren für kulturelle Praktiken

Bubenhofer / Müller / Scharloth 2013; Affolter 2016 (MA-Arbeit)

Alternative Visualisierung

Variation der Geschichten

Beispiele

Wehe: anrollen (0.7714179754257202), Hammerwehe (0.7110541462898254), wehe. (0.6944172978401184), Wehe. (0.6870291829109192), Wehenpause (0.6566441059112549), Nächste (0.6404309868812561), Welle (0.6262998580932617), Preßwehe (0.6261609792709351), Ausatmen (0.617641270160675), weglegen (0.6134337186813354)

Schmerz: Wehenschmerz (0.8821748495101929), schmerzen (0.746356725692749), Schmerzen. (0.7165833115577698), Dauerschmerz (0.6974124908447266), Bewegungsdrang (0.6873125433921814), wehenschmerz (0.6761729717254639), schmerzen. (0.6695544123649597), Geburtsschmerz (0.6639039516448975), Wehenspitzen (0.6634974479675293), Rückenwehen (0.6496166586875916)

Beispiele

Kind: Baby (0.8563555479049683), Tochter (0.7126445770263672), Sohn (0.6942390203475952), Kleine (0.6648626327514648), Zwilling (0.6449035406112671), Kindlein (0.6330938935279846), Zwerg (0.6289287805557251), Maus (0.6128379106521606), Butzi (0.6042927503585815), Babies (0.60008704662323)

weil: deswegen (0.7363709211349487), sodass (0.6999390125274658), da (0.6969295740127563), außerdem (0.6948705911636353), deshalb (0.6797378063201904), zumal (0.6710671782493591), obwohl (0.6692008376121521), nämlich (0.6597287654876709), aber (0.6589906811714172), daher (0.6349456310272217)

extrem: immens (0.7714534997940063), enorm (0.7656272053718567), ziemlich (0.7187795639038086), wahnsinnig (0.707932710647583), derb (0.7021247744560242), sehr (0.6977962255477905), Rippenschmerzen (0.696819543838501), paaren (0.694392204284668), mörderisch (0.6901798248291016), massiv (0.6896220445632935)

Clustering des Vektorraums

Fragestellung: Gliederung des semantischen Raumes? Semantisch ähnliche Ausdrücke finden. Clustering:

  • Vektorraum: 16.218 Types
  • Ziel: 2000 Cluster (durchschnittlich 8 Wörter pro Cluster)
  • K-means-Algorithmus
  • pro Cluster wird der Zentroid berechnet und die drei nächsten Wörter als Label ausgegeben

Beispiel Cluster

Cluster ID 244:

Aerztin, Arzt, Assistenzarzt, Assistenzärztin, Chefarzt, Chefärztin, Doc, OA, Oberarzt, Oberärztin, OÄ, Ärtzin, Ärztin

Label (mit Distanz zum Zentroid): Oberarzt (0.9604488611221313), Ärztin (0.9517141580581665), Oberärztin (0.9398374557495117)

Beispiel Cluster

Cluster ID 248:

Durchatmen, Dösen, Einschlafen, Hyperventilieren, Ruhepause, Sekundenschlaf, hindurch, immerwieder, manchmal, rauben, sogar, totmüde, wegdösen, weggedämmert, weggedöst, weggenickt, zeitweise, zwischen

Label (mit Distanz zum Zentroid): wegdösen (0.9144155979156494), weggedämmert (0.9106881022453308), Sekundenschlaf (0.8776345252990723)

Clustering des Vektorraums

Fragestellung: Gliederung des semantischen Raumes? Semantisch ähnliche Ausdrücke finden. Clustering:

  • Vektorraum: 16.218 Types
  • Ziel: 2000 Cluster (durchschnittlich 8 Wörter pro Cluster)
  • K-means-Algorithmus
  • pro Cluster wird der Zentroid berechnet und die drei nächsten Wörter als Label ausgegeben
  • Verteilung der Cluster über die Geschichten: Durchschnittliche Positionen

Word Embeddings, Cluster

Word Embeddings, Cluster

Word Embeddings, Cluster

Word Embeddings, Cluster

Word Embeddings, Cluster

Zwischenfazit

  • Word Embedding-Modelle können strukturalistisch als semantische Repräsentationen von Sprache angesehen werden: semantische Relationen als ähnliche Kontexte/Positionen im Vektorraum.
  • Aber: klassische semantische Relationen wie Synonymie, Hyperonmyie, Hyponymie und Antonymie sind schwer unterscheidbar.
  • Ist das ein Mangel der Methode?
  • Oder zeigt es, dass diese semantischen Räume eher als diskursiv geprägte funktionale Äquivalenzen aufgefasst werden müssten?

Beispiel Rechtspopulismus

Forschungsfragen

Im Zentrum der Studie steht die Frage, ob – und falls ja welche – gebrauchssemantischen Unterschiede zwischen rechtspopulistischen Online-Medientexten und Online-Medientexten ausgewählter „Orientierungsmedien“ (Weischenberg/Malik/Scholl 2006, 359) bestehen und wie diese als Politisierung von Wörtern erschlossen, analysiert und bewertet werden können.

Bubenhofer, Noah/Calleri, Selena/Dreesen, Philipp (2019): Politisierung in rechtspopulistischen Medien: Wortschatzanalyse und Word Embeddings. In: OBST. Osnabrücker Beiträge zur Sprachtheorie, Nr. 95, 211-242.

Daten

PINES-Korpus

Tokens Texte
PI-NEWS 9.988.890 18.296
COMPACT Online 4.033.358 5.374
Total 14.022.248 23.670

Referenzkorpora

Tokens Texte
Swiss-AL ca. 500 Mio. ca. 2 Mio.
ORIENT: Spiegel/Bild/Zeit 186.139.003 611.342

Singulärer Wortschatz PINES

nur in PINES gebrauchtes Wort# Fortsetzung#
moslemisch1336 Umma121
Mohammedaner674 Linksfaschist121
Islamzentrum445 Djihad118
Asylforderer462 Merkel-Regime113
mohammedanisch253 Lügenmedien111
MUFL245 Systemmedien110
Mainstreammedien240 Strauß-Tochter109
Herrenmensch214 Moslemin106
National-Sozialismus208 links-grün106
Asylindustrie208 Burkei105
Journaille200 Islam-Aufklärung105
Islam-Aufklärer188 Mainstreampresse101
Antifanten152 Hadithen99
Linksverdrehten148 DITIB-Moschee94
Rotgrün143 Volksaustausch92
National-Sozialist142 kulturfremd90
Konformistenpresse132 rechtgläubig90
Straßenräuber131 EUdSSR89
Nicht-Moslem126 terrorunterstützenden88
Globalismus126 Großmoschee88
Rechtgläubige124 Systempresse84

Vergleich Word Embbeddings

Swiss-ALPINES
Europa Westeuropa 0.84, Deutschland 0.81, europäisch 0.79, Welt 0.76, Frankreich 0.75, Vorzeigeland 0.75, USA 0.75, Land 0.74, portugiesischsprachigen 0.73, westeuropäisch 0.73 Deutschland 0.75, Kontinent 0.72, Westeuropa 0.72, Migrationsstrom 0.68, Deutschlands 0.68, Europäer 0.68, EU 0.67, Massenimmigration 0.67, Eurabien 0.67, Amerika 0.66
Frau Mann 0.92, Geschlechtsgenossin 0.79, Kind 0.76, Mutter 0.76, jung 0.74, Männerkleid 0.73, Geschlechtsgenosse 0.73, Transfrauen 0.72, Katholikin 0.72, Frauenrechtsbewegung 0.72 Mädchen 0.80, Mann 0.79, befummeln 0.70, Ehefrau 0.69, unverschleierte 0.69, belästigt 0.68, Paar|Paaren 0.68, begrapschten 0.68, sexuell 0.68, arrangiert 0.68
Medien Massenmedium 0.80, Internetmedien 0.79, Pressepolitik 0.74, Medienjournalismus 0.73, Alternativmedium 0.73, Nachrichtenportale 0.73, Publikumsmedien 0.73, Nachrichtenquelle 0.73, Kulturberichterstattung 0.73, Öffentlichkeit 0.72 Massenmedium 0.86, Presse 0.82, Mainstream-Medium 0.82, Mainstreammedien 0.80, konformistischen 0.76, Systemmedien 0.76, Leitmedien 0.75, Presselandschaft 0.75, Medienlandschaft 0.74, regierungstreu 0.74
Flüchtling Schutzsuchende 0.91, Migrant 0.90, Kriegsflüchtling 0.86, Syrer 0.85, Bürgerkriegsflüchtling 0.85, Asylsuchende 0.84, Asylbewerber 0.84, Geflüchteten 0.83, Bootsflüchtling 0.83, Auffanglager 0.83 Asylsuchende 0.83, Asylante 0.82, asylsuchend 0.80, Schutzsuchende 0.79, Asylbewerber 0.79, Migranten 0.79, unbegleitete 0.78, unbegleiteten 0.78, Kriegsflüchtling 0.77, Asylforderer 0.77

Beziehungen in Word Embedding-Modellen

Schweiz : Bern = Frankreich : X?

X =
print (model.most_similar(positive=["Frankreich", "Bern"], negative=["Schweiz"]))

[Paris 0.6183302998542786, Belgien 0.6035687923431396, Lyon 0.6030720472335815, Lille 0.6008703112602234, Schweden 0.5985360741615295, Rouen 0.5969228744506836, Marseille 0.5956765413284302, Turku 0.5817413330078125, Prag 0.5802628993988037, Riga 0.5753870010375977]

Beziehungen in Word Embedding-Modellen

Swiss-ALPINES
gesagt : sagte = gemeint : ? meinte 0.74, lächelte 0.71, kommentierte 0.71, murmelte 0.71, schnauzte 0.70, entgegnete 0.69 -
Mann : Frau = Chef : ? Chefin 0.79, Personalchef 0.73, stellvertretend 0.72 -
Mann : Frau = Führung : ? Selbstführung 0.68, Beziehungskompetenz 0.66, Aufgabe 0.65 Knute 0.60, Fuchtel 0.599, Inthronisierung 0.59, Vorgängerin 0.59
Merkel : Putin = Demokratie : ? demokratisch 0.74, Oligarchie 0.72, Machtelite 0.71, Staatswesen 0.71, Führerkult 0.70, autokratisch 0.70, Plutokratie 0.70, Apparatschiks 0.70, Rechtstaat 0.70, Macht 0.70 demokratisch 0.60, Rußland 0.60, Westen 0.59, Rußlands 0.57, pluralistisch 0.57, Weltfrieden 0.57, Aussöhnung 0.55, Einmischung 0.55, Nuklearwaffe 0.55, Westen 0.54

Vergleich diskursiv geprägter semantischer Räume

Fragestellung: Wie unterscheiden sich die diskursiv geprägten semantischen Räume von rechtspopulistischen von anderen Medien?

  • Orientierungsmedien-Korpus ORIENT: Zeit, Bild, Spiegel 2013-2018
  • Rechtspopulistisches Medienkorpus PINES: PI News, Compact Online 2013-2018

Vergleich diskursiv geprägter semantischer Räume

Vergleich diskursiv geprägter semantischer Räume

Vergleich diskursiv geprägter semantischer Räume

Ausdrücke, die sowohl in ORIENT als auch in PINES vorkommen, jedoch semantisch sehr unterschiedlich verwendet werden.

Vergleich der WE-Modelle

Ausdruck X und seine 100 Next Neighbours in den Modellen ORIENT und PINES:

  • Out of vocabulary (a/100): Wie viele der 100 Next Neighbours von X in ORIENT sind im Modell PINES überhaupt vorhanden? (Es könnte sein, dass gewisse NNs von X überhaupt nicht im PINES-Modell vorkommen, da das Korpus kleiner ist – Nicht-Vorkommen ist aber problematisch zu bewerten.)
  • Gemeinsame Next Neighbours (b/100): Wie viele der 100 NNs des Ausdrucks X in ORIENT sind auch NNs des Ausdrucks x

Interessant sind Ausdrücke, die 0/100 out of vocabulary (in PINES) und gleichzeitig 0/100 gemeinsame Next Neighbours aufweisen.

Vergleich diskursiv geprägter semantischer Räume

Ausdrücke, die sowohl in ORIENT als auch in PINES vorkommen, jedoch semantisch sehr unterschiedlich verwendet werden (out of voc: 0/100; gemeinsame NNs: 0/100):

Verhältnis, Umstand, Glück, Lager, Typ, Leistung, Führung, Helfer, Ohr, normal, Figur, Kauf, Zufällig, Golden, Wild, Dritte, Motivation, Einsicht, bemerken, einmalig, abschließend, Marke, Eintreten, Betonen, augenscheinlich, Eis, gleichgültig, Wechseln, Herstellen, maximal, selbständig, Beschäftigung, Horizont, Potentiell, Technisch, Paket, Hersteller, Fachleute, Stützen, Staub, Formel, ausrichten, Müde, Black, mögliche, zurückgreifen, Ringen, gesetzt, Inne, geschlagen

Kollokate von "Verhältnis"

PINESORIENT
gestörtesDas
zurZwischen
zuZu
dasEnges
zwischenZur
einGutes
gutesdeutsch-amerikanische
zumEin
politischenRussland
TanzenÄrmlichen
bestehendenIm
WeimarerPflegte
keinemAngespannte
1:1Freundschaftliches
GeschlechterEinfachen

Beispiel: "Verhältnis – Geschlechter" (PINES)

Das [!] Mischmasch ist generell das Zeichen der Neuen Weltordnung. Zum Beispiel auch im Verhältnis der Geschlechter. Männer und Frauen haben sich begehrt und geliebt, so lange man sie Männer und Frauen sein ließ. (COMPACT, text_id 23609)

Kollokate von "Leistung"

PINESORIENT
Stolzeine
Geschichtegute
UnserMegawatt
Unserestarke
Erschleichensseine
Erschleichenstarken
medizinischedie
Fürfür
erbringenkW
besondereihre
Asylbewerberleistungsgesetzeiner
staatlichenmit
Asylbewerberfamilienpolitischen
schwacheherausragende
tolle erbringen

Beispiel: "Leistung – Erschleichen" (PINES)

Dabei wurde festgestellt, dass es sich um einen minderjährigen Asylbewerber handelt, der im Fahndungssystem als vermisst ausgeschrieben war. Ferner suchte ihn auch die Freiburger Justiz wegen Erschleichen von Leistungen. Nach Beendigung der Kontrollmaßnahmen wollte die Streifenbesatzung mit dem Dienstfahrzeug wegfahren. (PI-NEWS, text_id 7791)

Kollokate von "Figur"

PINESORIENT
schlankeeine
kräftigegute
sportlichezentrale
athletischedie
eineprägende
muskulöseIhre
großschillernde
dunkleschillerndsten
verfassungsschutzrelevantenunglückliche
zentraleprägenden
diesekeine
Aussehenseine
normalezentralen
Erscheinungsbildtolle
südländischestragische

Beispiel: "Figur – prägende" (ORIENT)

Später liefen die Liberalen zur CDU von Helmut Kohl über. Bei der Einheit war FDP-Außenminister Hans-Dietrich Genscher die prägende Figur neben Kohl. Christian Lindner beruft sich am Montag auf dieses beeindruckende liberale Erbe, das Millionen Wähler kaum mehr interessiert. (ZEIT ONLINE, text_id 132662).

Beispiel: "Figur – normale / kräftige" (PINES)

Der Geschädigte gab an, dass es sich bei den Schlägern um Marokkaner mit dunklen Haaren, im Alter zwischen 18 und 20 Jahren gehandelt haben soll, die allesamt dunkle Kapuzenshirts trugen. Der erste Angreifer sei ca. 1,85 Meter groß und habe eine normale Figur. Der zweite Schläger sei etwa 1,80 Meter groß, habe eine kräftige Figur und auffällige Akne im Gesicht. (PI-NEWS, text_id 6309)

Fazit

  • Word Embeddings (Methoden der distributionellen Semantik generell) nehmen sprachliche Oberfläche ernst: Gebrauchssemantik!
  • Die Anwendungen und Optimierungen der Methoden gehen jedoch in die Richtung: semantisches Modell von "Sprache": Für gebrauchs- und diskurssemantische Fragestellungen uninteressant.
  • Interessant: Differenzen zwischen semantischen Räumen und ihre Dynamik.
  • Stellen dabei auch linguistische Semantik-Theorien in Frage ("funktionale Äquivalenz" statt "Synonymie"?)