{"id":327,"date":"2013-03-06T16:53:54","date_gmt":"2013-03-06T16:53:54","guid":{"rendered":"http:\/\/www.bubenhofer.com\/sprechtakel\/?p=327"},"modified":"2019-08-02T15:58:27","modified_gmt":"2019-08-02T13:58:27","slug":"die-semantik-von-terrorismus-lda-topic-modelling","status":"publish","type":"post","link":"https:\/\/www.bubenhofer.com\/sprechtakel\/2013\/03\/06\/die-semantik-von-terrorismus-lda-topic-modelling\/","title":{"rendered":"Die Semantik von &#8222;Terrorismus&#8220;: LDA Topic Modelling"},"content":{"rendered":"<p>Was meinen wir eigentlich, wenn wir von &#8222;Terrorismus&#8220; sprechen? 9\/11? Der &#8222;Deutsche Herbst&#8220; von 1977? Oder M\u00fcnchen 1972? Die Bedeutung von &#8222;Terrorismus&#8220; ist breit und vor allem an bestimmte Diskurse gebunden. 1972 versteht man etwas anderes unter Terrorismus als heute.<\/p>\n<p>Inspiriert von einem Beitrag von <a href=\"http:\/\/kops.ub.uni-konstanz.de\/handle\/urn:nbn:de:bsz:352-186381\">Rohrdantz et al. (2012)<\/a>\u00a0wollte ich ausprobieren, ob die Ver\u00e4nderung der Bedeutung eines Wortes \u00fcber ein Verfahren der automatischen Textklassifikation (LDA, Latent Dirichlet Allocation) anhand des Spiegel-Korpus beantwortet werden kann. Das hier kam dabei raus:<\/p>\n<p><a href=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus.png\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-328\" src=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus.png\" alt=\"Terrorismus\" width=\"700\" height=\"400\" srcset=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus.png 700w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus-300x171.png 300w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/a><\/p>\n<p>Was ich genau gemacht habe, erkl\u00e4re ich im Folgenden.<\/p>\n<p><!--more--><\/p>\n<p>LDA (entwickelt von <a href=\"http:\/\/jmlr.csail.mit.edu\/papers\/v3\/blei03a.html\">Blei\/Ng\/Jordan<\/a>) ist eine Methode, um das Thema von Dokumenten maschinell zu bestimmen (Topic Modelling) und basiert in der von Rohrdantz et al. vorgelegten Arbeit auf der Analyse des vorkommenden Vokabulars. Nat\u00fcrlich kann man nicht nur ganze Dokumente so thematisch klassifizieren, sondern kann die Methode auch anwenden, um unterschiedliche Bedeutungsnuancen eines Wortes in seinem Kontext zu unterscheiden und ggf. auch die Entwicklung dieser Bedeutungsnuancen \u00fcber die Zeit zu untersuchen. Dahinter steckt die Idee, dass sich unterschiedliche Bedeutungsnuancen durch eine bestimmte Einbettung des Wortes auszeichnen. Finde ich die unterschiedlichen Einbettungen, kenne ich damit auch die Bedeutungsnuancen.<\/p>\n<p>Da es sich um ein un\u00fcberwachtes Lernverfahren handelt, muss vorher nur festgelegt werden, wie viele unterschiedliche Themen bzw. Bedeutungsnuancen gefunden werden sollen. Das Modell liefert dann nicht nur die Klassifikation der Texte\/Belege, sondern charakterisiert die Klassen anhand des typischsten Vokabulars.<\/p>\n<p>Ich habe nun f\u00fcr eine Reihe von Lexemen Belege aus einem Spiegelkorpus, das alle Texte des gedruckten Spiegels von 1947 bis 2010 enth\u00e4lt, extrahiert. Die Belege umfassen jeweils 25 W\u00f6rter vor und nach dem Suchwort. F\u00fcr die Lemmata &#8222;Terror&#8220; und &#8222;Terrorismus&#8220; handelt es sich um\u00a012.250 Belegstellen. Ich exportierte die Belege jeweils mit Publikationsdatum und den Grundformen anstelle der flektierten Wortformen aus dem Korpus, um die Komplexit\u00e4t f\u00fcr die anschlie\u00dfende Modellierung zu reduzieren.<\/p>\n<p>Nun kann man auf den Daten ein LDA-Modell trainieren. Ich verwendete daf\u00fcr <a href=\"http:\/\/mallet.cs.umass.edu\">MALLET<\/a>, f\u00fcr dessen Bedienung es bei den <a href=\"http:\/\/programminghistorian.org\/lessons\/topic-modeling-and-mallet\">Programming Historians<\/a> eine gute Anleitung gibt. Der Algorithmus spuckt nun f\u00fcr die Belege von &#8222;Terror(ismus)&#8220; folgende Klassen aus:<\/p>\n<ol>\n<li>Uhr Film TV Thema Carlos ZDF ARD Carlo 1 deutsch<\/li>\n<li>Mark Seite 36 _( 10 Verlag 11 GrafiktextEnde 12<\/li>\n<li>Kampf ihr Land neu international Staat Regierung<\/li>\n<li>politisch 1981 Gruppe Terrorismus italienisch<\/li>\n<li>Israel Pal\u00e4stinenser israelisch pal\u00e4stinensisch<\/li>\n<li>ihr Ihr Kind Frau Leben Mann jung Familie mein<\/li>\n<li>New York Wurzel Stadt Wurzeln Luft Bild klein<\/li>\n<li>Qaida al Laden Pakistan 2003 Bin 2002 Lade Anschlag<\/li>\n<li>1992 Schrecken Schreck Mord Land Kosovo 1991 wei\u00df<\/li>\n<li>Jahr seit Woche Mensch letzt vergangen drei Million<\/li>\n<li>Terror Milit\u00e4r 1968 ihr doch t\u00fcrkisch T\u00fcrkei<\/li>\n<li>Bek\u00e4mpfung BKA Polizei 2007 Kriminalit\u00e4t Schily<\/li>\n<li>dies kein geben m\u00fcssen alle wollen doch dass sagen<\/li>\n<li>Euro Kampf 2003 4 5 Peter 3 9 Islam 6 Propyl\u00e4en<\/li>\n<li>Westen 1996 Weste ins 1993 einst ziehen Stimme 1997<\/li>\n<li>Stalin Hitler kommunistisch Partei sowjetisch Macht<\/li>\n<li>1977 RAF deutsch SPD Hans Gespr\u00e4ch CDU 1978 Klein<\/li>\n<li>Krieg Kampf Pr\u00e4sident Bush US Irak USA 2002 Amerika<\/li>\n<li>dies alle Gesellschaft politisch Mittel neu Mitteln<\/li>\n<li>deutsch wegen sollen Gericht neu Mann Geheimdienst<\/li>\n<\/ol>\n<p>Nat\u00fcrlich kann man nun in die Belege rein und sehen, welchen Belegen welche Klasse zugewiesen wurde. Ich wollte nun aber sehen, wie sich diese Klassen auf den ganzen Zeitraum verteilen. Die Grafik ganz oben stellt dies in der \u00dcbersicht dar.<\/p>\n<p>Man sieht, dass der gr\u00f6\u00dfte Bereich die Klasse 13 ist (<em>dies kein geben m\u00fcssen alle wollen doch dass sagen<\/em>), die wenig aussagekr\u00e4ftig ist und auch mehr oder weniger stabil \u00fcber den ganzen Zeitraum verteilt ist. Es gibt aber andere Klassen, die unregelm\u00e4\u00dfig verteilt sind. Im Detail:<\/p>\n<p><a href=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_8.png\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-334\" src=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_8.png\" alt=\"Terrorismus_8\" width=\"700\" height=\"400\" srcset=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_8.png 700w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_8-300x171.png 300w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/a><\/p>\n<p>Dieses Bild zeigt die Anteile von Belegen der semantischen Klasse, die mit &#8222;Qaida, al, Laden, Pakistan, 2003&#8220; etc. am besten beschrieben werden kann. Hier sehen wir den Kaida-Terror seit 9\/11, wobei es bereits vorher Belege gibt, die dieser Lesart von &#8222;Terror&#8220; \u00e4hneln, da Osama bin Laden nat\u00fcrlich auch vorher bereits Thema war.<\/p>\n<p><a href=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_18.png\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-339\" src=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_18.png\" alt=\"Terrorismus_18\" width=\"700\" height=\"400\" srcset=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_18.png 700w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_18-300x171.png 300w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/a><\/p>\n<p>Eine \u00e4hnliche Lesart zeigt diese Grafik, wobei hier der Fokus auf dem Irakkrieg liegt, in dessen Kontext &#8222;Terror&#8220; eine leicht andere Lesart entwickelt.<\/p>\n<p>Terror ist jedoch seit den 1970er-Jahren ein st\u00e4ndiges Thema der Sicherheitsorgane Deutschlands, wie das folgende Schaubild zeigt.<\/p>\n<p><a href=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_12.png\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-336\" src=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_12.png\" alt=\"Terrorismus_12\" width=\"700\" height=\"400\" srcset=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_12.png 700w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_12-300x171.png 300w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/a><\/p>\n<p>Bei diesem Aspekt von &#8222;Terror&#8220; stehen die polizeilichen, kriminalistischen Bek\u00e4mpfungsmethoden im Vordergrund, wobei diese nach 9\/11 erstmal nicht im Vordergrund standen, da dann Terrorbek\u00e4mpfung als Krieg aufgefasst wurde.<\/p>\n<p>Der Grund f\u00fcr die Terrorbek\u00e4mpfung in den 70er-Jahren liegt nat\u00fcrlich im &#8222;Deutschen Herbst&#8220; begr\u00fcndet, der sich im folgenden Schaubild abzeichnet:<\/p>\n<p><a href=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_17.png\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-338\" src=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_17.png\" alt=\"Terrorismus_17\" width=\"700\" height=\"400\" srcset=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_17.png 700w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_17-300x171.png 300w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/a><\/p>\n<p>Das gleiche Schaubild oben zeigt dann in den 80er und 90er weitere Ausschl\u00e4ge, was auf die Morde und Anschl\u00e4ge der RAF bis zur Aufl\u00f6sung 1998 zur\u00fcckzuf\u00fchren ist. Die letzte Spitze ab 2007 steht wahrscheinlich im Kontext mit den Entlassungen von RAF-Mitgliedern aus der Haft.<\/p>\n<p>Was f\u00fcr Deutschland der &#8222;Deutsche Herbst&#8220;, sind f\u00fcr Italien die &#8222;Brigate Rosse&#8220; des italienischen Linksterrorismus:<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-332\" src=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_4.png\" alt=\"Terrorismus_4\" width=\"700\" height=\"400\" srcset=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_4.png 700w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_4-300x171.png 300w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/p>\n<p>Typisch f\u00fcr die \u00e4lteren Daten ist eine Verwendung von Terror im Kontext der Diktatoren Stalin und Hitler und der Sowjetunion:<\/p>\n<p><a href=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_16.png\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-337\" src=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_16.png\" alt=\"Terrorismus_16\" width=\"700\" height=\"400\" srcset=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_16.png 700w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_16-300x171.png 300w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/a><\/p>\n<p>Letztlich zeichnet sich noch der Pal\u00e4stinenserkonflikt in den Daten ab:<\/p>\n<p><a href=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_5.png\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-333\" src=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_5.png\" alt=\"Terrorismus_5\" width=\"700\" height=\"400\" srcset=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_5.png 700w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/03\/Terrorismus_5-300x171.png 300w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/a><\/p>\n<p>Der erste H\u00f6hepunkt in den 1970er-Jahren k\u00f6nnte auf die Folgen des Sechstagekriegs, den Jordanischen B\u00fcrgerkrieg und dann insbesondere den <a href=\"http:\/\/de.wikipedia.org\/wiki\/Massaker_am_Flughafen_Lod\">Terroranschlag am 30. Mai 1972 am internationalen Flughafen von Tel Aviv<\/a> verweisen. Der\u00a0H\u00f6hepunkt um 1994\/95 geht wahrscheinlich auf die Terroranschl\u00e4ge der Hamas in Israel zur\u00fcck (1993 ver\u00fcbte die Hamas den ersten Anschlag in Israel).<\/p>\n<p>Die dargestellten Klassen scheinen plausibel und das Verfahren konnte wichtige Terrordiskurse aufdecken. Einige Klassen sind jedoch etwas undurchsichtig und m\u00fcssen noch genauer gepr\u00fcft werden. Zudem hat die Anzahl der angestrebten Klassen nat\u00fcrlich einen gro\u00dfen Einfluss auf die Klassifizierung.<\/p>\n<p><a href=\"https:\/\/github.com\/noahbubenhofer\/diatopics\"><strong>Code diatopics auf GitHub<\/strong><\/a><\/p>\n<div class=\"csl-bib-body\" style=\"line-height: 1.35; padding-left: 2em; text-indent: -2em;\">\n<div class=\"csl-entry\">Rohrdantz, Christian u. a. (2012): \u201eTowards tracking semantic change by visual analytics\u201c, <a href=\"http:\/\/kops.ub.uni-konstanz.de\/handle\/urn:nbn:de:bsz:352-186381\">http:\/\/kops.ub.uni-konstanz.de\/handle\/urn:nbn:de:bsz:352-186381<\/a> (zugegriffen am 4.3.2013).<\/div>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Was meinen wir eigentlich, wenn wir von &#8222;Terrorismus&#8220; sprechen? 9\/11? Der &#8222;Deutsche Herbst&#8220; von 1977? Oder M\u00fcnchen 1972? Die Bedeutung von &#8222;Terrorismus&#8220; ist breit und vor allem an bestimmte Diskurse gebunden. 1972 versteht man etwas anderes unter Terrorismus als heute. &hellip; <a href=\"https:\/\/www.bubenhofer.com\/sprechtakel\/2013\/03\/06\/die-semantik-von-terrorismus-lda-topic-modelling\/\">Weiterlesen <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[4,57],"tags":[61,64,63,62],"class_list":["post-327","post","type-post","status-publish","format-standard","hentry","category-4-korpuslinguistik","category-methoden","tag-lda","tag-semantik","tag-terrorismus","tag-topic-modeling"],"_links":{"self":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts\/327","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/comments?post=327"}],"version-history":[{"count":17,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts\/327\/revisions"}],"predecessor-version":[{"id":638,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts\/327\/revisions\/638"}],"wp:attachment":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/media?parent=327"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/categories?post=327"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/tags?post=327"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}