{"id":504,"date":"2015-05-20T08:00:33","date_gmt":"2015-05-20T06:00:33","guid":{"rendered":"https:\/\/www.bubenhofer.com\/sprechtakel\/?p=504"},"modified":"2015-05-18T15:40:22","modified_gmt":"2015-05-18T13:40:22","slug":"anatomie-eines-textes-bildgebendes-verfahren-fuer-textkorpora","status":"publish","type":"post","link":"https:\/\/www.bubenhofer.com\/sprechtakel\/2015\/05\/20\/anatomie-eines-textes-bildgebendes-verfahren-fuer-textkorpora\/","title":{"rendered":"Anatomie eines Textes: Bildgebendes Verfahren f\u00fcr Textkorpora"},"content":{"rendered":"<p>Was &#8222;zeigt&#8220; sich, wenn eine Maschine einen Text &#8222;liest&#8220;, also sequenziell Wort f\u00fcr Wort abarbeitet? Eher f\u00fcr didaktische Zwecke habe ich eine kleine Spielerei versucht (und dabei mit <a href=\"http:\/\/p5js.org\/\">P5.js<\/a> experimentiert):<\/p>\n<div id=\"attachment_505\" style=\"width: 2512px\" class=\"wp-caption alignright\"><a href=\"https:\/\/pub.cl.uzh.ch\/projects\/visuallinguistics\/textvis\/\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-505\" class=\"wp-image-505 size-full\" src=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2015\/05\/Bildschirmfoto-2015-05-18-um-14.09.29.png\" alt=\"textvis\" width=\"2502\" height=\"1650\" srcset=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2015\/05\/Bildschirmfoto-2015-05-18-um-14.09.29.png 2502w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2015\/05\/Bildschirmfoto-2015-05-18-um-14.09.29-300x198.png 300w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2015\/05\/Bildschirmfoto-2015-05-18-um-14.09.29-1024x675.png 1024w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2015\/05\/Bildschirmfoto-2015-05-18-um-14.09.29-900x594.png 900w\" sizes=\"auto, (max-width: 2502px) 100vw, 2502px\" \/><\/a><p id=\"caption-attachment-505\" class=\"wp-caption-text\">Screenshot <a href=\"https:\/\/pub.cl.uzh.ch\/projects\/visuallinguistics\/textvis\/\">TextVis 1.0<\/a><\/p><\/div>\n<p><!--more--><\/p>\n<p><a href=\"https:\/\/pub.cl.uzh.ch\/projects\/visuallinguistics\/textvis\/\">TextVis<\/a> arbeitet einen Text Wort f\u00fcr Wort ab. Rechts werden die gerade bearbeiteten zwei S\u00e4tze aufgef\u00fchrt. Jedes Wort wird ganz oben gro\u00df und in transparenten Farben abgetragen. Die farbliche Codierung unterscheidet f\u00fcnf Wortklassen: Nomen, Adjektive, Verben, Pronomen\/Partikeln und eine Restgruppe. Die prozessierten W\u00f6rter werden zus\u00e4tzlich in f\u00fcnf &#8222;Schubladen&#8220; abgelegt, die entsprechend nach Wortaufkommen in der jeweiligen Kategorie wachsen.<\/p>\n<p>Unten rechts wird die Anzahl\u00a0der aktuell verarbeiteten W\u00f6rter aufgef\u00fchrt. Links daneben werden einige statistische Ma\u00dfe aufgef\u00fchrt:<\/p>\n<ul>\n<li>Ganz links kann man beobachten, wie sich das <strong>Type-Token-Verh\u00e4ltnis<\/strong> mit der Zeit ver\u00e4ndert: Ganz zu Beginn sind alle Kurven deckungsgleich: Es gibt genau gleich viele W\u00f6rter (Tokens) wie <em>unterschiedliche<\/em> W\u00f6rter (Types). Mit der Zeit bewegen sich die Kurven auseinander: Die Anzahl der Types nimmt nicht linear zu wie die Anzahl der Tokens, die Kurve flacht immer st\u00e4rker ab. Je l\u00e4nger der Text, desto unwahrscheinlicher wird es, dass wir noch neue W\u00f6rter antreffen, die wir nicht schon gesehen haben.<\/li>\n<li>Die anderen beiden Diagramme zeigen die <strong>Zipfverteilung<\/strong> im bereits bearbeiteten Text an: Die Types werden nach Frequenz absteigend in eine Rangfolge gebracht. Im Diagramm ganz rechts sieht man, dass es nur ganz wenige W\u00f6rter gibt, die sehr h\u00e4ufig im Text vorkommen, daf\u00fcr eine lange Reihe von W\u00f6rtern, die nur ganz selten vorkommen. Diese Beobachtung entspricht der Annahme des <a href=\"http:\/\/de.wikipedia.org\/wiki\/Zipfsches_Gesetz\">Zipfschen Gesetzes<\/a>, nach dem die H\u00e4ufigkeit eines Wortes umgekehrt proportional zum Rang in der nach H\u00e4ufigkeit abnehmenden Reihe ist. Das mittlere Diagramm zeigt die gleichen Rangh\u00e4ufigkeiten, allerdings auf logarithmierten Skalen: Wenn das Zipfsche Gesetz stimmt, sollte sich in diesem Diagramm eine linear fallende Gerade ergeben.<\/li>\n<\/ul>\n<p>Im Men\u00fc oben rechts k\u00f6nnen die jeweils ersten 3000 W\u00f6rter aus vier verschiedenen Korpora ausgew\u00e4hlt werden.<\/p>\n<p>Die Erkenntnisse, die man aus der Visualisierung ziehen kann, ist alles andere als \u00fcberraschend, jedoch sehr viel anschaulicher, als die Themen in Handb\u00fcchern abgehandelt werden. Das Mapping, also die Regel, mit der eine Wort- oder Texteigenschaft in ein grafisches Zeichen \u00fcberf\u00fchrt wird, sehr simpel:<\/p>\n<p><strong>Wortl\u00e4ngen<\/strong><\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-506\" src=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2015\/05\/Bildschirmfoto-2015-05-18-um-15.00.40.png\" alt=\"Bildschirmfoto 2015-05-18 um 15.00.40\" width=\"871\" height=\"69\" srcset=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2015\/05\/Bildschirmfoto-2015-05-18-um-15.00.40.png 871w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2015\/05\/Bildschirmfoto-2015-05-18-um-15.00.40-300x24.png 300w\" sizes=\"auto, (max-width: 871px) 100vw, 871px\" \/><\/p>\n<p>[Wort] \u2192 <span style=\"color: #993366;\">[text \u2013 fontSize=60 \u2013 color=depending word class, alpha=.5]<\/span> \u2192 <em>Sichtbar wird:<\/em> H\u00e4ufige und seltene Wortl\u00e4ngen und Wortartklassen<\/p>\n<p>Der sog. Alpha-Wert bei Farbf\u00fcllungen erzeugt einen Transparenzeffekt (siehe <a href=\"https:\/\/en.wikipedia.org\/wiki\/RGBA_color_space\">RGBA<\/a> und <a href=\"https:\/\/en.wikipedia.org\/wiki\/Alpha_compositing\">Alpha Composing<\/a>) und ist eigentlich keine besonders neue technologische M\u00f6glichkeit, wird aber in modernen HTML-Technologien (HTML5, SVG) immer besser unterst\u00fctzt und deshalb wohl oft verwendet.<\/p>\n<p><strong>Worth\u00e4ufigkeiten<\/strong><\/p>\n<p><a href=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2015\/05\/Bildschirmfoto-2015-05-18-um-15.01.06.png\"><img loading=\"lazy\" decoding=\"async\" class=\" size-full wp-image-507 alignnone\" src=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2015\/05\/Bildschirmfoto-2015-05-18-um-15.01.06.png\" alt=\"Bildschirmfoto 2015-05-18 um 15.01.06\" width=\"540\" height=\"79\" srcset=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2015\/05\/Bildschirmfoto-2015-05-18-um-15.01.06.png 540w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2015\/05\/Bildschirmfoto-2015-05-18-um-15.01.06-300x44.png 300w\" sizes=\"auto, (max-width: 540px) 100vw, 540px\" \/><\/a><\/p>\n<p>[Wort]\u00a0\u2192 <span style=\"color: #993366;\">[text \u2013 color=depending word class\u00a0\u2013 position=depending word class and number of word in class]<\/span>\u00a0\u2192\u00a0<em>Sichtbar wird:<\/em>\u00a0Anzahl W\u00f6rter pro Wortartklasse, Wortl\u00e4ngen separat nach Wortartklasse<\/p>\n<p><strong>Bildgebendes Verfahren?<\/strong><\/p>\n<p>Diese einfachen Visualisierungen reichen aus, um textstatistische Gesetzm\u00e4\u00dfigkeiten zu sehen, aber auch Abweichungen davon in bestimmten Korpora \u2013 \u00e4hnlich wie ein bildgebendes Verfahren in der Medizin, das im R\u00f6ntgenbild den (gebrochenen) Knochen zeigt oder\u00a0bei der\u00a0Magnetresonanztomographie K\u00f6rpergewebe.<\/p>\n<p>So intuitiv verst\u00e4ndlich solche Verfahren sind, so sehr verdecken sie, wie arbitr\u00e4r und komplex gewisse Entscheidungen im Visualisierungsprozess sind. Im Fall von Textkorpora: Was ist ein Token? Wie wird eine Wortartklasse bestimmt? Welches Mappingverfahren verwende ich? In der Medizin sind bildgebende Verfahren in der Prozessierung der gemessenen Daten noch komplexer. Doch immer ist klar: Die Visualisierung ist nicht einfach ein Abbild des Gemessenen, sondern ein komplexes Zeichen, das eine\u00a0&#8222;entwerfende \u00c4hnlichkeit&#8220; (Bauer\/Ernst 2010:44) zum Gegenstand aufweist. &#8222;Bildgebend&#8220; ist in diesem Zusammenhang deswegen ein geradezu naiver Ausdruck \u2013 die im Englischen (<em>medical imaging<\/em>) oder Franz\u00f6sischen (<em>imagerie m\u00e9dicale<\/em>) gebr\u00e4uchlichen Ausdr\u00fccke sind da etwas neutraler.<\/p>\n<div class=\"csl-bib-body\">\n<p class=\"csl-entry\"><span style=\"color: #999999;\">Bauer, Matthias\/Ernst, Christoph: Diagrammatik \/ Einf\u00fchrung in ein kultur- und medienwissenschaftliches Forschungsfeld. Bielefeld : transcript, 2010<\/span><\/p>\n<p class=\"csl-entry\">\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Was &#8222;zeigt&#8220; sich, wenn eine Maschine einen Text &#8222;liest&#8220;, also sequenziell Wort f\u00fcr Wort abarbeitet? Eher f\u00fcr didaktische Zwecke habe ich eine kleine Spielerei versucht (und dabei mit P5.js experimentiert):<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[4,7,65],"tags":[92,91,106],"class_list":["post-504","post","type-post","status-publish","format-standard","hentry","category-4-korpuslinguistik","category-6-korpustools","category-visual-linguistics","tag-bildgebende-verfahren","tag-ikonizitaet","tag-visual-linguistics"],"_links":{"self":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts\/504","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/comments?post=504"}],"version-history":[{"count":5,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts\/504\/revisions"}],"predecessor-version":[{"id":512,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts\/504\/revisions\/512"}],"wp:attachment":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/media?parent=504"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/categories?post=504"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/tags?post=504"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}