{"id":247,"date":"2013-01-17T22:44:49","date_gmt":"2013-01-17T22:44:49","guid":{"rendered":"http:\/\/www.bubenhofer.com\/sprechtakel\/?p=247"},"modified":"2013-01-17T22:46:46","modified_gmt":"2013-01-17T22:46:46","slug":"diachrone-analysen-verlaufskurven-clustern","status":"publish","type":"post","link":"https:\/\/www.bubenhofer.com\/sprechtakel\/2013\/01\/17\/diachrone-analysen-verlaufskurven-clustern\/","title":{"rendered":"Diachrone Analysen: Verlaufskurven clustern"},"content":{"rendered":"<p>Ein halbes Jahr schlief das Sprechtakel \u2013 das tut mir leid. Die Gr\u00fcnde dr\u00fccken die Kollokatoren zu &#8222;<a href=\"http:\/\/corpora.ids-mannheim.de\/ccdb\/?preload=http:\/\/corpora.ids-mannheim.de\/ccdb\/db\/4661\/46616d696c6965\/t46616d696c696500.html\">Familie<\/a>&#8220; aus:<\/p>\n<table width=\"100%\">\n<tbody>\n<tr>\n<td style=\"font-size: small;\" align=\"right\">-2<\/td>\n<td style=\"font-size: small;\" align=\"left\">2<\/td>\n<td style=\"font-size: small;\" align=\"right\">6210<\/td>\n<td style=\"font-size: small;\" align=\"left\"><strong>Beruf\u00a0<\/strong>Vereinbarkeit<\/td>\n<td style=\"font-size: small;\" align=\"right\">413<\/td>\n<td style=\"font-size: small;\">60%<\/td>\n<td style=\"font-size: small;\">die\u00a0Vereinbarkeit<br \/>\n[von]\u00a0Familie\u00a0[und]\u00a0Beruf<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Bzw. zu &#8222;<a href=\"http:\/\/corpora.ids-mannheim.de\/ccdb\/?preload=http:\/\/corpora.ids-mannheim.de\/ccdb\/db\/4a6f\/4a6f62\/t4a6f6200.html\">Job<\/a>&#8222;:<\/p>\n<table width=\"100%\">\n<tbody>\n<tr>\n<td style=\"font-size: small;\" align=\"right\">-1<\/td>\n<td style=\"font-size: small;\" align=\"left\">-1<\/td>\n<td style=\"font-size: small;\" align=\"right\">24466<\/td>\n<td style=\"font-size: small;\" align=\"left\">neuen<\/td>\n<td style=\"font-size: small;\" align=\"right\">4356<\/td>\n<td style=\"font-size: small;\">74%<\/td>\n<td style=\"font-size: small;\">einen\u00a0neuen\u00a0[&#8230;]\u00a0Job<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Aber jetzt bin ich wieder da. Und berichte \u00fcber die M\u00f6glichkeit, in diachroner Perspektive ko-variierende Lexeme zu entdecken.<\/p>\n<div id=\"attachment_248\" style=\"width: 586px\" class=\"wp-caption alignnone\"><a href=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb1.ClusterDendrogramm-60.png\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-248\" class=\"size-full wp-image-248\" title=\"Abb1.ClusterDendrogramm-60\" src=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb1.ClusterDendrogramm-60.png\" alt=\"Cluster kovariierender Lexeme\" width=\"576\" height=\"360\" srcset=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb1.ClusterDendrogramm-60.png 576w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb1.ClusterDendrogramm-60-300x187.png 300w\" sizes=\"auto, (max-width: 576px) 100vw, 576px\" \/><\/a><p id=\"caption-attachment-248\" class=\"wp-caption-text\">Abbildung 1: Cluster kovariierender Lexeme<\/p><\/div>\n<p><!--more--><\/p>\n<p>M\u00f6chte man in einem diachronen Korpus herausfinden, welche Lexeme f\u00fcr bestimmte Epochen typisch sind, kann man z.B. Subkorpora bilden und \u00fcber Signifikanztests die Lexeme eruieren, deren Frequenzen in einem der Subkorpora signifikant von den anderen abweichen. Daf\u00fcr ist es aber notwendig, sich bereits vor der Analyse f\u00fcr bestimmte Epochen zu entscheiden, die auf typisches Vokabular hin getestet werden sollen.<\/p>\n<p>M\u00f6chte man das nicht, ist Folgendes m\u00f6glich: F\u00fcr alle Lexeme werden pro Jahr (oder anderer Zeiteinheit) die Frequenzen berechnet. Die Frequenzen stellen einen Vektor dar:<\/p>\n<pre>Berg  5  7  10  5  4  1  0  20  25  30  45  3  2  0  0  0<\/pre>\n<p>Nat\u00fcrlich m\u00f6chte ich jetzt nicht jedes Lexem auf auff\u00e4llige Frequenzverl\u00e4ufe hin pr\u00fcfen, sondern Lexeme zusammenfassen, deren Frequenzverl\u00e4ufe \u00e4hneln. Daf\u00fcr sind folgende Schritte n\u00f6tig:<\/p>\n<ol>\n<li>Normalisieren der Frequenzen, so dass sie sich alle zwischen 0 und 1 bewegen. Damit erhalte ich Frequenzverl\u00e4ufe, die unabh\u00e4ngig von den absoluten Frequenzen sind.<\/li>\n<li>Zus\u00e4tzlich sollten die Frequenzen gegl\u00e4ttet werden: Berechnet man einen gleitenden Durchschnitt, wirken sich einmalige Ausrei\u00dfer nicht so stark aus.<\/li>\n<li>Weiter k\u00f6nnen die Lexeme gefiltert werden und solche, die insgesamt sehr selten oder die sehr ungleichm\u00e4\u00dfig oder sehr gleichm\u00e4\u00dfig verteilt sind, ausschlie\u00dfen. Die Gleichm\u00e4\u00dfigkeit der Verteilung l\u00e4sst sich ganz gut mit <a href=\"http:\/\/www.linguistics.ucsb.edu\/faculty\/stgries\/research\/2008_STG_Dispersion_IJCL.pdf\">Gries&#8216; Deviation of Proportions (DP)<\/a> berechnen.<\/li>\n<li>Clustern der Vektoren: Mit einem hierarchischen Clustering werden Lexeme zusammengefasst, deren Frequenzverl\u00e4ufe \u00e4hnlich sind.<\/li>\n<\/ol>\n<p>Abbildung 1 oben zeigt das Dendrogramm von so geclusterten Lexemen \u2013 \u00fcbrigens das Vokabular aus den Periodika des Schweizer Alpenclubs, die im <a href=\"http:\/\/www.textberg.ch\">Text+Berg-Korpus<\/a> verf\u00fcgbar sind. Es wurden hier 60 Gruppen gebildet.<\/p>\n<p>Nun kann man sich die einzelnen Gruppen ansehen. Schauen wir uns die Verl\u00e4ufe von Gruppe 22 an:<\/p>\n<div id=\"attachment_249\" style=\"width: 586px\" class=\"wp-caption alignnone\"><a href=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb7.LexikonCluster-22-60.png\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-249\" class=\"size-full wp-image-249\" title=\"Abb7.LexikonCluster-22-60\" src=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb7.LexikonCluster-22-60.png\" alt=\"Abbildung 2: Lexikon Cluster 22\" width=\"576\" height=\"360\" srcset=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb7.LexikonCluster-22-60.png 576w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb7.LexikonCluster-22-60-300x187.png 300w\" sizes=\"auto, (max-width: 576px) 100vw, 576px\" \/><\/a><p id=\"caption-attachment-249\" class=\"wp-caption-text\">Abbildung 2: Frequenzverl\u00e4ufe von Cluster 22<\/p><\/div>\n<p>Die Gemeinsamkeit liegt also darin, dass es sich um Lexeme handelt, die bis in die 1910er-Jahre eher h\u00e4ufig, anschlie\u00dfend seltener sind. Wir k\u00f6nnen uns nun auch visualisieren lassen, welche Lexeme das sind:<\/p>\n<div id=\"attachment_250\" style=\"width: 1210px\" class=\"wp-caption alignnone\"><a href=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb8.Wordcloud-22-60.png\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-250\" class=\"size-full wp-image-250\" title=\"Abb8.Wordcloud-22-60\" src=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb8.Wordcloud-22-60.png\" alt=\"Abbildung 3\" width=\"1200\" height=\"1200\" srcset=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb8.Wordcloud-22-60.png 1200w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb8.Wordcloud-22-60-150x150.png 150w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb8.Wordcloud-22-60-300x300.png 300w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb8.Wordcloud-22-60-1024x1024.png 1024w\" sizes=\"auto, (max-width: 1200px) 100vw, 1200px\" \/><\/a><p id=\"caption-attachment-250\" class=\"wp-caption-text\">Abbildung 3: Cluster 22, Wortwolke<\/p><\/div>\n<p>Wir finden zeittypisches Vokabular wie <em>Partie<\/em> oder <em>Exkursion<\/em>, sowie Organisatorisches wie <em>Beschluss<\/em>, <em>Jahrbuch<\/em> und <em>Alpenclub<\/em>, aber auch einige Adjektive. Die Gr\u00f6\u00dfe der Lexeme in der Wortwolke dr\u00fccken Gries DP, also die Gleichm\u00e4\u00dfigkeit der Verteilung \u00fcber das Gesamtkorpus, aus. Je gr\u00f6\u00dfer, desto ungleichm\u00e4\u00dfiger ist das Lexem verteilt.<\/p>\n<p>Im Gegensatz dazu steht Cluster 36:<\/p>\n<div id=\"attachment_251\" style=\"width: 1210px\" class=\"wp-caption alignnone\"><a href=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb11.LexikonCluster-36-60.png\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-251\" class=\"size-full wp-image-251\" title=\"Abb11.LexikonCluster-36-60\" src=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb11.LexikonCluster-36-60.png\" alt=\"Abbildung 4\" width=\"1200\" height=\"750\" srcset=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb11.LexikonCluster-36-60.png 1200w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb11.LexikonCluster-36-60-300x187.png 300w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb11.LexikonCluster-36-60-1024x640.png 1024w\" sizes=\"auto, (max-width: 1200px) 100vw, 1200px\" \/><\/a><p id=\"caption-attachment-251\" class=\"wp-caption-text\">Abbildung 4: Cluster 36, Frequenzverl\u00e4ufe<\/p><\/div>\n<p>Und die dazugeh\u00f6rige Wortwolke:<\/p>\n<div id=\"attachment_252\" style=\"width: 586px\" class=\"wp-caption alignnone\"><a href=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb12.Wordcloud-36-60.png\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-252\" class=\"size-full wp-image-252\" title=\"Abb12.Wordcloud-36-60\" src=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb12.Wordcloud-36-60.png\" alt=\"Abbildung 5\" width=\"576\" height=\"576\" srcset=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb12.Wordcloud-36-60.png 576w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb12.Wordcloud-36-60-150x150.png 150w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb12.Wordcloud-36-60-300x300.png 300w\" sizes=\"auto, (max-width: 576px) 100vw, 576px\" \/><\/a><p id=\"caption-attachment-252\" class=\"wp-caption-text\">Abbildung 5: Wortwolke Cluster 36<\/p><\/div>\n<p>Da hat sich das Vokabular stark ver\u00e4ndert: F\u00fcr die 1920er bis 70er ist ein emotionalerer und subjektiverer Wortschatz auff\u00e4llig wie <em>Sch\u00f6nheit, Lust, k\u00f6stlich, schlagen, eilen, K\u00f6rper<\/em> etc.<\/p>\n<p>Cluster 42 geht in eine \u00e4hnliche Richtung:<\/p>\n<div id=\"attachment_254\" style=\"width: 1210px\" class=\"wp-caption alignnone\"><a href=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb14.LexikonCluster-42-60.png\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-254\" class=\"size-full wp-image-254\" title=\"Abb14.LexikonCluster-42-60\" src=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb14.LexikonCluster-42-60.png\" alt=\"Abbildung 6\" width=\"1200\" height=\"750\" srcset=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb14.LexikonCluster-42-60.png 1200w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb14.LexikonCluster-42-60-300x187.png 300w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb14.LexikonCluster-42-60-1024x640.png 1024w\" sizes=\"auto, (max-width: 1200px) 100vw, 1200px\" \/><\/a><p id=\"caption-attachment-254\" class=\"wp-caption-text\">Abbildung 6: Cluster 42, Frequenzverl\u00e4ufe<\/p><\/div>\n<div id=\"attachment_253\" style=\"width: 1210px\" class=\"wp-caption alignnone\"><a href=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb13.Wordcloud-42-60.png\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-253\" class=\"size-full wp-image-253\" title=\"Abb13.Wordcloud-42-60\" src=\"http:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb13.Wordcloud-42-60.png\" alt=\"Abbildung 7\" width=\"1200\" height=\"1200\" srcset=\"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb13.Wordcloud-42-60.png 1200w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb13.Wordcloud-42-60-150x150.png 150w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb13.Wordcloud-42-60-300x300.png 300w, https:\/\/www.bubenhofer.com\/sprechtakel\/wp-content\/uploads\/2013\/01\/Abb13.Wordcloud-42-60-1024x1024.png 1024w\" sizes=\"auto, (max-width: 1200px) 100vw, 1200px\" \/><\/a><p id=\"caption-attachment-253\" class=\"wp-caption-text\">Abbildung 7: Cluster 42, Wortwolke<\/p><\/div>\n<p>Neben den neuen Winterlexemen wie Lawine, Schneemasse und Pulverschnee, die dadurch bedingt sind, dass man fr\u00fcher die Berge nicht im Winter bestieg, ist auch hier ein emotionalerer Wortschatz sichtbar (<em>Herz, Liebe<\/em>) \u2013 und <em>Gott<\/em> ist in der Zeit von 1920 bis 1960 offenbar auch h\u00e4ufiger genannt.<\/p>\n<p>Weitere Analysen zeigen, dass sich im Verlauf der Jahre die Art des Sprechens \u00fcber Berge stark ver\u00e4ndert hat, also die verwendeten Narrative sich \u00e4ndern und sich damit die erz\u00e4hlte Gestalt der Berge wandelt.<\/p>\n<p>Ausf\u00fchrlichere Analysen dazu finden sich hier:<\/p>\n<p>Bubenhofer, Noah\/Scharloth, Joachim (eingereicht): &#8222;Korpuspragmatische Methoden f\u00fcr kulturanalytische Fragestellungen&#8220;, Linguistik als Kulturwissenschaft: Korpus &#8211; Kommunikation &#8211; Kultur, Giessen Contributions to the Study of Culture, Trier: Wvt Wissenschaftlicher Verlag. (<a href=\"http:\/\/www.bubenhofer.com\/publikationen\/PreprintBubenhoferKorpuspragmatikKulturanalyse.pdf\">Preprint<\/a>)<\/p>\n<p>Sowie in <a href=\"http:\/\/www.bubenhofer.com\/publikation.php?id=5\">weiteren Aufs\u00e4tzen<\/a> zu Text+Berg.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Ein halbes Jahr schlief das Sprechtakel \u2013 das tut mir leid. Die Gr\u00fcnde dr\u00fccken die Kollokatoren zu &#8222;Familie&#8220; aus: -2 2 6210 Beruf\u00a0Vereinbarkeit 413 60% die\u00a0Vereinbarkeit [von]\u00a0Familie\u00a0[und]\u00a0Beruf Bzw. zu &#8222;Job&#8222;: -1 -1 24466 neuen 4356 74% einen\u00a0neuen\u00a0[&#8230;]\u00a0Job Aber jetzt bin &hellip; <a href=\"https:\/\/www.bubenhofer.com\/sprechtakel\/2013\/01\/17\/diachrone-analysen-verlaufskurven-clustern\/\">Weiterlesen <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[4,57],"tags":[],"class_list":["post-247","post","type-post","status-publish","format-standard","hentry","category-4-korpuslinguistik","category-methoden"],"_links":{"self":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts\/247","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/comments?post=247"}],"version-history":[{"count":8,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts\/247\/revisions"}],"predecessor-version":[{"id":262,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts\/247\/revisions\/262"}],"wp:attachment":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/media?parent=247"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/categories?post=247"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/tags?post=247"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}