<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Sprechtakel</title>
	<atom:link href="http://www.bubenhofer.com/sprechtakel/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.bubenhofer.com/sprechtakel</link>
	<description>Linguistische Notizen</description>
	<lastBuildDate>Sat, 05 May 2012 23:44:28 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.2</generator>
		<item>
		<title>LDA-Toolkit: Korpusanalyse zum Klicken statt Tippen</title>
		<link>http://www.bubenhofer.com/sprechtakel/2012/05/05/lda-toolkit-korpusanalyse-zum-klicken-statt-tippen/</link>
		<comments>http://www.bubenhofer.com/sprechtakel/2012/05/05/lda-toolkit-korpusanalyse-zum-klicken-statt-tippen/#comments</comments>
		<pubDate>Sat, 05 May 2012 23:44:28 +0000</pubDate>
		<dc:creator>Herr Sprechtakel</dc:creator>
				<category><![CDATA[Korpuslinguistik]]></category>
		<category><![CDATA[Korpustools]]></category>
		<category><![CDATA[AncConc]]></category>
		<category><![CDATA[Corpus Workbench]]></category>
		<category><![CDATA[kfnGram]]></category>
		<category><![CDATA[Korpustool]]></category>
		<category><![CDATA[LDA-Toolkit]]></category>
		<category><![CDATA[R]]></category>

		<guid isPermaLink="false">http://www.bubenhofer.com/sprechtakel/?p=210</guid>
		<description><![CDATA[<style type="text/css">
#leftcontainerBox {
	float:left;
	position: fixed;
	top: 60%;
	left: 70px;
}
#leftcontainerBox .buttons {
	float:left;
	clear:both;
	margin:4px 4px 4px 4px;
	padding-bottom:2px;
}
#bottomcontainerBox {
	width: 50%;
	padding-top: 1px;
}
#bottomcontainerBox .buttons {
	float: left;
	margin: 4px 4px 4px 4px;
}
</style>
Korpuslinguistische Analysen begnügen sich heute nicht mehr damit, bloß Belege für ein bestimmtes Phänomen in einem bestehenden Korpus zu suchen. Vielmehr möchte man eigene Korpora aufbauen und avanciertere Analysemethoden anwenden: Automatisches Wortarten-Tagging der Daten Keyword-Analysen durch Vergleich mehrerer Korpora miteinander &#8230; <a href="http://www.bubenhofer.com/sprechtakel/2012/05/05/lda-toolkit-korpusanalyse-zum-klicken-statt-tippen/">Weiterlesen <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<style type="text/css">
#leftcontainerBox {
	float:left;
	position: fixed;
	top: 60%;
	left: 70px;
}
#leftcontainerBox .buttons {
	float:left;
	clear:both;
	margin:4px 4px 4px 4px;
	padding-bottom:2px;
}
#bottomcontainerBox {
	width: 50%;
	padding-top: 1px;
}
#bottomcontainerBox .buttons {
	float: left;
	margin: 4px 4px 4px 4px;
}
</style>
<p>Korpuslinguistische Analysen begnügen sich heute nicht mehr damit, bloß Belege für ein bestimmtes Phänomen in einem bestehenden Korpus zu suchen. Vielmehr möchte man eigene Korpora aufbauen und avanciertere Analysemethoden anwenden:</p>
<ul>
<li>Automatisches Wortarten-Tagging der Daten</li>
<li>Keyword-Analysen durch Vergleich mehrerer Korpora miteinander</li>
<li>n-Gramm/Cluster-Analysen, um typische Floskeln zu finden</li>
<li>&#8230;und vieles mehr</li>
</ul>
<p>Für fast alle Wünsche gibt es inzwischen Tools, die allerdings meistens Programmierkenntnisse oder zumindest keine Scheu vor der Shell erfordern. Nicht alle Forscher/innen bringen dies mit oder interessieren sich dafür. Hier setzt Friedemann Vogels &#8220;<a href="http://friedemann-vogel.de/software/lda-toolkit">LDA-Toolkit</a>&#8221; an, die &#8220;Korpuslinguistische Arbeitsumgebung für linguistische Diskurs- und Imageanalysen&#8221;.</p>
<p>Damit lassen sich die oben genannten Funktionen (und einige mehr) mit wenigen Mausklicks mit eigenen Korpusdaten ausführen. Das Programm läuft unter Windows, ist Freeware und inzwischen in der Beta-Version 2.7 verfügbar. Ich habe es ausprobiert&#8230;</p>
<p><span id="more-210"></span></p>
<p>Wie sieht ein typischer Arbeitsablauf mit dem Toolkit aus? Ich experimentierte mit meinen <a title="Wulff’sche Floskeln" href="http://www.bubenhofer.com/sprechtakel/2012/02/17/wulffsche-floskeln/">Korpora zur Wulff-Affäre</a> (<a title="Skandalisierung: Berichterstattung zu Wulff" href="http://www.bubenhofer.com/sprechtakel/2012/01/21/skandalisierung-berichterstattung-zu-wulff/">auch hier</a>), die ich bereits mit anderer Software (<a href="http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/">TreeTagger</a>, <a href="http://cwb.sourceforge.net/">Corpus Workbench</a>, <a href="http://www.semtracks.org/web/index.php?id=Projects/Projekte">semtracks Matrixanalyse</a>/<a href="http://www.bubenhofer.com/publikation.php?id=5">komplexe n-Gramme</a>, <a href="http://www.r-project.org/">R</a>) bearbeitete.</p>
<h3>Datenimport</h3>
<p>Die Daten müssen in getaggter und vertikalisierter Form vorliegen, wie es der <a href="http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/">TreeTagger</a> typischerweise ausspuckt:</p>
<pre>Das   PDS   d
ist   VAFIN  sein
ein   ART   ein
Text  NN    Text
.     $.    .</pre>
<p>Der Text muss in Latin-1 vorliegen (UTF-8 wird leider nicht unterstützt) und beim Import wird alles auf Kleinschreibung normalisiert (was eigentlich bei Daten, die auch in lemmatisierter Form vorliegen, nicht notwendig wäre).</p>
<p>Das LDA-Toolkit ist am sinnvollsten zu verwenden, wenn man zum eigentlichen Untersuchungskorpus ein Referenzkorpus zur Hand hat, das ebenfalls importiert wird.</p>
<h3>Der LDA-Baum und die Kollokationsanalyse</h3>
<div id="attachment_218" class="wp-caption alignnone" style="width: 1002px"><a href="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2012/05/ldatoolkitscreen1.png"><img class="size-full wp-image-218" title="ldatoolkitscreen1" src="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2012/05/ldatoolkitscreen1.png" alt="" width="992" height="580" /></a><p class="wp-caption-text">LDA-Toolkit: Berechnung von Kollokationen zu &quot;Kredit&quot;, Darstellung als LDA-Baum</p></div>
<p>Herzstück ist der LDA-Baum: Hier werden alle vorgenommenen Analysen abgelegt, so dass sie gesichtet und manuell kategorisiert werden können. Zu Beginn der Arbeit könnte vielleicht eine Kollokationsanalyse (Kookkurrenzen) anstehen: Ich vermute, dass in meinen Wulff-Daten &#8220;Kredit&#8221; ein Schlüsselbegriff ist. In welcher lexikalischen Umgebung kommt das Wort vor? Das Toolkit erlaubt verschiedene Einstellungen: Es muss ein Suchfenster definiert werden und es kann auf die lemmatisierten Daten und die Wortarten-Annotation zurückgegriffen werden, um sich z.B. nur Nomen in ihrer jeweiligen Grundform als Kollokatoren zu &#8220;Kredit&#8221; anzuzeigen. Das Ergebnis wird als hierarchischer, aufklappbarer Baum dargestellt, um einen guten Überblick über das Resultat zu bewahren.</p>
<p>Etwas verwirrend ist, dass die Wahl des Signifikanzmaßes, mit dem gerechnet wird, zwei grundlegend unterschiedliche Funktionen unterscheidet. Wählt man &#8220;T-Score&#8221; wird eine klassische Kollokationsanalyse gemacht. Wählt man jedoch &#8220;Chi-Square&#8221; wird eine kontrastive Analyse gemacht: Die Frage ist dann, welche Kollokatoren besonders typisch zum Ausgangswort sind, wenn man das Verhalten zum gleichen Ausgangswort im Referenzkorpus hinzuzieht. Oder: Wenn ein anderes Ausgangswort im gleichen Korpus als Referenz verwendet wird. Das sind interessante Analysemethoden, die jedoch nicht auf den ersten Blick ersichtlich sind. Zudem ist der statistische Test &#8220;T-Score&#8221; nicht State of the Art, um Kollokationen zu berechnen. Ein Log-Likelihood-Test wäre besser.</p>
<h3>Clusteranalysen</h3>
<p>Darunter versteht das LDA-Toolkit n-Gramm-Analysen: Es werden alle potenziell möglichen Wortkombinationen der Länge n berechnet und nach Frequenz oder Signifikanz im Vergleich zum Referenzkorpus geordnet. Neben n-Grammen, die auf den laufenden Wortformen beruhen, können auch POS-Gramme, also Wortgruppen nur aus Wortarten bestehend berechnet werden (hier die frequentesten POS-Gramme, die ein Nomen, NN, enthalten):</p>
<pre>nn appr art nn
art nn art nn
nn art adja nn
adja nn art nn
nn art nn appr</pre>
<p>Analysen dieser Art sind besonders in kontrastiver Anwendung mit einem Referenzkorpus interessant, um typische Sprachgebrauchsmuster (Bubenhofer 2009) zu entdecken. Das LDA-Toolkit bietet dafür viel Komfort (etwa im Vergleich zum zwar mächtigen aber schwieriger zu bedienenden <a href="http://www.d.umn.edu/~tpederse/nsp.html">Ngram Statistics Package</a> von Ted Pedersen) und mehr Funktionalität als etwa die ebenfalls einfach zu bedienenden Programme <a href="http://www.kwicfinder.com/kfNgram/kfNgramHelp.html">kfnGram</a> von William H. Fletcher oder <a href="http://www.antlab.sci.waseda.ac.jp/software.html">AntConc</a> von Laurence Anthony. Mir fehlt jedoch zum ganzen Glück auch im LDA-Toolkit die Funktion, Wortformen, Lemmata und  POS-Angaben mischen zu können, wie wir es in der semtracks Forschergruppe mit einem eigenen Programm, das direkt auf die Corpus Workbench zugreift, entwickelt haben (Scharloth/Bubenhofer 2012; Bubenhofer/Scharloth im Druck). Allerdings bedingt eine solche Funktion der Berechnung von komplexen n-Grammen eine sehr performante Umgebung, wie sie mit der Corpus Workbench und dem invertierten Index dort gegeben ist.</p>
<h3>Keywords und KWICS</h3>
<p>Natürlich ist im LDA-Toolkit auch eine Keyword-Funktion eingebaut, mit der sich die typischen (statistisch signifikanten) Wörter im Untersuchungskorpus im Vergleich zum Referenzkorpus berechnen lassen. Und es ist ein einfacher Konkordanzer eingebaut, um nach Belegen zu suchen, der aber kein Ersatz für eine richtige Konkordanzsoftware sein soll.</p>
<div id="attachment_223" class="wp-caption alignnone" style="width: 710px"><a href="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2012/05/ldatoolkitscreen2.png"><img class="size-full wp-image-223" title="ldatoolkitscreen2" src="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2012/05/ldatoolkitscreen2.png" alt="" width="700" height="440" /></a><p class="wp-caption-text">Ausschnitt aus der Keywordliste: Das typische Wulff-Affären-Vokabular</p></div>
<h3>Visualisierung</h3>
<p>Hübsch sind die eingebauten Visualisierungsfunktionen: Wortlisten aus dem LDA-Baum, also z.B. eine Keyword-Liste, kann mit Hilfe der Drittsoftware <a href="http://www.wordle.net/">Wordle</a> als Wortwolke visualisiert werden. Und Kollokationsbäume lassen sich ebenfalls über eine Drittsoftware, <a href="http://www.graphviz.org/">GraphViz</a>, als Graph darstellen. Das LDA-Toolkit bietet zu beiden Programmen angenehme Schnittstellen.</p>
<div id="attachment_224" class="wp-caption alignnone" style="width: 1136px"><a href="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2012/05/ldatoolkitscreen3.png"><img class="size-full wp-image-224" title="ldatoolkitscreen3" src="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2012/05/ldatoolkitscreen3.png" alt="" width="1126" height="595" /></a><p class="wp-caption-text">Visualisierung in Form einer Wortwolke im LDA-Toolkit</p></div>
<h3>Fazit</h3>
<p>Die Software ist ein Segen für alle, die inzwischen gängige Analysemethoden, wie sie in der Diskursanalyse und der Korpuspragmatik verwendet werden, ohne großen technischen Aufwand selber durchführen möchten. Auch für die Lehre ist das Toolkit eine geeignete Software, damit sich die Studierenden nicht mit technischen Problemen herumschlagen müssen, bis sie Analysen durchführen können.</p>
<p>Schade finde ich, dass die Software nur unter Windows läuft (die konkurrierende Software AntConc läuft beispielsweise neben Windows auch auf Unix-Systemen und Mac OS X) und mir scheint auch, dass die Bearbeitung größerer Korpora schwierig wird. Bei meinem 3,4-Mio.-Wörter-Korpus rechnete das Toolkit über eine Stunde, um die Anzahl der Tokens und Lemmatas zu berechnen (zugegeben: auf einem MacBook Pro Dual-Boot-System, was wohl nicht die performanteste Hardwareumgebung für Windows ist).</p>
<p>Längerfristig stellt sich die Frage, ob die Nische für Programme dieser Art bestehen bleibt: Das EU-Mammut-Projekt <a href="http://de.clarin.eu/index.php/de/">Clarin-D</a> wird beispielsweise (hoffentlich) eine Plattform werden, in die Spezialfunktionen, wie sie die Diskursanalyse bedingt, als Plug-ins in eine saubere und performante Online-Softwareumgebung, die auch kollaboratives Arbeiten ermöglicht, eingebaut werden können. Oder die <a href="http://www.r-project.org">Programmiersprache R</a>, die sich auch in der Korpuslinguistik zu einem immer weiter verbreiteten Statistik-Paket mausert, wäre eine gute Basis, um beliebige Analysefunktionen als Bibliotheken systemübergreifend und modulartig anbieten zu können. Ebenso die <a href="http://cwb.sourceforge.net/">Corpus Workbench</a>, die in Sachen Performanz noch immer eine hohe Messlatte darstellt und in einer lebendigen Community weiter entwickelt wird.</p>
<p>Trotzdem: Das LDA-Toolkit ist es definitiv wert, auszuprobieren, wenn man mit eigenen Korpusdaten arbeiten möchte.</p>
<div class="csl-bib-body" style="line-height: 1.35; padding-left: 2em; text-indent: -2em;">
<div class="csl-bib-body" style="line-height: 1.35; padding-left: 2em; text-indent: -2em;"></div>
<div class="csl-entry"><span style="color: #808080;">Bubenhofer, Noah (2009): Sprachgebrauchsmuster. Korpuslinguistik als Methode der Diskurs- und Kulturanalyse, Sprache und Wissen 4, Berlin, New York: de Gruyter.</span></div>
<div class="csl-entry"><span style="color: #808080;">Bubenhofer, Noah und Joachim Scharloth (im Druck): „Korpuspragmatische Analysen alpinistischer Literatur“, Travaux neuchâtelois de linguistique.</span></div>
<div class="csl-entry"><span style="color: #808080;">Scharloth, Joachim und Noah Bubenhofer (2012): „Datengeleitete Korpuspragmatik: Korpusvergleich als Methode der Stilanalyse“.</span></div>
<div class="csl-entry"></div>
</div>
]]></content:encoded>
			<wfw:commentRss>http://www.bubenhofer.com/sprechtakel/2012/05/05/lda-toolkit-korpusanalyse-zum-klicken-statt-tippen/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Wulff&#8217;sche Floskeln</title>
		<link>http://www.bubenhofer.com/sprechtakel/2012/02/17/wulffsche-floskeln/</link>
		<comments>http://www.bubenhofer.com/sprechtakel/2012/02/17/wulffsche-floskeln/#comments</comments>
		<pubDate>Fri, 17 Feb 2012 14:22:36 +0000</pubDate>
		<dc:creator>Herr Sprechtakel</dc:creator>
				<category><![CDATA[Korpora]]></category>
		<category><![CDATA[Korpuslinguistik]]></category>
		<category><![CDATA[Sprechtakel]]></category>
		<category><![CDATA[Floskeln]]></category>
		<category><![CDATA[Politik]]></category>
		<category><![CDATA[Skandal]]></category>
		<category><![CDATA[Sprachgebrauchsmuster]]></category>

		<guid isPermaLink="false">http://www.bubenhofer.com/sprechtakel/?p=204</guid>
		<description><![CDATA[<style type="text/css">
#leftcontainerBox {
	float:left;
	position: fixed;
	top: 60%;
	left: 70px;
}
#leftcontainerBox .buttons {
	float:left;
	clear:both;
	margin:4px 4px 4px 4px;
	padding-bottom:2px;
}
#bottomcontainerBox {
	width: 50%;
	padding-top: 1px;
}
#bottomcontainerBox .buttons {
	float: left;
	margin: 4px 4px 4px 4px;
}
</style>
Jetzt, da die Bundespräsidentschaft von Christian Wulff zu Ende ist, möchte ich ein paar weitere Ergebnisse der Analysen dieser Affäre präsentieren. Das Thema heute: Floskeln. Mit einem datengeleiteten Verfahren können die typischen Sprachgebrauchmuster herausgearbeitet werden: Welche sprachlichen Muster sind typisch &#8230; <a href="http://www.bubenhofer.com/sprechtakel/2012/02/17/wulffsche-floskeln/">Weiterlesen <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<style type="text/css">
#leftcontainerBox {
	float:left;
	position: fixed;
	top: 60%;
	left: 70px;
}
#leftcontainerBox .buttons {
	float:left;
	clear:both;
	margin:4px 4px 4px 4px;
	padding-bottom:2px;
}
#bottomcontainerBox {
	width: 50%;
	padding-top: 1px;
}
#bottomcontainerBox .buttons {
	float: left;
	margin: 4px 4px 4px 4px;
}
</style>
<p>Jetzt, da die Bundespräsidentschaft von Christian Wulff zu Ende ist, möchte ich ein paar weitere Ergebnisse der Analysen dieser Affäre präsentieren. Das Thema heute: Floskeln.</p>
<p>Mit einem datengeleiteten Verfahren können die typischen Sprachgebrauchmuster herausgearbeitet werden: Welche sprachlichen Muster sind typisch für den Wulff-Skandal? Als &#8220;sprachliches Muster&#8221; fassen wir hier Kombinationen von Wörtern und Wortarten, also z.B.:</p>
<p><strong>in/APPR PPOSAT NN als/KOKOM</strong></p>
<ul>
<li>in seiner Zeit als</li>
<li>in seine Rolle als</li>
<li>in ihrer Laufbahn als</li>
<li>&#8230;</li>
</ul>
<p>Beispielsweise ist das Muster &#8220;in&#8221; als Präposition (APPR), gefolgt von einem beliebigen Possesivpronomen (PPOSAT), einem Nomen (NN) und &#8220;als&#8221; als Konjunktion hoch signifikant für Pressetexte von Bild.de und der Süddeutschen.de in der Zeit der Skandalberichterstattung. Da das Muster etwas abstrakt wirkt, sind darunter noch sprachliche Realisierungen des Muster genannt: &#8220;in seiner Zeit als&#8221;, &#8220;in seiner Rolle als&#8221; etc. Davon gibt es natürlich noch einige mehr.</p>
<p>Die folgenden Muster bezeichnen den <span style="color: #ff0000;">Skandalgegenstand</span>:</p>
<p><strong>der/ART Kredit-/TRUNC und NN</strong></p>
<ul>
<li>der Kredit- und Urlaubsaffäre</li>
<li>der Kredit- und Medienaffäre</li>
<li>der Kredit- und Medien-Affäre</li>
</ul>
<p><strong> 500/CARD 000/CARD NN</strong></p>
<ul>
<li>500 000 Euro</li>
</ul>
<p><strong>NN bei/APPR NN NN</strong></p>
<ul>
<li>Anruf bei Bild-Chefredakteur Kai</li>
<li>Drohanruf bei Bild-Chefredakteuer Kai</li>
<li>Bundespräsidenten bei Bild-Chefredakteur Kai</li>
<li>Mailbox-Nachricht bei Bild-Chefredakteur Kai</li>
</ul>
<p>Wichtig sind Muster, die im Zusammenhang mit dem <span style="color: #ff0000;">Enthüllen und Aufarbeiten</span> entstehen:</p>
<p><strong>ADJA NN zu/APPR PPOSAT</strong></p>
<ul>
<li>kritischen Fragen zu seinem</li>
<li>engen Bezug zu seinem</li>
<li>Nähere Details zu meiner</li>
</ul>
<p><strong>ADJA NN ans/APPRART NN</strong></p>
<ul>
<li>letzten Tagen ans Licht</li>
<li>weitere Details ans Tageslicht</li>
</ul>
<p>Die folgenden Muster sind Sprechakte des <span style="color: #ff0000;">Entschuldigens und Rechtfertigens</span>:</p>
<p><strong>dass/KOUS ADV ein/ART ADJA</strong></p>
<ul>
<li>dass hier ein falscher [Eindruck entstehen konnte]</li>
</ul>
<p><strong>VAFIN PPER VVINF VMINF</strong></p>
<ul>
<li>hätte ich sagen sollen</li>
<li>hätte ich vermeiden können</li>
</ul>
<p><strong>Das/PDS VMFIN man/PIS VVINF</strong></p>
<ul>
<li>Das kann man schlucken</li>
<li>Das muss man verantworten</li>
<li>Das kann man erklären</li>
</ul>
<p>Viele weitere Muster stehen für andere Aspekte der Skandalisierung. Interessant ist jedoch der Zusammenhang von Muster und Anzahl (unterschiedlichen) Realisierungen des Musters. Das Muster <strong>dass/KOUS ADV ein/ART ADJA</strong> beispielsweise weist nur sehr wenige unterschiedliche Realisierungen auf. Das Verhältnis von Muster (Type) zu Realisierung (Token) ist 33 : 100. Das Muster <strong>ADJA NN zu/APPR PPOSAT</strong> hingegen weist ein Verhältnis von 7.7 : 100 auf, ist also viel produktiver, führt also zu viel mehr unterschiedlichen Realisierungen.</p>
<p>Gemittelt über alle Muster in den Skandaltexten im Vergleich zu einem Referenzkorpus aus Wulff&#8217;schen Nicht-Skandaltexten und Texten zu Angela Merkel im gleichen Zeitraum und der gleichen Zeitungen zeigt nun das folgende Bild:</p>
<p><a href="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2012/02/TTR3SkandalReferenzSimple.png"><img class="alignnone size-full wp-image-205" title="TTR3SkandalReferenzSimple" src="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2012/02/TTR3SkandalReferenzSimple.png" alt="" width="635" height="365" /></a></p>
<p>Im Skandalkorpus liegt der Median aller Muster bei einem Verhältnis von 20:100 (dicker Querbalken), der Durchschnitt bei etwa 30:100. Im Referenzkorpus allerdings bei etwa 2:100. Das bedeutet: In Skandalzeiten wird viel floskelhafter geschrieben als sonst. Das mag an Folgendem liegen:</p>
<ul>
<li>Statements der Skandalisierten, O-Töne, werden stärker als sonst zitiert.</li>
<li>Es gibt typische Sprachfloskeln der Skandalisierung.</li>
<li>Die Skandalisierer schießen sich auf Sachverhalte ein, die immer und immer wieder vorgebracht werden.</li>
</ul>
<p>Wulff konnte sich nicht im Amt halten; die Hoffnung, dass &#8220;<a href="http://www.bild.de/politik/inland/christian-wulff/wulff-zuversichtliche-rede-in-bellevue-21956976.bild.html">dieses Stahlgewitter bald vorbei ist</a>&#8220;, hat sich nicht erfüllt.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bubenhofer.com/sprechtakel/2012/02/17/wulffsche-floskeln/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Skandalisierung: Berichterstattung zu Wulff</title>
		<link>http://www.bubenhofer.com/sprechtakel/2012/01/21/skandalisierung-berichterstattung-zu-wulff/</link>
		<comments>http://www.bubenhofer.com/sprechtakel/2012/01/21/skandalisierung-berichterstattung-zu-wulff/#comments</comments>
		<pubDate>Sat, 21 Jan 2012 12:13:47 +0000</pubDate>
		<dc:creator>Herr Sprechtakel</dc:creator>
				<category><![CDATA[Korpora]]></category>
		<category><![CDATA[Korpuslinguistik]]></category>
		<category><![CDATA[Sprechtakel]]></category>
		<category><![CDATA[Adjektive]]></category>
		<category><![CDATA[Deutschland]]></category>
		<category><![CDATA[Skandal]]></category>
		<category><![CDATA[Wahlen]]></category>
		<category><![CDATA[Wulff]]></category>

		<guid isPermaLink="false">http://www.bubenhofer.com/sprechtakel/?p=189</guid>
		<description><![CDATA[<style type="text/css">
#leftcontainerBox {
	float:left;
	position: fixed;
	top: 60%;
	left: 70px;
}
#leftcontainerBox .buttons {
	float:left;
	clear:both;
	margin:4px 4px 4px 4px;
	padding-bottom:2px;
}
#bottomcontainerBox {
	width: 50%;
	padding-top: 1px;
}
#bottomcontainerBox .buttons {
	float: left;
	margin: 4px 4px 4px 4px;
}
</style>
Die Skandale um Bundespräsident Christian Wulff sind ein wunderbares Untersuchungsobjekt für die Linguistik. Genauer: Die Berichterstattung darüber. Wie wird ein Skandal sprachlich konstruiert? Um dies zu untersuchen habe ich ein kleines Korpus aller Artikel zu &#8220;Wulff&#8221;, die auf Bild.de und &#8230; <a href="http://www.bubenhofer.com/sprechtakel/2012/01/21/skandalisierung-berichterstattung-zu-wulff/">Weiterlesen <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<style type="text/css">
#leftcontainerBox {
	float:left;
	position: fixed;
	top: 60%;
	left: 70px;
}
#leftcontainerBox .buttons {
	float:left;
	clear:both;
	margin:4px 4px 4px 4px;
	padding-bottom:2px;
}
#bottomcontainerBox {
	width: 50%;
	padding-top: 1px;
}
#bottomcontainerBox .buttons {
	float: left;
	margin: 4px 4px 4px 4px;
}
</style>
<p>Die Skandale um Bundespräsident <a href="http://de.wikipedia.org/wiki/Christian_Wulff">Christian Wulff</a> sind ein wunderbares Untersuchungsobjekt für die Linguistik. Genauer: Die Berichterstattung darüber. Wie wird ein Skandal sprachlich konstruiert?</p>
<p>Um dies zu untersuchen habe ich ein kleines Korpus aller Artikel zu &#8220;Wulff&#8221;, die auf Bild.de und Sueddeutsche.de erschienen sind, zusammengestellt. Das Korpus umfasst gut 2 Mio. Wörter und verteilt sich wie folgt:</p>
<table border="0">
<tbody>
<tr>
<td></td>
<td style="text-align: right;"><em>Wörter</em></td>
<td style="text-align: right;"><em>Artikel</em></td>
<td style="text-align: right;"><em>Wörter/Artikel</em></td>
</tr>
<tr>
<td><span style="color: #ff0000;">Bild.de</span></td>
<td align="right">907.176</td>
<td align="right"> 2551</td>
<td align="right">356</td>
</tr>
<tr>
<td><span style="color: #0000ff;">Sueddeutsche.de</span></td>
<td align="right">1.201.773</td>
<td align="right">1519</td>
<td align="right">791</td>
</tr>
</tbody>
</table>
<p>Nicht weiter überraschend: Bild-Artikel sind im Schnitt etwa halb so lang wie Artikel der Süddeutschen Zeitung. Interessanter ist nun das Folgende: Ein Indikator dafür, ob etwas positiv, neutral oder negativ dargestellt wird, sind Adjektive. Deshalb habe ich in den Texten alle Adjektive extrahiert, die vor &#8220;Bundespräsident&#8221; erscheinen. Dabei ist folgende Grafik entstanden:</p>
<p>&nbsp;</p>
<p><a href="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2012/01/RplotAdjektive-v2.png"><img class="alignnone size-full wp-image-201" title="Adjektive vor 'Bundespräsident' in Artikeln von Bild.de und Sueddeutsche.de" src="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2012/01/RplotAdjektive-v2.png" alt="" width="1565" height="1265" /></a>Man sieht in der Grafik, wann von welcher Zeitung welche Adjektive verwendet wurden. Auf der gleichen horizontalen Linie erscheint immer das gleiche Adjektiv (darunter auch solche, die vom Tagger fälschlicherweise als Adjektiv klassifiziert wurden), wobei ersichtlich wird, zu welchen Zeitpunkten besonders viele Adjektive verwendet werden. Im Detail:</p>
<ul>
<li>Um die Zeitpunkte der Wahl des Bundespräsidenten (30. Juni 2010) und nach dem ersten Bild-Bericht über Wulffs Hauskredit (13. Dezember 2011) häufen sich die verwendeten Adjektive bei beiden Zeitungen.</li>
<li>Zwischen diesen Zeitpunkten sind vor allem rot eingefärbte Adjektive zu erkennen, also solche, die in Bild-Berichten erschienen. Diese Zeitung berichtete kontinuierlicher über Wulff als die Süddeutsche.</li>
<li>Die Art der verwendeten Adjektive ändert sich: Um die Wahl herum ist vor allem vom &#8220;neuen Bundespräsidenten&#8221; die Rede, die Bild verwendet <span style="color: #ff0000;">&#8220;jung&#8221;, &#8220;deutsch&#8221;, &#8220;jetzig&#8221;, &#8220;damalig&#8221;/&#8221;ehemalig&#8221;</span> (nicht auf Wulff bezogen) etc. bis zum Kredit-Artikel hin. Ab dann ändert sich das Bild und es sind viel mehr negativ konnotierte Adjektive sichtbar: <span style="color: #ff0000;">&#8220;lausig&#8221;, &#8220;tolpatschig&#8221;, &#8220;gebeutelt&#8221;, &#8220;böse&#8221; (Bild)</span>, <span style="color: #0000ff;">&#8220;umstritten&#8221;, &#8220;schlecht&#8221;, &#8220;reumütig&#8221;, &#8220;bedrängt&#8221; (Süddeutsche)</span> etc.</li>
<li>Die Anzahl der unterschiedlichen Adjektive ist seit dem Bild-Kreditbericht größer als noch bei der Wahl: Der Skandal bedeutet, dass weniger uniform über Wulff geschrieben wird; nach der Wahl scheint – zumindest gemessen an den Adjektiven – die Berichterstattung weniger emotional und etwas eintöniger gewesen zu sein. Jetzt ist sie emotionaler und adjektivfreudiger.</li>
</ul>
<div><span style="font-size: small;"><span style="font-size: small;">(Kleines Update: Grafik ohne Beschriftung der y-Achse; erster Absatz: Skandale werden natürlich konstruiert und sind nicht einfach da&#8230;)</span></span></div>
]]></content:encoded>
			<wfw:commentRss>http://www.bubenhofer.com/sprechtakel/2012/01/21/skandalisierung-berichterstattung-zu-wulff/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Die Karte im Kopf: Über welche Orte schreiben wir?</title>
		<link>http://www.bubenhofer.com/sprechtakel/2011/11/12/die-karte-im-kopf-uber-welche-orte-schreiben-wir/</link>
		<comments>http://www.bubenhofer.com/sprechtakel/2011/11/12/die-karte-im-kopf-uber-welche-orte-schreiben-wir/#comments</comments>
		<pubDate>Sat, 12 Nov 2011 14:00:59 +0000</pubDate>
		<dc:creator>Herr Sprechtakel</dc:creator>
				<category><![CDATA[Korpora]]></category>
		<category><![CDATA[Korpuslinguistik]]></category>
		<category><![CDATA[Sprechtakel]]></category>
		<category><![CDATA[Diskurs]]></category>
		<category><![CDATA[Geotagging]]></category>
		<category><![CDATA[NZZ]]></category>

		<guid isPermaLink="false">http://www.bubenhofer.com/sprechtakel/?p=183</guid>
		<description><![CDATA[<style type="text/css">
#leftcontainerBox {
	float:left;
	position: fixed;
	top: 60%;
	left: 70px;
}
#leftcontainerBox .buttons {
	float:left;
	clear:both;
	margin:4px 4px 4px 4px;
	padding-bottom:2px;
}
#bottomcontainerBox {
	width: 50%;
	padding-top: 1px;
}
#bottomcontainerBox .buttons {
	float: left;
	margin: 4px 4px 4px 4px;
}
</style>
Gerade bin ich auf eine Arbeit von Mark Graham gestoßen: Mapping Wikipedia&#8217;s augmentations of our planet. Er liest die Geotags von Wikipedia-Artikeln aus, um dann auf Karten darzustellen, welche Orte in der Wikipedia thematisiert werden. Wenn man die englischsprachige mit anderssprachigen &#8230; <a href="http://www.bubenhofer.com/sprechtakel/2011/11/12/die-karte-im-kopf-uber-welche-orte-schreiben-wir/">Weiterlesen <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<style type="text/css">
#leftcontainerBox {
	float:left;
	position: fixed;
	top: 60%;
	left: 70px;
}
#leftcontainerBox .buttons {
	float:left;
	clear:both;
	margin:4px 4px 4px 4px;
	padding-bottom:2px;
}
#bottomcontainerBox {
	width: 50%;
	padding-top: 1px;
}
#bottomcontainerBox .buttons {
	float: left;
	margin: 4px 4px 4px 4px;
}
</style>
<p>Gerade bin ich auf eine Arbeit von Mark Graham gestoßen: <a href="http://www.zerogeography.net/2011/11/mapping-wikipedias-augmentations-of-our.html">Mapping Wikipedia&#8217;s augmentations of our planet</a>. Er liest die Geotags von Wikipedia-Artikeln aus, um dann auf Karten darzustellen, welche Orte in der Wikipedia thematisiert werden. Wenn man die englischsprachige mit anderssprachigen Wikipedias vergleicht, sieht man erwartungsgemäß deutliche Unterschiede der erwähnten Orte.</p>
<p>Ein ähnliches Experiment führte ich im Rahmen meiner <a href="http://www.bubenhofer.com/index.php?id=2">Diss</a> durch, wo ich ein Korpus von Artikeln der <a href="http://www.nzz.ch">Neuen Zürcher Zeitung</a> der Jahre 1995 bis 2005 korpuslinguistisch auswertete. In einem Teilprojekt stellte ich die darin erwähnten Orte (Städte, Länder, Kontinente) auf Karten dar, um sozusagen die mentale Karte der Leserinnen und Leser der Zeitung zu ergründen:</p>
<div id="attachment_184" class="wp-caption alignnone" style="width: 1107px"><a href="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/11/Bildschirmfoto-2011-11-12-um-14.26.47.png"><img class="size-full wp-image-184" title="Geografische Entitäten im NZZ-Korpus (Neue Zürcher Zeitung)" src="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/11/Bildschirmfoto-2011-11-12-um-14.26.47.png" alt="Geografische Entitäten im NZZ-Korpus (Neue Zürcher Zeitung)" width="1097" height="568" /></a><p class="wp-caption-text">Geografische Entitäten im NZZ-Korpus (Neue Zürcher Zeitung), Bubenhofer 2009: http://www.bubenhofer.com/korpusanalyse/Karte/karteL.html</p></div>
<p><a href="http://www.bubenhofer.com/korpusanalyse/Karte/karteL.html">Die Karte ist interaktiv</a> und man kann die Darstellung nach Ressort (Ausland, Inland, Wirtschaft etc.) und Publikationsjahr differenzieren. Zudem ist oft nicht die absolute Frequenz der Erwähnungen der Orte interessant, sondern ein Variationskoeffizient: Über welche Orte wird gleichmäßig über alle Jahre berichtet und über welche nur sporadisch, dann dafür besonders oft?</p>
<p>Noch interessanter als die Darstellung der Orte, über die berichtet wird, sind die Verwendung von <a href="http://www.bubenhofer.com/korpusanalyse/Karte/karteN.html">ethnischen Bezeichnungen und Nationalitäten</a>: Schweizer, Deutsche, Italiener, Jugoslawen etc. In der NZZ werden im Auslandsressort in Europa von 1995 bis 2005 im untersuchten Korpus hauptsächlich Schweizer, Deutsche, Polen, Ungaren, Serben und Engländer genannt (jeweils inkl. weibliche Formen). Die größten Variationskoeffizienten weisen aber die Nennung der Niederländer, Rumänen, Kroaten und Serben auf. Es handelt sich, so die These, hierbei um Nationalitäten, die in der Wahrnehmung der Schweiz problematisiert werden, da sie nur punktuell, dann aber umfassend, Thema der Berichterstattung sind.</p>
<p>Hier die Links zu den Karten:</p>
<ul>
<li><a href="http://www.bubenhofer.com/korpusanalyse/Karte/karteL.html">Nennung von Ländern und Staaten im NZZ-Korpus</a></li>
<li><a href="http://www.bubenhofer.com/korpusanalyse/Karte/karteN.html">Nennung von Nationalitäten im NZZ-Korpus</a></li>
</ul>
<p>Vgl. dazu: Bubenhofer, Noah (2009): <a href="http://books.google.de/books?id=OraqGSNzf-EC">Sprachgebrauchsmuster</a>. Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. (= Sprache und Wissen 4), Berlin/New York: De Gruyer.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bubenhofer.com/sprechtakel/2011/11/12/die-karte-im-kopf-uber-welche-orte-schreiben-wir/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Sprechen über Berge</title>
		<link>http://www.bubenhofer.com/sprechtakel/2011/10/28/sprechen-uber-berge/</link>
		<comments>http://www.bubenhofer.com/sprechtakel/2011/10/28/sprechen-uber-berge/#comments</comments>
		<pubDate>Fri, 28 Oct 2011 07:38:10 +0000</pubDate>
		<dc:creator>Herr Sprechtakel</dc:creator>
				<category><![CDATA[Korpora]]></category>
		<category><![CDATA[Korpuslinguistik]]></category>
		<category><![CDATA[Sprechtakel]]></category>
		<category><![CDATA[Alpen]]></category>
		<category><![CDATA[Bergsteigen]]></category>
		<category><![CDATA[Schweiz]]></category>
		<category><![CDATA[Wortwolke]]></category>

		<guid isPermaLink="false">http://www.bubenhofer.com/sprechtakel/?p=177</guid>
		<description><![CDATA[<style type="text/css">
#leftcontainerBox {
	float:left;
	position: fixed;
	top: 60%;
	left: 70px;
}
#leftcontainerBox .buttons {
	float:left;
	clear:both;
	margin:4px 4px 4px 4px;
	padding-bottom:2px;
}
#bottomcontainerBox {
	width: 50%;
	padding-top: 1px;
}
#bottomcontainerBox .buttons {
	float: left;
	margin: 4px 4px 4px 4px;
}
</style>
Das Text+Berg-Korpus eignet sich vorzüglich zu linguistische Studien für Liebhaberinnen und Liebhaber der Berge. Denn es enthält alle von 1864 bis 2009 erschienenen Jahrbücher und Alpen-Zeitschriften des Schweizer Alpenclubs: 196 Bände, knapp 36 Mio. Wörter in digitaler Form korpuslinguistisch aufbereitet. &#8230; <a href="http://www.bubenhofer.com/sprechtakel/2011/10/28/sprechen-uber-berge/">Weiterlesen <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<style type="text/css">
#leftcontainerBox {
	float:left;
	position: fixed;
	top: 60%;
	left: 70px;
}
#leftcontainerBox .buttons {
	float:left;
	clear:both;
	margin:4px 4px 4px 4px;
	padding-bottom:2px;
}
#bottomcontainerBox {
	width: 50%;
	padding-top: 1px;
}
#bottomcontainerBox .buttons {
	float: left;
	margin: 4px 4px 4px 4px;
}
</style>
<p>Das <a href="http://www.textberg.ch/">Text+Berg-Korpus</a> eignet sich vorzüglich zu linguistische Studien für Liebhaberinnen und Liebhaber der Berge. Denn es enthält alle von 1864 bis 2009 erschienenen Jahrbücher und Alpen-Zeitschriften des <a href="http://www.sac-cas.ch/">Schweizer Alpenclubs</a>: 196 Bände, knapp 36 Mio. Wörter in digitaler Form korpuslinguistisch aufbereitet.</p>
<p>So kann man beispielsweise fragen, wie sich das Sprechen über Berge von 1864 bis heute verändert hat: Welches Vokabular wird in Berichten über das Bergsteigen verwendet? Welche Funktionen hat das Bergsteigen für den mentalen Haushalt der Gesellschaft?</p>
<p>Zu Beginn bloß eine kleine Illustration zum typischen Vokabular, das in den 1960er und 70er-Jahre verwendet wird im Vergleich zum Vokabular in den 1990er und 2000er-Jahren:</p>
<div id="attachment_178" class="wp-caption alignnone" style="width: 1360px"><a href="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/10/SAC-Jahrbuch_1960er_de.1w.typ_.txt.wordle.short_.color_.png"><img class="size-full wp-image-178" title="Typische Wörter in den SAC-Jahrbüchern der 1960er und 70er-Jahre" src="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/10/SAC-Jahrbuch_1960er_de.1w.typ_.txt.wordle.short_.color_.png" alt="Typische Wörter in den SAC-Jahrbüchern der 1960er und 70er-Jahre" width="1350" height="926" /></a><p class="wp-caption-text">Typische Wörter in den SAC-Jahrbüchern der 1960er und 70er-Jahre</p></div>
<p>Man kann der Wortwolke entnehmen, dass Personalpronomen (&#8220;ich&#8221;, &#8220;wir&#8221;) ganz wichtig sind, sich viel um die &#8220;Kameraden&#8221; und die &#8220;Freunde&#8221; dreht und damit das Gemeinschaftserlebnis Bergbesteigung inszeniert wird. Die Schönheit der Natur mit &#8220;Himmel&#8221;, &#8220;Sonne&#8221;, &#8220;Schnee&#8221; und &#8220;Gletscher&#8221; wird überschwänglich geschildert: &#8220;herrlich&#8221;, &#8220;prächtig&#8221; ist das alles. Auffallend sind viele Verben, die ein Hinweis darauf sind, dass in diesen Büchern in erster Linie Geschichten erzählt werden (wie weitere Studien bestätigen).</p>
<div id="attachment_179" class="wp-caption alignnone" style="width: 1360px"><a href="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/10/SAC-Jahrbuch_1990er_de.1w.typ_.txt.wordle.short_.color_.png"><img class="size-full wp-image-179" title="Typische Wörter in den SAC-Jahrbüchern der 1990er und 2000er-Jahre" src="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/10/SAC-Jahrbuch_1990er_de.1w.typ_.txt.wordle.short_.color_.png" alt="Typische Wörter in den SAC-Jahrbüchern der 1990er und 2000er-Jahre" width="1350" height="906" /></a><p class="wp-caption-text">Typische Wörter in den SAC-Jahrbüchern der 1990er und 2000er-Jahre</p></div>
<p>Ganz anders sieht es in den 1990er und 2000er-Jahren aus: Der &#8220;Sport&#8221; und der &#8220;Wettkampf&#8221; finden Eingang in das Betätigungsfeld in den Bergen und die Publikation des SAC erzählt weniger Geschichten und Erlebnisse aus persönlicher Perspektive, sondern ist ein Service-Heft das über Touren informiert.</p>
<p>Doch Wortwolken sind nur der Anfang der Analysen. Mehr folgt.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bubenhofer.com/sprechtakel/2011/10/28/sprechen-uber-berge/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Deuten Vornamen auf die Parteizugehörigkeit?</title>
		<link>http://www.bubenhofer.com/sprechtakel/2011/10/04/deuten-vornamen-auf-die-parteizugehorigkeit/</link>
		<comments>http://www.bubenhofer.com/sprechtakel/2011/10/04/deuten-vornamen-auf-die-parteizugehorigkeit/#comments</comments>
		<pubDate>Tue, 04 Oct 2011 18:29:19 +0000</pubDate>
		<dc:creator>Herr Sprechtakel</dc:creator>
				<category><![CDATA[Korpuslinguistik]]></category>
		<category><![CDATA[Sprechtakel]]></category>
		<category><![CDATA[Schweiz]]></category>
		<category><![CDATA[Vornamen]]></category>
		<category><![CDATA[Wahlen]]></category>

		<guid isPermaLink="false">http://www.bubenhofer.com/sprechtakel/?p=166</guid>
		<description><![CDATA[<style type="text/css">
#leftcontainerBox {
	float:left;
	position: fixed;
	top: 60%;
	left: 70px;
}
#leftcontainerBox .buttons {
	float:left;
	clear:both;
	margin:4px 4px 4px 4px;
	padding-bottom:2px;
}
#bottomcontainerBox {
	width: 50%;
	padding-top: 1px;
}
#bottomcontainerBox .buttons {
	float: left;
	margin: 4px 4px 4px 4px;
}
</style>
Als ich neulich ein Wochenende in der Schweiz war, erschlugen mich beinahe die vielen Wahlplakate für die kommenden National- und Ständeratswahlen. Doch beim Lesen der vielen Namen fragte ich mich, ob es eigentlich möglich ist, vom Vornamen auf die Parteizugehörigkeit &#8230; <a href="http://www.bubenhofer.com/sprechtakel/2011/10/04/deuten-vornamen-auf-die-parteizugehorigkeit/">Weiterlesen <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<style type="text/css">
#leftcontainerBox {
	float:left;
	position: fixed;
	top: 60%;
	left: 70px;
}
#leftcontainerBox .buttons {
	float:left;
	clear:both;
	margin:4px 4px 4px 4px;
	padding-bottom:2px;
}
#bottomcontainerBox {
	width: 50%;
	padding-top: 1px;
}
#bottomcontainerBox .buttons {
	float: left;
	margin: 4px 4px 4px 4px;
}
</style>
<p>Als ich neulich ein Wochenende in der Schweiz war, erschlugen mich beinahe die vielen Wahlplakate für die kommenden National- und Ständeratswahlen. Doch beim Lesen der vielen Namen fragte ich mich, ob es eigentlich möglich ist, vom Vornamen auf die Parteizugehörigkeit zu schließen.</p>
<p>Bis zu einem gewissen Grad geht das, wie folgende Grafik zeigt:</p>
<div id="attachment_169" class="wp-caption alignnone" style="width: 1832px"><a href="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/10/nationalrat-alle.namen_.html.min200.min10.result.png"><img class="size-full wp-image-169" title="Entscheidungsbaum Vornamen Nationalratskandidaten Schweiz 2011, Parteizugehörigkeit" src="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/10/nationalrat-alle.namen_.html.min200.min10.result.png" alt="Entscheidungsbaum Vornamen Nationalratskandidaten Schweiz 2011, Parteizugehörigkeit" width="1822" height="832" /></a><p class="wp-caption-text">Entscheidungsbaum Vornamen Nationalratskandidaten Schweiz 2011, Parteizugehörigkeit (Zahlen in Klammern: erste Zahl = Anzahl korrekt vorausgesagte Fälle, zweite Zahl = Anzahl falsch vorausgesagter Fälle)</p></div>
<p>Wenn Sie Josef heißen und Politiker sind, kandidieren Sie wahrscheinlich für die CVP. Als Andrea gehören Sie aber eher der SP an und als Peter kommt es darauf an, ob Sie nach oder vor 1957 geboren wurden: Wenn Sie zu den jüngeren Peters gehören, sind Sie wahrscheinlich FDPler, ansonsten EVPler. Die typischen SVP-Vornamen sind Andreas, Hans, Christoph, Pierre und Eric. Grüne heißen eher Susanne, Felix, Claudia, Esther und Philipp. Und die Grünliberalen hören auf Vornamen wie Stefan, Alain, David und Yves.</p>
<p>Aber keine Angst, falls Sie einen Vornamen tragen, der zu einer Partei führt, die Sie unsympathisch finden: So gut ist die Trefferquote nicht; sie liegt je nach Verfahren bei etwa 55 bis 65%. Die Trefferquote sollte sich aber verbessern lassen, wenn der Wahlkreis (und damit regionale Besonderheiten der Namensgebung) einbezogen wird.</p>
<p>Interessant wäre nun noch herauszufinden, ob die Namen der Wählenden bezüglich Parteiensympathie die gleichen Tendenzen aufweisen wie die PolitikerInnen! Doch leider fehlen mir da die Daten&#8230;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bubenhofer.com/sprechtakel/2011/10/04/deuten-vornamen-auf-die-parteizugehorigkeit/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Wörter, die an einer Stadt kleben: Geocollocations</title>
		<link>http://www.bubenhofer.com/sprechtakel/2011/09/20/worter-die-an-einer-stadt-kleben-geocollocations/</link>
		<comments>http://www.bubenhofer.com/sprechtakel/2011/09/20/worter-die-an-einer-stadt-kleben-geocollocations/#comments</comments>
		<pubDate>Tue, 20 Sep 2011 20:41:35 +0000</pubDate>
		<dc:creator>Herr Sprechtakel</dc:creator>
				<category><![CDATA[Korpuslinguistik]]></category>
		<category><![CDATA[Sprechtakel]]></category>
		<category><![CDATA[Berlin]]></category>
		<category><![CDATA[Deutschland]]></category>
		<category><![CDATA[Geocollocations]]></category>
		<category><![CDATA[Hamburg]]></category>
		<category><![CDATA[Kollokationen]]></category>
		<category><![CDATA[Spiegel Online]]></category>
		<category><![CDATA[Stuttgart]]></category>
		<category><![CDATA[Tübingen]]></category>

		<guid isPermaLink="false">http://www.bubenhofer.com/sprechtakel/?p=153</guid>
		<description><![CDATA[<style type="text/css">
#leftcontainerBox {
	float:left;
	position: fixed;
	top: 60%;
	left: 70px;
}
#leftcontainerBox .buttons {
	float:left;
	clear:both;
	margin:4px 4px 4px 4px;
	padding-bottom:2px;
}
#bottomcontainerBox {
	width: 50%;
	padding-top: 1px;
}
#bottomcontainerBox .buttons {
	float: left;
	margin: 4px 4px 4px 4px;
}
</style>
Paris, Stadt der Liebe, Wuppertal, die Schwebebahn, München, das Oktoberfest: An gewissen Städten kleben Wörter, die wir damit in Verbindung bringen. Ich wollte es genauer wissen. Wie sieht es mit Berlin, Bremen oder Bonn aus? Welche Wörter kleben an den &#8230; <a href="http://www.bubenhofer.com/sprechtakel/2011/09/20/worter-die-an-einer-stadt-kleben-geocollocations/">Weiterlesen <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<style type="text/css">
#leftcontainerBox {
	float:left;
	position: fixed;
	top: 60%;
	left: 70px;
}
#leftcontainerBox .buttons {
	float:left;
	clear:both;
	margin:4px 4px 4px 4px;
	padding-bottom:2px;
}
#bottomcontainerBox {
	width: 50%;
	padding-top: 1px;
}
#bottomcontainerBox .buttons {
	float: left;
	margin: 4px 4px 4px 4px;
}
</style>
<p>Paris, Stadt der Liebe, Wuppertal, die Schwebebahn, München, das Oktoberfest: An gewissen Städten kleben Wörter, die wir damit in Verbindung bringen. Ich wollte es genauer wissen. Wie sieht es mit Berlin, Bremen oder Bonn aus? Welche Wörter kleben an den Städten Deutschlands wenn man ein Zeitungskorpus befragt? Es ist etwas prosaischer.</p>
<p>Ich berechnete in allen online publizierten Artikeln des Spiegels von 1999 bis 2009 die statistisch signifikanten &#8220;Kollokatoren&#8221; zu den hundert größten Städten Deutschlands. Eine &#8220;Kollokation/Collocation&#8221; ist eine typische Verbindung von Wörtern. Eine &#8220;Geocollocation&#8221; oder &#8220;Geokollokation&#8221; eine Verbindung zwischen einer geografischen Entität und typischen Vokabeln in deren Kontext.</p>
<p>So wird über Deutschland geschrieben:</p>
<div id="attachment_157" class="wp-caption alignnone" style="width: 543px"><a href="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/09/Bildschirmfoto-2011-09-20-um-22.15.431.png"><img class="size-full wp-image-157 " title="Geocollocations Deutschland: Überblick" src="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/09/Bildschirmfoto-2011-09-20-um-22.15.431.png" alt="Geocollocations Deutschland: Überblick" width="533" height="436" /></a><p class="wp-caption-text">Geocollocations Deutschland: Überblick – © Forschergruppe semtracks</p></div>
<p><span id="more-153"></span></p>
<p>Wenn man sich etwas näher ran wagt, wird das Bild klarer. Im Norden dominieren Berlin und Hamburg die sprachliche Welt. Die Wortwolken sind so groß, dass sie weit in die Ostsee ragen:</p>
<div id="attachment_158" class="wp-caption alignnone" style="width: 967px"><a href="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/09/Bildschirmfoto-2011-09-20-um-22.19.14.png"><img class="size-full wp-image-158" title="Geocollocations Deutschland: Berlin und Hamburg" src="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/09/Bildschirmfoto-2011-09-20-um-22.19.14.png" alt="Geocollocations Deutschland: Berlin und Hamburg" width="957" height="457" /></a><p class="wp-caption-text">Geocollocations Deutschland: Berlin und Hamburg – © Forschergruppe semtracks</p></div>
<p>Berlin ist als Hauptstadt mit vielen politischen Vokabeln bedeckt wie <em>Bundeskanzler, Koalition, Opposition, Reform</em> etc. Im Süden ist es etwas beschaulicher: Währen Karlsruhe mit Vokabeln im Kontext des <em>Bundesverfassungsgerichts</em> verknüpft ist, sind in Tübingen das <em>Tier</em>, das <em>Rind</em>, der <em>Metzger</em> und die <em>Grünen</em> wichtig – zumindest aus der Sicht des Spiegels.</p>
<div id="attachment_159" class="wp-caption alignnone" style="width: 591px"><a href="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/09/Bildschirmfoto-2011-09-20-um-22.19.47.png"><img class="size-full wp-image-159" title="Geocollocations Deutschland: Stuttgart und Tübingen" src="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/09/Bildschirmfoto-2011-09-20-um-22.19.47.png" alt="Geocollocations Deutschland: Stuttgart und Tübingen" width="581" height="437" /></a><p class="wp-caption-text">Geocollocations Deutschland: Stuttgart und Tübingen – © Forschergruppe semtracks</p></div>
<p>Auffallend ist, dass sich im Spiegel regionale Berichterstattung meist um Landtagswahlen und Landespolitik dreht und so die typischen Vokabeln entstehen. Immerhin: Die regionale Berichterstattung zu Unfällen und Verbrechen taucht nur selten auf. Das Vokabular dazu ist wohl zu unspezifisch und taucht in Verbindung mit allen Orten auf. (Das Surveillance and Security-Blog berechnete Spiegel-Besonderheiten zu Rubriken etc. <a href="http://www.security-informatics.de/blog/?p=372">hier</a> und <a href="http://www.security-informatics.de/blog/?p=425">hier</a>.)</p>
<p>Doch fliegen Sie selber über das Land der Wörter! <a href="http://www.bubenhofer.com/geocollocations/D-Staedte-Top100/">http://www.bubenhofer.com/geocollocations/D-Staedte-Top100/</a></p>
<p>Und hinterlassen Sie doch einen Kommentar über Ihre Beobachtungen!</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bubenhofer.com/sprechtakel/2011/09/20/worter-die-an-einer-stadt-kleben-geocollocations/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Ich pluseinse dich, wenn du mich nur pluseinstest!</title>
		<link>http://www.bubenhofer.com/sprechtakel/2011/09/15/ich-pluseinse-dich-wenn-du-mich-nur-pluseinstest/</link>
		<comments>http://www.bubenhofer.com/sprechtakel/2011/09/15/ich-pluseinse-dich-wenn-du-mich-nur-pluseinstest/#comments</comments>
		<pubDate>Thu, 15 Sep 2011 21:18:30 +0000</pubDate>
		<dc:creator>Herr Sprechtakel</dc:creator>
				<category><![CDATA[Sprechtakel]]></category>
		<category><![CDATA[Apostroph]]></category>
		<category><![CDATA[Duden]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[Morphologie]]></category>
		<category><![CDATA[normativ]]></category>

		<guid isPermaLink="false">http://www.bubenhofer.com/sprechtakel/?p=140</guid>
		<description><![CDATA[<style type="text/css">
#leftcontainerBox {
	float:left;
	position: fixed;
	top: 60%;
	left: 70px;
}
#leftcontainerBox .buttons {
	float:left;
	clear:both;
	margin:4px 4px 4px 4px;
	padding-bottom:2px;
}
#bottomcontainerBox {
	width: 50%;
	padding-top: 1px;
}
#bottomcontainerBox .buttons {
	float: left;
	margin: 4px 4px 4px 4px;
}
</style>
Google+ ist die neue schicke Location im sozialen Web und soll eine Alternative zum blauen Partylokal sein. Neulich beim Stöbern auf den Hilfeseiten von Google+ wurde ich auf folgendes Hilfethema aufmerksam: Die Orthographie in +1 Es geht bei +1 um &#8230; <a href="http://www.bubenhofer.com/sprechtakel/2011/09/15/ich-pluseinse-dich-wenn-du-mich-nur-pluseinstest/">Weiterlesen <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<style type="text/css">
#leftcontainerBox {
	float:left;
	position: fixed;
	top: 60%;
	left: 70px;
}
#leftcontainerBox .buttons {
	float:left;
	clear:both;
	margin:4px 4px 4px 4px;
	padding-bottom:2px;
}
#bottomcontainerBox {
	width: 50%;
	padding-top: 1px;
}
#bottomcontainerBox .buttons {
	float: left;
	margin: 4px 4px 4px 4px;
}
</style>
<p>Google+ ist die neue schicke Location im sozialen Web und soll eine Alternative zum blauen Partylokal sein. Neulich beim Stöbern auf den Hilfeseiten von Google+ wurde ich auf folgendes Hilfethema aufmerksam:</p>
<blockquote><p>Die Orthographie in +1</p></blockquote>
<p>Es geht bei +1 um die Funktion, die Sympathie einer beliebigen Website, einer Äußerung oder von was auch immer an digitalem Inhalt zu bekunden, ähnlich dem &#8220;Gefällt mir&#8221;-Knopf des Konkurrenten. <a href="http://www.google.com/support/profiles/bin/static.py?page=guide.cs&amp;guide=1207011&amp;answer=1237207">In diesem Hilfethema wird erklärt</a>:</p>
<blockquote><p>Wir freuen uns, dass Ihnen soviel an Grammatik liegt, dass Sie diesen Artikel lesen. Sie gehören deshalb zu dem Personenkreis, dem diese Antwort weiterhilft. Im Anschluss wird die Orthographie in +1 erläutert.</p></blockquote>
<p>Die Spannung steigt. Was folgt da nun?</p>
<p><span id="more-140"></span></p>
<blockquote><p>+1 ist eine bestimmte Art von Begriff, der sowohl Substantiv als auch Verb sein kann. <strong>Ich sehe, wie Jan geht. Ich sehe, wie Susanne +1. Ich sehe Susannes +1.</strong></p></blockquote>
<p>Haben Sie es sich laut vorgelesen? Wie lesen Sie das Verb +1? Genau, da liegt das Problem und Google hat die Antwort:</p>
<blockquote><p>Wenn Sie nun gemäß Ihrer bevorzugten Weise beschreiben, wie Sie Seiten in der Google-Suche empfehlen, können alle Arten von Varianten erscheinen. Beispiel: +1&#8242;st, +1&#8242;ste und +1&#8242;en. Vielleicht sehen Sie auch noch ausgefallenere Kombinationen wie +1&#8242;iger, +1&#8242;igste und sogar +1&#8242;stik.</p></blockquote>
<p>Genau: Ich pluseinse, du pluseinst, er pluseinst, sie wird auch noch gepluseinst, wirst nur sehen! Oder eben: Ich habe ge+1&#8242;st!</p>
<p>Geht, wunderbar, nur: Wir haben doch ein Problem: <a href="http://deppenapostroph.de/">http://deppenapostroph.de/</a></p>
<p>Es gibt Leute, die etwas gegen vermeintlich überflüssige Apostrophe haben (z.B. mögen sie die Schreibung von &#8220;Willi&#8217;s Würstchenbude&#8221; nicht, obwohl der Duden <a href="http://www.duden.de/rechtschreibregeln/apostroph">korrekterweise beschreibt, dass dies durchaus üblich sei</a>). Doch was ist mit &#8220;+1&#8242;st du mich?&#8221;? Der Duden hat <a href="http://www.duden.de/rechtschreibregeln/apostroph">keine passende Antwort</a> darauf. Also muss Google darauf eingehen:</p>
<blockquote><p>Diese Begriffe kommen Ihnen anfangs vielleicht merkwürdig vor. Sie fragen sich eventuell, ob ein Apostroph die Aussageeigenschaft von +1&#8242;s verändert. Weshalb sollte man nicht stattdessen +1s schreiben?</p></blockquote>
<p>Google verteidigt also die Apostroph-Schreibung, obwohl sie eigentlich ganz einleuchtend ist. Das Argument ist ja:</p>
<blockquote><p>Ein Apostroph lässt sich jedoch auch setzen [neben den vom Duden erlaubten Fällen, Anm. Sprechtakel], um etwas zu verdeutlichen und sicherzustellen, dass die Begriffe so verstanden werden, wie es beabsichtigt ist.</p></blockquote>
<p>Sehr vernünftig – und gleich nochmals zur Wiederholung und Festigung des Gelernten:</p>
<blockquote><p>Eine einfache Übung soll das verdeutlichen. Wiederholen Sie Folgendes:</p>
<ul>
<li>Laura +1&#8242;ste am Dienstag um 23:30 Uhr ein Video mit einem sprechenden Hund.</li>
<li>Walter sieht Lisas +1&#8242;s neben acht verschiedenen Artikeln über Monster-Trucks.</li>
<li>Während Daniel +1&#8242;st, piept die Kaffeemaschine. Sein Milchkaffee ist fertig.</li>
</ul>
<p>Vielen Dank, dass Sie sich die Zeit genommen haben, diesen Artikel zu lesen. Sie können nun +1&#8242;en.</p></blockquote>
<p>Nur die Form &#8220;+1&#8242;s&#8221; leuchtet mir nicht ein, das wohl die Verwendung von +1 als Substantiv markieren soll. Aber &#8220;das Pluseins&#8221; braucht ja keine weitere s-Endung; im Deutschen sollte also &#8220;das +1&#8243; reichen.</p>
<p>Richtig spannend wird die Geschichte aber erst, wenn man das Menü &#8220;Sprache ändern&#8221; auf der Hilfeseite entdeckt!</p>
<div id="attachment_141" class="wp-caption alignright" style="width: 293px"><a href="http://www.bubenhofer.com/sprechtakel/2011/09/15/ich-pluseinse-dich-wenn-du-mich-nur-pluseinstest/bildschirmfoto-2011-09-15-um-22-56-48/" rel="attachment wp-att-141"><img class="size-full wp-image-141  " title="Screenshot Google+, +1 Orthographie" src="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/09/Bildschirmfoto-2011-09-15-um-22.56.48.png" alt="Screenshot Google+, +1 Orthographie" width="283" height="509" /></a><p class="wp-caption-text">Screenshot Google+, +1 Orthographie</p></div>
<p style="text-align: left;">So polyglott wie Google ist, wird diese Hilfeseite in diverse Sprachen übersetzt. Da tut sich die Spielweise für sprachvergleichende Betrachtungen der Morphologie auf! Zum Beispiel Ukrainisch:</p>
<blockquote><p>Саме тому всі ці варіанти можуть використовуватись, коли ми говоримо про улюблений спосіб рекомендувати сторінки в результатах пошуку Google, серед них: +1, оцінки +1, поставити +1, +1 від.</p></blockquote>
<p>Ich verstehe zwar nicht jedes Detail, aber ein Apostroph-Problem gibt es da nicht. Oder Katalanisch:</p>
<blockquote><p>És a dir: +1, fer +1, en fer +1. Potser al final us trobareu formes encara més estoiques com ara el primer +1, el més +1 o +1tàstic (d&#8217;acord, d&#8217;acord, potser ens hem passat una mica, però ja veieu per on anem).</p></blockquote>
<p>Auch da scheint es ganz gut zu funktionieren und für die Form &#8220;+1tàstic&#8221; ist wohl auch kein Apostroph notwendig!</p>
<p>Leider drückt sich Google bislang noch um Lösungen fürs Französische, Italienische und eine Reihe von weiteren Sprachen: Da wird die englische Version angezeigt. Und was das Japanische betrifft, muss ich noch auf die Expertise meiner japanischen Freunde warten:</p>
<blockquote><p>そのため、Google 検索でページをおすすめするときによく使う方法について話すときには、さまざまな形が使用されます。つまり、「+1&#8242;s（+1 する）」、「+1&#8242;d（+1 した）」、「+1&#8242;ing（+1 している）」などです。今後、「+1&#8242;ier（もっと +1 な）」、「+1&#8242;iest（最も +1 な）」、「+1&#8242;tastic（+1 番すばらしい）」などと、さらに難解な形式も使用されるようになるかもしれません（わかっています。これはやりすぎでしょうが、意味はわかるでしょう）。</p></blockquote>
]]></content:encoded>
			<wfw:commentRss>http://www.bubenhofer.com/sprechtakel/2011/09/15/ich-pluseinse-dich-wenn-du-mich-nur-pluseinstest/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Bäume zeichnen: Maschinelles syntaktisches Parsing (Deutsch)</title>
		<link>http://www.bubenhofer.com/sprechtakel/2011/09/12/baume-zeichnen-maschinelles-syntaktisches-parsing-deutsch/</link>
		<comments>http://www.bubenhofer.com/sprechtakel/2011/09/12/baume-zeichnen-maschinelles-syntaktisches-parsing-deutsch/#comments</comments>
		<pubDate>Mon, 12 Sep 2011 07:35:32 +0000</pubDate>
		<dc:creator>Herr Sprechtakel</dc:creator>
				<category><![CDATA[Korpuslinguistik]]></category>
		<category><![CDATA[Korpustools]]></category>
		<category><![CDATA[Computerlinguistik]]></category>
		<category><![CDATA[Parser]]></category>

		<guid isPermaLink="false">http://www.bubenhofer.com/sprechtakel/?p=132</guid>
		<description><![CDATA[<style type="text/css">
#leftcontainerBox {
	float:left;
	position: fixed;
	top: 60%;
	left: 70px;
}
#leftcontainerBox .buttons {
	float:left;
	clear:both;
	margin:4px 4px 4px 4px;
	padding-bottom:2px;
}
#bottomcontainerBox {
	width: 50%;
	padding-top: 1px;
}
#bottomcontainerBox .buttons {
	float: left;
	margin: 4px 4px 4px 4px;
}
</style>
Um maschinell Wortarten zu bestimmen, gibt es fürs Deutsche den Part-of-Speech-Tagger &#8220;TreeTagger&#8221; aus Stuttgart, eine Art Defakto-Standard fürs Deutsche (und andere Sprachen). Doch wie sieht es mit syntaktischem Parsing aus? Soeben meldete Rico Sennrich aus Zürich die Verfügbarkeit von ParZu: &#8230; <a href="http://www.bubenhofer.com/sprechtakel/2011/09/12/baume-zeichnen-maschinelles-syntaktisches-parsing-deutsch/">Weiterlesen <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<style type="text/css">
#leftcontainerBox {
	float:left;
	position: fixed;
	top: 60%;
	left: 70px;
}
#leftcontainerBox .buttons {
	float:left;
	clear:both;
	margin:4px 4px 4px 4px;
	padding-bottom:2px;
}
#bottomcontainerBox {
	width: 50%;
	padding-top: 1px;
}
#bottomcontainerBox .buttons {
	float: left;
	margin: 4px 4px 4px 4px;
}
</style>
<p>Um maschinell Wortarten zu bestimmen, gibt es fürs Deutsche den Part-of-Speech-Tagger &#8220;TreeTagger&#8221; aus Stuttgart, eine Art Defakto-Standard fürs Deutsche (und andere Sprachen). Doch wie sieht es mit syntaktischem Parsing aus?</p>
<p>Soeben meldete Rico Sennrich aus Zürich die Verfügbarkeit von <a href="http://kitt.cl.uzh.ch/kitt/parzu/">ParZu: The Zurich Dependency Parser for German</a>.* Dieser Parser ist eine Weiterentwicklung von Pro3GresDE, der wiederum eine Anpassung ans Deutsche des englischen Parsers <a href="https://files.ifi.uzh.ch/cl/gschneid/parser/">Pro3Gres</a> von Gerold Schneider ist.</p>
<p><span id="more-132"></span></p>
<div id="attachment_133" class="wp-caption alignnone" style="width: 510px"><a href="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/09/ParZuTestsatz.png"><img class="size-full wp-image-133" title="Dependenzparser ParZu: Ausgabe des Testsatzes" src="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/09/ParZuTestsatz.png" alt="Dependenzparser ParZu: Ausgabe des Testsatzes" width="500" height="176" /></a><p class="wp-caption-text">Dependenzparser ParZu: Ausgabe des Testsatzes</p></div>
<p>Wie die Ausgabe des Testsatzes über die <a href="http://kitt.cl.uzh.ch/kitt/parzu/">Demoseite</a> zeigt, klassifiziert der Parser Subjekt und Objekte und deren Hierarchisierung. Er tut dies auf der Basis der Wortarteninformation und mit einer Mischung aus Grammatikwissen und Statistik. Zudem wird (im Gegensatz zum englischen Parser Pro3Gres) eine morphologische Analyse hinzugezogen (<a href="http://www1.ids-mannheim.de/lexik/TextGrid/morphisto/">Morphisto</a> oder <a href="http://www2.lingsoft.fi/doc/gertwol/">Gertwol</a>). Der Parser soll (gemessen an 1000 Sätzen des <a href="http://www.sfs.uni-tuebingen.de/tuebadz.shtml">Tübinger Zeitungskorpus</a>) eine Genauigkeit von 87,5% Präzision und 84,5% Ausbeute erreichen.</p>
<p>Neben ParZu weiß ich noch von folgenden syntaktischen Parsern fürs Deutsche:</p>
<ul>
<li><a href="http://www.ims.uni-stuttgart.de/projekte/gramotron/SOFTWARE/BitPar.html">IMS Stuttgart BitPar</a>:</li>
<li><a href="http://heartofgold.dfki.de/Download.html">A Stochastic Topological Parser for German</a> (Anette Frank, Markus Becker)</li>
</ul>
<p>Während der korpuslinguistische Nutzen für Studien im Bereich der Grammatik unbestritten ist, reizt mich die Frage, wie nützlich syntaktische Annotation auch für Fragestellungen im Bereich der Korpuspragmatik, Diskurslinguistik etc. ist. Es wäre ja schon interessant zu untersuchen, welche Subjekt-Objekt-Relationen in bestimmten Diskursen vorherrschen und wie sich das über die Zeit verändert.</p>
<p>&#8211;</p>
<p>* Rico Sennrich, Gerold Schneider, Martin Volk and Martin Warin (2009): A New Hybrid Dependency Parser for German. In: Proceedings of GSCL Conference, Potsdam.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bubenhofer.com/sprechtakel/2011/09/12/baume-zeichnen-maschinelles-syntaktisches-parsing-deutsch/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Päckli und Fränkli/Päckle und Eurole</title>
		<link>http://www.bubenhofer.com/sprechtakel/2011/09/10/packli-und-franklipackle-und-eurole/</link>
		<comments>http://www.bubenhofer.com/sprechtakel/2011/09/10/packli-und-franklipackle-und-eurole/#comments</comments>
		<pubDate>Sat, 10 Sep 2011 12:49:13 +0000</pubDate>
		<dc:creator>Herr Sprechtakel</dc:creator>
				<category><![CDATA[Sprechtakel]]></category>
		<category><![CDATA[Deutschland]]></category>
		<category><![CDATA[Dialekt]]></category>
		<category><![CDATA[Diminutiv]]></category>
		<category><![CDATA[Schweiz]]></category>
		<category><![CDATA[Standard]]></category>

		<guid isPermaLink="false">http://www.bubenhofer.com/sprechtakel/?p=115</guid>
		<description><![CDATA[<style type="text/css">
#leftcontainerBox {
	float:left;
	position: fixed;
	top: 60%;
	left: 70px;
}
#leftcontainerBox .buttons {
	float:left;
	clear:both;
	margin:4px 4px 4px 4px;
	padding-bottom:2px;
}
#bottomcontainerBox {
	width: 50%;
	padding-top: 1px;
}
#bottomcontainerBox .buttons {
	float: left;
	margin: 4px 4px 4px 4px;
}
</style>
Ein Bierhersteller wirbt momentan mit einer &#8220;Wir im Süden&#8221;-Plakatserie. Auf den Plakaten sieht man nicht nur glückliche, junge Menschen im sommerlichen Ambiente, Männer mit Dreitagebart, Frau mit blondem Haar, sondern auch eine linguistische Auffälligkeit: &#8220;Wir im Süden: Hier trägt jeder &#8230; <a href="http://www.bubenhofer.com/sprechtakel/2011/09/10/packli-und-franklipackle-und-eurole/">Weiterlesen <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<style type="text/css">
#leftcontainerBox {
	float:left;
	position: fixed;
	top: 60%;
	left: 70px;
}
#leftcontainerBox .buttons {
	float:left;
	clear:both;
	margin:4px 4px 4px 4px;
	padding-bottom:2px;
}
#bottomcontainerBox {
	width: 50%;
	padding-top: 1px;
}
#bottomcontainerBox .buttons {
	float: left;
	margin: 4px 4px 4px 4px;
}
</style>
<p>Ein Bierhersteller wirbt momentan mit einer &#8220;Wir im Süden&#8221;-Plakatserie. Auf den Plakaten sieht man nicht nur glückliche, junge Menschen im sommerlichen Ambiente, Männer mit Dreitagebart, Frau mit blondem Haar, sondern auch eine linguistische Auffälligkeit: &#8220;Wir im Süden: Hier trägt jeder so sein Päckle&#8221; ist der Claim. Und es ist klar, mit dem dialektalen &#8220;Päckle&#8221; wird auch sprachlich Süden signalisiert – zumindest Deutschlands Süden.</p>
<div id="attachment_112" class="wp-caption alignleft" style="width: 310px"><a href="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/09/FuerstenbergWirimSueden_Ausschnitt.png"><img class="size-full wp-image-112" title="Wir im Süden" src="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/09/FuerstenbergWirimSueden_Ausschnitt.png" alt="Wir im Süden" width="300" height="569" /></a><p class="wp-caption-text">Wir im Süden</p></div>
<p>Das Plakat zeigt: Auch in Deutschland gibt es Dialekte und die Möglichkeit, in Situationen, wo eigentlich Standardsprache gebräuchlich ist, eine bestimmte Konnotation, z.B. regionale Verwurzelung, zu transportieren. (Diese Tatsache mag für deutsche Leser/innen nicht sehr überraschend sein, aber in Schweizer Diskussionen zu Dialekt und Standard wird oft ein anderes Bild der sprachlichen Situation Deutschlands skizziert: Deutschland, wo das richtige Deutsch gesprochen wird und es keine Dialekte gibt.)</p>
<p>Der Zufall wollte es, dass am gleichen Tag, als ich das Plakat sah, in der Neuen Zürcher Zeitung folgende Headline zu lesen war: &#8220;Zweite Chance für das Franken-Päckli&#8221;. Darüber war ich einigermaßen erstaunt, denn die NZZ schien mir bis jetzt immer relativ resistent gegenüber dialektalen Einflüssen.</p>
<p>Ich wollte es genauer wissen: Im Alemannischen sind Verkleinerungsformen (Diminutive) mit -li bzw. -le Alternativen zum standarddeutschen -chen. Wie oft kommen also solche Diminutive in Zeitungsartikeln in der Schweiz und in Deutschland vor?</p>
<div id="attachment_113" class="wp-caption alignleft" style="width: 310px"><a href="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/09/NZZ_2011-09-09_Paeckli.png"><img class="size-full wp-image-113 " title="NZZ_2011-09-09_Paeckli" src="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/09/NZZ_2011-09-09_Paeckli.png" alt="NZZ: Zweite Chance für das Franken-Päckli" width="300" height="400" /></a><p class="wp-caption-text">NZZ: Zweite Chance für das Franken-Päckli</p></div>
<p>Leider ist die Recherche nicht ganz einfach. Die Suche nach Substantiven, die auf -li enden, bringt zwar gewünschte Fälle wie &#8220;Gipfeli&#8221;, &#8220;Rüebli&#8221; und &#8220;Gummibärli&#8221;, aber halt auch &#8220;Juli&#8221; und &#8220;Israeli&#8221;. Schlimmer noch bei -le. Zudem gibt es in der Schweiz viele Nachnamen, die auf -li enden: &#8220;Aeppli&#8221;, &#8220;Brändli&#8221;, &#8220;Zwingli&#8221;, &#8220;Wehrli&#8221; etc. Trotzdem zählte ich aus, wie viele Substantive mit Endung -li es in den Online-Versionen der Schweizer Zeitungen <a href="http://www.nzz.ch">NZZ</a>, <a href="http://www.blick.ch">Blick</a>, <a href="http://www.tages-anzeiger.ch">Tages-Anzeiger</a> und <a href="http://www.20min.ch">20 Minuten</a> im Jahr 2011 bis heute gibt. Das Messinstrument ist zwar ungenau, aber es ist zu erwarten, dass Wörter wie &#8220;Juli&#8221; und &#8220;Israeli&#8221; oder Nachnamen in allen Zeitungen etwa gleich häufig vorkommen, so dass das Messinstrument bei allen etwa gleich ungenau misst.</p>
<div id="attachment_117" class="wp-caption alignnone" style="width: 598px"><a href="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/09/Grafik-NN-li_CH_klein1.png"><img class="size-full wp-image-117 " title="Anzahl Substantive endend auf -li in vier Schweizer Zeitungen vom 1.1.2011 bis 9.9.2011 (relativ zur jeweiligen Textmenge)" src="http://www.bubenhofer.com/sprechtakel/wp-content/uploads/2011/09/Grafik-NN-li_CH_klein1.png" alt="Anzahl Substantive endend auf -li in vier Schweizer Zeitungen vom 1.1.2011 bis 9.9.2011 (relativ zur jeweiligen Textmenge)" width="588" height="343" /></a><p class="wp-caption-text">Anzahl Substantive endend auf -li in vier Schweizer Zeitungen vom 1.1.2011 bis 9.9.2011 (relativ zur jeweiligen Textmenge)</p></div>
<p>Wenn das Messinstrument ein Indikator für Dialektwörter ist, dann sehen wir, dass im Blick (Boulevardzeitung à la Bild) am häufigsten solche Wörter verwendet werden – in der NZZ am seltensten. Das entspricht durchaus den Erwartungen. Im Blick ist die Rede von &#8220;Gspänli&#8221;, &#8220;Rössli&#8221;, &#8220;Hösli&#8221;, &#8220;Blüemli&#8221;, &#8220;Wienerli&#8221;, &#8220;Plättli&#8221;, &#8220;Müesli&#8221;, &#8220;Füdli&#8221; etc. In der NZZ sind mir das &#8220;Sonderkässeli&#8221; und das &#8220;Fresspäckli&#8221; aufgefallen, der Tages-Anzeiger spricht vom &#8220;Weggli&#8221;, den &#8220;Hüsli&#8221;, &#8220;Träumli&#8221;, &#8220;Rippli&#8221; und &#8220;Zigarettenpäckli&#8221;, 20-Minuten auch vom &#8220;Zigi-Päckli&#8221;, &#8220;Tigerli&#8221;, &#8220;Winterjäckli&#8221;, &#8220;Tüechli&#8221; und den &#8220;Frauen-Bildli&#8221; – was das für Bilder wohl sind&#8230; Solche Wörter sind alle eher selten (meist unter 10 Mal). Bei allen vier Zeitungen ist das häufigste Dialektwort &#8220;Stöckli&#8221;, was eine dialektale Bezeichnung für den <a href="http://de.wikipedia.org/wiki/Ständerat">Ständerat</a> ist.</p>
<p>Nur das &#8220;Fränkli&#8221; lässt sich nirgends finden. Das dürfen wohl wirklich nur Deutsche als Bezeichnung für den Schweizer Franken verwenden – allerdings gibt es das &#8220;<a href="http://de.wikipedia.org/wiki/Goldvreneli">Goldvreneli</a>&#8220;, das wohl aber nur in dieser Form existiert: Von einer &#8220;Goldverena&#8221; ist mir jedenfalls noch nichts zu Ohren gekommen.</p>
<p>Ob es in Deutschland den &#8220;Eurole&#8221; gibt?</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bubenhofer.com/sprechtakel/2011/09/10/packli-und-franklipackle-und-eurole/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

