Wörterhacken: jTokeniser

Des Korpuslinguisten und der Korpuslinguistin schweisstreibenste Beschäftigung ist das Wörterhacken – auch Tokenising genannt: Wort- und Satzgrenzen automatisch entdecken und markieren. In Version 2 ist soeben Andrew Roberts‘ jTokeniser erschienen. Ein Java-Programm mit übersichtlichem grafischem Nutzerinterface.

Das Programm lädt einen beliebigen Text in ein Fenster. Anschliessend können verschiedene Tokeniser-Verfahren darauf angewandt und deren Wirkung in einem zweiten Fenster überprüft werden. So kinderleicht die Bedienung ist, so langsam funktioniert der Prozess bei umfangreicheren Textsammlungen. Das Programm ist aber für Demonstrationszwecke (z.B. im Unterricht) oder für kleinere Tests sehr brauchbar. Oder man lässt das Ding einfach über Nacht laufen.

Das Programm ist frei und open-source.

Veröffentlicht unter Korpuslinguistik, Korpustools | Kommentare deaktiviert für Wörterhacken: jTokeniser

Tübinger Baumbank aktualisiert

Die 470’000 Wörter aus der taz (die tageszeitung) umfassende Tübinger Baumbank des Deutschen/Schriftsprache ist in Release 3 erweitert worden. Es ist bereits morphosyntaktsich annotiert. Neu finden sich darin auch Annotationen von Anaphern- und Koreferenzrelationen.

Die Baumbank kann in verschiedenen Formaten für wissenschaftliche Zwecke benutzt werden. Am bequemsten mit dem TiGerSearch-Tool.

Neben dem schriftsprachlichen Korpus stellen die Tübinger auch ein spontansprachliches Korpus zur Verfügung, das etwa 360’000 Wörter umfasst.

Veröffentlicht unter Korpora, Korpuslinguistik | Kommentare deaktiviert für Tübinger Baumbank aktualisiert

NZZ total digital

Schon vor einem Monat verkündete die NZZ knapp (NZZ vom 16. 6. 2006, S. 67): „Die NZZ wurde ausgezeichnet für die Digitalisierung ihres Archivs.“ Und zwar des gesamten Archivs: „226 Jahre NZZ – rund 10 TByte – können heute mit einem Fingerschnippen in Sekundenschnelle durchsucht werden.“ Mit Hilfe des Fraunhofer-Instituts für Medienkommunikation wurden die bereits berstehenden Mikrofilme maschinenlesbar gemacht.

Aus korpuslinguistischer Sicht eröffnet das natürlich spannende Perspektiven. Es gibt kaum elektronische Daten von vor 1990. Leider ist momentan ein Zugang für Aussenstehende noch „nicht direkt und uneingeschränkt“ möglich. Es bleibt aus wissenschaftlicher Sicht zu hoffen, dass hier die NZZ eine liberale Regelung findet.

Veröffentlicht unter Korpuslinguistik | Ein Kommentar

In eigener Sache: Herr Sprechtakel ist nicht mehr allein

Das Sprechtakel-Blogging-Experiment wird nach einem halben Jahr mehr oder weniger erfolgreichen Betriebs ergänzt. Ergänzt um ein ähnliches Format zum Thema „Korpuslinguistik“. Ob es sich dabei um ein Weblog handelt oder um ein anderes obskures Format soll uns nicht weiter kümmern. Ziel ist es, Hinweise auf Werkzeuge, Methoden, Theorien, die Korpuslinguistinnen und Korpuslinguisten interessieren könnten, hier zu publizieren.

Damit ist das die aktuelle Ergänzung zum Online-Kurs „Einführung in die Korpuslinguistik“, den ich ebenfalls verantworte. „Ich“ ist im Fall des Korpuslinguistik-Blogs Noah Bubenhofer, der als Assistent am Deutschen Seminar der Universität Zürich tätig ist und sich deswegen besonders für korpuslinguistische Fragestellungen interessiert.

Das Sprechtakel-Blogging-Experiment verantwortet weiter „Herr Sprechtakel“, ein Zeitgenosse, der davon überzeugt ist, das Alltagsgeschehen sei durchtränkt von linguistisch interessanten Fragestellungen, und der davon beseelt ist, allen zu zeigen, dass Linguistik mehr ist als Neue Rechtschreibung, Grammatik und ein schwindender Genitiv. Vielleicht irrt er, aber er ist dickköpfig genug, noch eine Weile zu schreiben.

Bleibt nur noch das Geheimnis zu lüften, was Korpuslinguistik denn eigentlich ist. Die Kurzversion: Ein Korpus (das Korpus) ist eine (grosse) Sammlung von sprachlichen Äusserungen (Schriftliches, Gesprochenes), die meist in elektronischer Form vorliegen und dann z.B. nach linguistischen Fragestellungen analysiert werden können: Gibt es einen Superlativ von „ewig“: am ewigsten? Oder: In welchem Kontext erscheint das Wort „Terror“? Jetzt – und vor 10 Jahren? Und so weiter.

Sowohl Herr Sprechtakel als auch Noah Bubenhofer freuen sich immer über Kommentare, Hinweise, erboste Reaktionen und aufmunternde Klappse!

Über die Kategorien-Steuerung an der rechten Seite ganz oben können der geneigte Leser und die geneigte Leserin auswählen, ob sie lieber trockenes Fachgespräch oder er lieber zeitgenössische Sprechtakel lesen möchte. Oder beides. Oder umgekehrt.

Veröffentlicht unter Korpuslinguistik, Sprechtakel | Kommentare deaktiviert für In eigener Sache: Herr Sprechtakel ist nicht mehr allein

WIE wir sprechen, nicht WAS wir sprechen!

Das Sprechtakel bat kürzlich um Ihre Mithilfe bei der Auflösung eines sprachlichen Rätsels. Linguistische Probleme sind natürlich weniger wichtig als Mord und Totschlag; Aktenzeichen XY ist definitiv erfolgreicher bei Zuschauerreaktionen.


(Bild: http://www.zuschauerreaktionen.de/)

Doch Herr Sprechtakel glaubt weiterhin an viele Passivleserinnen und Passivleser und fährt deshalb munter weiter (auf dass zumindest der Googlebot die Seiten lesen möge)!

Doch nun des Rätsels Auflösung… Weiterlesen

Veröffentlicht unter Sprechtakel | Ein Kommentar

Zwischenunterhaltung

BH scheint mein einziger treuer Leser zu sein – und er bittet noch um Aufschub der Auflösung des letzten Rätsels. Das mache ich natürlich gerne, auch in der Hoffnung, dass die stummen Leserinnen und Leser, an deren Existenz ich immer noch fest glaube, ihren Kommentar doch noch abgeben mögen!

Doch zur Zwischenunterhaltung präsentiere ich weitere Fragmente aus einem anderen Text:

… erreicht bald die Rekordmarke…
… einst kamen … um zu …
… macht inzwischen …
… von Jahr zu Jahr …
… oft wenig … und kaum …
… profitieren von …
… kaum mehr möglich …
… wächst von Tag zu Tag …
… in aller Deutlichkeit …
… die Hälfte der … sind …
… nützen … um … nachzugehen …
… nicht gewillt sind …
… nicht abschreckend genug …

Na, wonach klingt das denn?

Veröffentlicht unter Sprechtakel | 5 Kommentare

Sie stehen quasi schon vor der Tür!

Wenn man quer liest, hangelt man sich an bekannten Satzfragmenten entlang, die man gleich mit einem Blick erfasst, nimmt vielleicht noch ein paar Nomen mit und macht höchstens bei einem Zwischentitel eine kleine Verschnaufpause.

Es ist ein interessantes Phänomen, wie wichtige solche Satzfragmente sind, um einen Text sofort thematisch einordnen zu können:

… in nur wenigen Sekunden …
… umso bitterer …
… ein dramatisches, aber niveauarmes …
… noch einmal peitschte …
… der Kampf mit den Nerven …
… nur noch um eine Frage …
… sich kopfvoran an …
… erhöhten Ideenarmut …

Na? Genau: Schweiz gegen Ukraine…

Doch wie schaut es mit diesen… Weiterlesen

Veröffentlicht unter Sprechtakel | 4 Kommentare

Arbeiten und „arbeiten“

Erst heute ist mir das Tagblatt der Stadt Zürich von gestern in die Hände gekommen. Und ehrlich gesagt war ich leicht geschockt über diesen Titel:

Der Artikel ist die Tagblatt-Variante dieser Meldung — aber da ging was schief:… Weiterlesen

Veröffentlicht unter Sprechtakel | 6 Kommentare

Ein Girl auf der Piazza

Es ist einfach reizend, wenn man sich gegen Abend auf eine italienische Piazza setzt:

Nach und nach füllt sich der Platz mit Leuten, die nicht mehr machen, als sich zu setzen oder stehen zu bleiben und plaudern. Das funktioniert – so schätze ich – in allen italienischen Städten und Dörfern. Und natürlich auch anderswo.

Und in Ferrara, in der Emiglia-Romagna gelegen, wo alle mit dem Fahrrad unterwegs sind, treffen sich auch die Fahrräder zum Schwatz auf der Piazza:
Weiterlesen

Veröffentlicht unter Sprechtakel | Kommentare deaktiviert für Ein Girl auf der Piazza

Nordic Walking

Kürzlich auf einer Wanderung zwischen dem unterengadinerischen Sent und den unterengadinerischen Scuol entdeckte ich den Kulminationspunkt gepflegter Tradition und gehegter Moderne:

Der Tourist freut sich an seiner Fähigkeit, Vallader zu dechiffrieren und damit sprachlich Gutes zu tun (Traditionen pflegen, Minderheiten schützen), Sent turissem zeigt sich offen für neue Trends und das Beste daran: Rumantsch ist um ein Fremdwort reicher. Und wenn sich dieses Idiom in den nächsten 50 Jahren tatsächlich halten kann, wird man dereinst darüber diskutieren können, ob nun die Orthographie von „Nordic Walking“ ans Vallader angepasst werden kann, da ja die Aussprache auch nicht mehr viel mit Englisch zu tun haben wird. Doch am Wahrscheinlichsten ist wohl, dass in 50 Jahren diese Frage doch nicht diskutiert werden muss, da dann „Nordic Walking“ höchstens noch den Urgrossvätern und -müttern etwas sagen wird.

Veröffentlicht unter Sprechtakel | Ein Kommentar