Wörterhacken: jTokeniser

Des Korpuslinguisten und der Korpuslinguistin schweisstreibenste Beschäftigung ist das Wörterhacken – auch Tokenising genannt: Wort- und Satzgrenzen automatisch entdecken und markieren. In Version 2 ist soeben Andrew Roberts‘ jTokeniser erschienen. Ein Java-Programm mit übersichtlichem grafischem Nutzerinterface.

Das Programm lädt einen beliebigen Text in ein Fenster. Anschliessend können verschiedene Tokeniser-Verfahren darauf angewandt und deren Wirkung in einem zweiten Fenster überprüft werden. So kinderleicht die Bedienung ist, so langsam funktioniert der Prozess bei umfangreicheren Textsammlungen. Das Programm ist aber für Demonstrationszwecke (z.B. im Unterricht) oder für kleinere Tests sehr brauchbar. Oder man lässt das Ding einfach über Nacht laufen.

Das Programm ist frei und open-source.

Dieser Beitrag wurde unter Korpuslinguistik, Korpustools veröffentlicht. Setze ein Lesezeichen auf den Permalink.