{"id":46,"date":"2006-07-17T07:29:41","date_gmt":"2006-07-17T07:29:41","guid":{"rendered":"http:\/\/bubenhofer.com\/sprechtakel\/?p=46"},"modified":"2006-07-17T07:29:41","modified_gmt":"2006-07-17T07:29:41","slug":"wa%c2%b6rterhacken-jtokeniser","status":"publish","type":"post","link":"https:\/\/www.bubenhofer.com\/sprechtakel\/2006\/07\/17\/wa%c2%b6rterhacken-jtokeniser\/","title":{"rendered":"W\u00f6rterhacken: jTokeniser"},"content":{"rendered":"<p>Des Korpuslinguisten und der Korpuslinguistin schweisstreibenste Besch\u00e4ftigung ist das W\u00f6rterhacken \u2013 auch <a href=\"http:\/\/www.bubenhofer.com\/korpuslinguistik\/kurs\/index.php?id=erstellung_korpora.html\">Tokenising<\/a> genannt: Wort- und Satzgrenzen automatisch entdecken und markieren. In Version 2 ist soeben Andrew Roberts&#8216; <a href=\"http:\/\/www.andy-roberts.net\/software\/jTokeniser\/\">jTokeniser<\/a> erschienen. Ein Java-Programm mit \u00fcbersichtlichem grafischem Nutzerinterface.<\/p>\n<p>Das Programm l\u00e4dt einen beliebigen Text in ein Fenster. Anschliessend k\u00f6nnen verschiedene Tokeniser-Verfahren darauf angewandt und deren Wirkung in einem zweiten Fenster \u00fcberpr\u00fcft werden. So kinderleicht die Bedienung ist, so langsam funktioniert der Prozess bei umfangreicheren Textsammlungen. Das Programm ist aber f\u00fcr Demonstrationszwecke (z.B. im Unterricht) oder f\u00fcr kleinere Tests sehr brauchbar. Oder man l\u00e4sst das Ding einfach \u00fcber Nacht laufen.<\/p>\n<p>Das Programm ist frei und open-source.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Des Korpuslinguisten und der Korpuslinguistin schweisstreibenste Besch\u00e4ftigung ist das W\u00f6rterhacken \u2013 auch Tokenising genannt: Wort- und Satzgrenzen automatisch entdecken und markieren. In Version 2 ist soeben Andrew Roberts&#8216; jTokeniser erschienen. Ein Java-Programm mit \u00fcbersichtlichem grafischem Nutzerinterface. Das Programm l\u00e4dt einen &hellip; <a href=\"https:\/\/www.bubenhofer.com\/sprechtakel\/2006\/07\/17\/wa%c2%b6rterhacken-jtokeniser\/\">Weiterlesen <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[4,7],"tags":[],"class_list":["post-46","post","type-post","status-publish","format-standard","hentry","category-4-korpuslinguistik","category-6-korpustools"],"_links":{"self":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts\/46","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/comments?post=46"}],"version-history":[{"count":0,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts\/46\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/media?parent=46"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/categories?post=46"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/tags?post=46"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}