{"id":53,"date":"2006-08-07T08:11:00","date_gmt":"2006-08-07T08:11:00","guid":{"rendered":"http:\/\/bubenhofer.com\/sprechtakel\/?p=53"},"modified":"2006-08-07T08:11:00","modified_gmt":"2006-08-07T08:11:00","slug":"googles-dreizehn-millionen-n-gramme","status":"publish","type":"post","link":"https:\/\/www.bubenhofer.com\/sprechtakel\/2006\/08\/07\/googles-dreizehn-millionen-n-gramme\/","title":{"rendered":"Googles dreizehn Millionen N-Gramme"},"content":{"rendered":"<p>An der <a href=\"http:\/\/www.ids-mannheim.de\/org\/tagungen\/program2006.html\">letzten Tagung<\/a> des <a href=\"http:\/\/www.ids-mannheim.de\">Instituts f\u00fcr Deutsche Sprache<\/a> (IDS) <a href=\"http:\/\/www.ids-mannheim.de\/org\/tagungen\/jt2006\/brants.html\">berichtete<\/a> Thorsten Brants (Google, Mountain View, USA) vom Google&#8217;schen Zugang zu Problemen der maschinellen \u00dcbersetzung. Um Ambiguit\u00e4ten, die bei maschineller \u00dcbersetzung zwangsweise auftreten, statistisch entscheiden zu k\u00f6nnen, berechneten sie kurzerhand die statistisch signifikanten 2- bis 5-Gramme (also 2- bis 5-Wortketten) im Sprachgebrauch. Als Korpus diente eine Teilmenge der bei Google f\u00fcr die Websuche indizierten Seiten: 1&#8217;011&#8217;582&#8217;453&#8217;213 W\u00f6rter! (In Worten: 1.01 Billionen W\u00f6rter.)<\/p>\n<p>Schon an der IDS-Tagung versprach Brants, dass diese N-Gramme f\u00fcr wissenschaftliche Zwecke zur Verf\u00fcgung gestellt w\u00fcrden. K\u00fcrzlich haben nun <a href=\"http:\/\/googleresearch.blogspot.com\/2006\/08\/all-our-n-gram-are-belong-to-you.html\">Alex Franz und Thorsten Brants offiziell verlautbart<\/a>, die 5-Gramme (13&#8217;653&#8217;070, die h\u00e4ufiger als 200 mal im Korpus erscheinen) im Rahmen des <a href=\"http:\/\/www.ldc.upenn.edu\/\">Linguistic Data Consortiums<\/a> zu ver\u00f6ffentlichen.<\/p>\n<p>Uns ist aktuell noch nicht bekannt, in welcher Form (ausser: auf 6 DVDs) und mit welchen Informationen versehen diese 5-Gramme publiziert werden. Auch bez\u00fcglich Sprache(n) herrscht noch Unklarheit; wahrscheinlich handelt es sich beim verwendeten Korpus nur um englischsprachige Texte.<\/p>\n<p>Jedenfalls wird es spannend, diese Datenbasis nicht nur f\u00fcr die (klassischen) Bereiche Maschinelle \u00dcbersetzung, Sprach- und Fehlererkennung etc. zu nutzen, sondern z.B. auch f\u00fcr <a href=\"http:\/\/www.bubenhofer.com\/korpuslinguistik\/kurs\/index.php?id=anwendungen_diskursanalyse.html\">diskursanalytische Fragestellungen<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>An der letzten Tagung des Instituts f\u00fcr Deutsche Sprache (IDS) berichtete Thorsten Brants (Google, Mountain View, USA) vom Google&#8217;schen Zugang zu Problemen der maschinellen \u00dcbersetzung. Um Ambiguit\u00e4ten, die bei maschineller \u00dcbersetzung zwangsweise auftreten, statistisch entscheiden zu k\u00f6nnen, berechneten sie kurzerhand &hellip; <a href=\"https:\/\/www.bubenhofer.com\/sprechtakel\/2006\/08\/07\/googles-dreizehn-millionen-n-gramme\/\">Weiterlesen <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[6,4],"tags":[],"class_list":["post-53","post","type-post","status-publish","format-standard","hentry","category-5-korpora","category-4-korpuslinguistik"],"_links":{"self":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts\/53","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/comments?post=53"}],"version-history":[{"count":0,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts\/53\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/media?parent=53"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/categories?post=53"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/tags?post=53"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}