Googles dreizehn Millionen N-Gramme

An der letzten Tagung des Instituts für Deutsche Sprache (IDS) berichtete Thorsten Brants (Google, Mountain View, USA) vom Google’schen Zugang zu Problemen der maschinellen Übersetzung. Um Ambiguitäten, die bei maschineller Übersetzung zwangsweise auftreten, statistisch entscheiden zu können, berechneten sie kurzerhand die statistisch signifikanten 2- bis 5-Gramme (also 2- bis 5-Wortketten) im Sprachgebrauch. Als Korpus diente eine Teilmenge der bei Google für die Websuche indizierten Seiten: 1’011’582’453’213 Wörter! (In Worten: 1.01 Billionen Wörter.)

Schon an der IDS-Tagung versprach Brants, dass diese N-Gramme für wissenschaftliche Zwecke zur Verfügung gestellt würden. Kürzlich haben nun Alex Franz und Thorsten Brants offiziell verlautbart, die 5-Gramme (13’653’070, die häufiger als 200 mal im Korpus erscheinen) im Rahmen des Linguistic Data Consortiums zu veröffentlichen.

Uns ist aktuell noch nicht bekannt, in welcher Form (ausser: auf 6 DVDs) und mit welchen Informationen versehen diese 5-Gramme publiziert werden. Auch bezüglich Sprache(n) herrscht noch Unklarheit; wahrscheinlich handelt es sich beim verwendeten Korpus nur um englischsprachige Texte.

Jedenfalls wird es spannend, diese Datenbasis nicht nur für die (klassischen) Bereiche Maschinelle Übersetzung, Sprach- und Fehlererkennung etc. zu nutzen, sondern z.B. auch für diskursanalytische Fragestellungen.

Dieser Beitrag wurde unter Korpora, Korpuslinguistik veröffentlicht. Setze ein Lesezeichen auf den Permalink.