Probleme Web als Korpus

Möchte man das Web als Korpus für linguistische Zwecke benutzen, stellen sich einige Probleme. Man kann diese in zwei Bereiche gliedern: Einmal bezüglich der verfügbaren Suchmaschinen und deren Möglichkeiten, andererseits grundsätzlich: Inwiefern ist das Web ein sinnvoll nutzbares Korpus?

Suchmaschinen

In den Aufgaben auf der vorherigen Seite bist du wahrscheinlich bereits auf einige Probleme bei der Benutzung der Suchmaschinen gestossen. Zusammenfassend kann man sagen:
Bei einer korpuslinguistischen Analyse im Web muss also immer klar sein, dass die zugrundeliegende Gesamtheit nur die Menge an Dokumenten ist, die zum Zeitpunkt der Recherche von der benutzten Suchmaschine indiziert worden ist. Dabei ist jedoch das Problem, dass wir gar nicht wissen, wie gross die Grundgesamtheit der Dokumente überhaupt ist!

Diese Probleme können teilweise gelöst werden, wenn man sich ein eigenes Korpus aus Web-Dokumenten zusammenstellt und bei sich lokal abspeichert. Im Prinzip funktioniert das so: Mittels geschickter Suchmaschinenanfragen erstellt man sich eine Liste an Dokumenten zum Download. Die Dokumente kann man dann bei sich lokal auf dem Rechner archivieren. Damit verfügt man mit dieser Datenmenge eine klar definierte Grundgesamtheit, über die man Aussagen machen kann. Diese Methode findet in der Korpuslinguistik immer weitere Verbreitung, z.B. durch die Initiative "WaCky – Web-as-Corpus kool ynitiative". In deren Kontext ist das Web as Corpus Toolkit entstanden, ein Softwarepaket, mit dem man Dokumente aus dem Web automatisiert herunterladen und weiter verarbeiten kann.

Das Web als Korpus

Die Probleme der Suchmaschinen sind das eine, die Frage, inwiefern das Web ganz grundsätzlich als Korpus verwendet werden kann, ist eine andere Frage. Folgende Probleme stellen sich:
  1. Ist das Web repräsentativ für den Sprachgebrauch, den ich untersuchen möchte?
  2. Welche Textsorten finden sich im Web?
  3. Wer spricht im Web?
  4. Was ist das für eine Sprache, die im Web gesprochen wird?
Es sind Fragen, die kaum zu beantworten sind. Möchte man diese Fragen beantwortet haben, bleibt nichts anderes übrig, als nur einen bestimmten, gut überblickbaren Teil des Webs als Korpus zu verwenden. Es ist beispielsweise denkbar, nur ausgewählte Foren zu verwenden, über deren Umfang und Benutzerkreis man den Überblick hat.

Aufgabe 2
Ziehe ein Fazit zur Nutzung des Webs als Korpus für linguistische Recherchen! Für welche Fragestellungen könnte es benutzt werden? Für welche weniger? Wie kann man vorgehen, um gewisse der angesprochenen Probleme zu umgehen?