Daten beschaffen
Es ist wichtig, sich sorgfältig Gedanken
darüber zu machen, welche Daten man für das Korpus nutzen möchte.
Praktisch immer muss man dabei einen Kompromiss zwischen Wünschbarem
und Machbarem eingehen. Die wünschbaren Texte können aus vielfältigen
Gründen nicht integriert werden:
- Grösstes Problem ist die
Art der Verfügbarkeit der Texte. Im Idealfall kann man für ein Korpus
bereits elektronisch verfügbare Daten verwenden. So kann auf eine
grosse Menge von ab etwa 1995 erschienenen Zeitungstexten elektronisch
zugegriffen werden. Andere Textsorten oder ältere Daten müssten aber
oft zuerst elektronisch erfasst werden. Zwar gibt es inzwischen
Methoden der automatischen Texterkennung (OCR), doch ist auch dann der
Aufwand dafür beträchtlich. Interessant ist in diesem Zusammenhang
natürlich auch die Nutzung des WWWs als Korpus.
- In vielen
Fällen sprechen Copyright-Gründe gegen eine Verwendung. Hier muss
sorgfältig abgeklärt werden, ob die Daten für die geplante Untersuchung
verwendet werden dürfen. Meistens kann man eine einvernehmliche Lösung
finden, wenn man garantiert, die Daten nur für wissenschaftliche Zwecke
zu verwenden. Doch ist es selten erlaubt, die Daten z.B. als Anhang zu
einer Publikation öffentlich zu machen.
- Der Umfang des Korpus
muss in einem handhabbaren Mass bleiben. Je nach eingesetzter Technik
für die Verwaltung sowie die Analyse der Daten stösst man hier auf
Grenzen. Zwar sind Speicherkapazität und Rechengeschwindigkeit immer
weniger ein Problem, andererseits ist der Aufwand, z.B. 10 Jahrgänge
einer Tageszeitung in elektronischer Form zu beschaffen, anschliessend
in ein Korpus zu überführen, zu verwalten und zu analysieren doch
beträchtlich. Und: Für die Analyse gilt nicht in jedem Fall, das mehr
Daten auch bessere Analysemöglichkeiten bedeutet.
Mögliche Quellen
Der Fantasie, an Quellen für das Korpus zu kommen, sind keine Grenzen gesetzt. Hier einige Vorschläge:
- Zeitungen/Zeitschriften: Die LexisNexis-Datenbank
ist wohl die umfangreichste Sammlung an Zeitungs- und
Zeitschriftentexten aus aller Welt. Hier sind die kompletten digital
erhältlichen Archive der wichtigen Presseverlage erhältlich. Die
Nutzung der Datenbank ist kostenpflichtig, über
Universitätsbibliotheken erhält man jedoch oft Zugang dazu, so auch
über die Zentralbibliothek der Universität Zürich (Zugang nur innerhalb des Universitäts-Netzes oder über eine VPN-Verbindung von zuhause auf das Uni-Netz!).
- Belletristik: Das Projekt Gutenberg
sammelt deutschsprachige belletristische Texte, deren Copyright
verfallen ist, und kann inzwischen eine beachtliche Menge vorweisen.
Ähnlich verfährt die internationale Version (gutenberg.org),
die auch auf andersprachige Texte verweist. Nachteil: Die Texte sind
immer wieder etwas anders formatiert und verteilen sich auf mehrere
Seiten, die man nachher wieder zusammenfügen muss. Auch kann die
Datenbank nicht ganz so flexibel verwendet werden.
- Politik: Die meisten Parlamente veröffentlichen ihre Wortprotokolle der Debatten, so auch das schweizerische Parlament (Amtliches Bulletin), der deutsche Bundestag (Plenarprotokoll) oder das österreichische Parlament (stenographische Protokolle). Zudem sind zusätzlich unzählige Dokumente (Parteiprogramme, Gesetzestexte, Verlautbarungen etc.) elektronisch verfügbar.
- Eigene Daten: Wie wäre es, das eigene E-Mail-Archiv als Korpus zu nutzen? Oder die eigene SMS-Sammlung zu analysieren?
- WWW:
Anstatt das Web als Ganzes als Korpus zu nutzen, kann man sich
natürlich auch systematische Textsammlungen zusammenstellen, z.B. aus
Internet-Foren, Chats oder Webseiten von Chüngelizüchter.
| Aufgabe |
|---|
Wenn
du bereits eine Forschungsfrage im Kopf hast, versuche dir zu
überlegen, was für ein Korpus du idealerweise dazu aufbauen möchtest
und woher du die Texte nehmen könntest!
|
Das Copyright dieses Kurses liegt bei Noah Bubenhofer. Bei Zitaten oder Verweisen darauf, freut der Autor sich über
eine
Mitteilung.
Ebenso bei Fehlern und anderen Hinweisen!
Diese elektronische Ressource soll wie folgt zitiert werden:
Bubenhofer, Noah (2006-2010): Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge. Elektronische Ressource: http://www.bubenhofer.com/korpuslinguistik/.