Noah Bubenhofer: Einführung in die Korpuslinguistik (CQPweb recherchieren (UZH))

Daten analysieren	Anwendungen
CQPweb recherchieren	Abfragesyntax CQP

Diese Seite richtet sich speziell an Studierende von Noah Bubenhofer an der UZH! Alle anderen konsultieren bitte die alternative Seite.

CQPweb: Recherche in den Korpora des Korpuspragmatik-Teams Bubenhofer

CQPweb ist das grafische Fenster auf die Corpus Workbench, einer mächtigen Korpusanalyse-Plattform. Die in der CWB und in CQPweb verwendete Abfragesprache heisst "CQP" und ist sehr flexibel. Wenn die Korpusdaten annotiert sind, können diese Informationen mit CQP abgefragt werden.

Überblick über diese Seite

Die Korpora des Korpuspragmatik-Teams
Erste Schritte
Verteilung der Flexionsformen (Frequency Breakdown)
Verteilung der Treffer über das Korpus (Distribution)
Berechnung von Kollokationen (Collocations)
Weitere Analysefunktionen
Mit Teilkorpora arbeiten (Restricted Query / Create/Edit Subcorpora)
Berechnen des typischen Vokabulars (Keywords)
Suche nach Wortarten, Lemmata etc.

Screencast zur Bedienung von CQPweb

Am Beispiel des Spiegel/Zeit-Korpus zeige ich die wichtigsten Funktionen von CQPweb.

Die Korpora des Korpuspragmatik-Teams

Wir wollen die Abfragesprache CQP und die Funktionen von CQPweb am Beispiel der Korpora des Korpuspragmatik-Teams zeigen. Es gibt Zeitungskorpora, Korpora zur COVID-Pandemie und weitere Projektkorpora. Der Zugang ist mit einem Passwort geschützt – die Zugangsdaten erhalten Sie über noah.bubenhofer@ds.uzh.ch.

Erste Schritte

Die Koropra sind unter der Adresse https://korpuspragmatik.ds.uzh.ch/korpora/ verfügbar. Wählen Sie auf der Seite eines der Korpora aus, z.B. das CH-Parlament-Korpus.
Der Bildschirm gliedert sich in verschiedene Menüs links und das Suchfenster auf der rechten Seite (siehe Abbildung oben).
Abhängig davon, was unterhalb des Suchfensters als "Query Mode" ausgewählt ist, gestaltet sich die Suchanfrage. Bitte wählen Sie "Simple Query (ignore case)" für den Start.
Geben Sie nun ein beliebiges Suchwort ein, z.B.:
Freiheit
Klicken Sie dann auf "Start Query".
Nun wird eine KWiC-Liste mit Belegen ausgegeben.

Ein Klick (oder darüberfahren) auf den Dateinamen ganz links gibt für jede Zeile die Metadaten aus.
Fährt man mit der Maus über das Suchwort in der KWiC-Zeile, wird der unmittelbare Kontext mit den Wortarten-Annotationen ausgegeben.
Ein Klick auf der Suchwort zeigt den weiteren Kontext an.

Ganz oben auf der KWiC-Seite werden Frequenzinformationen angegeben. In der Zeile darunter kann über "Line View" eine Satz-Darstellung erzeugt und über "Show in random order" können die Belege zufällig sortiert werden. Zudem verbergen sich hinter dem Menü "New query" einige interessante Funktionen, die im Folgenden beschrieben werden.

Wir haben nun mit der Eingabe "Freiheit" nach genau dieser Wortform gesucht und finden deshalb keine flektierten Formen davon. Da das Korpus jedoch mit Lemma-Informationen annotiert ist, können wir nach dem Lemma (der Grundform) "Freiheit" suchen. Das geht folgendermassen:

Gehe zurück zur Suchmaske indem Sie im Menü rechts oben "New query" einstellen und auf "Go!" klicken.
Nun benutzen wir die Abfragesprache "CQP" und stellen deshalb unterhalb des Suchfensters als "Query syntax" die Option "CQP Syntax" ein.
Der Suchbefehl für eine Lemmasuche lautet:
[lemma="Freiheit"]
Der Klick auf "Start Query" führt die Suche aus. In den KWiCs ist nun sichtbar, dass nach allen Flexionsformen von "Freiheit" gesucht wurde.

Ausführlichere Informationen zur CQP-Syntax findet sich auf der nächsten Seite und natürlich in der offiziellen Dokumentation.

Verteilung der Flexionsformen (Frequency Breakdown)

Wählen Sie im Menü "New query" oberhalb der KWiC-Zeilen rechts den Befehl "Frequency Breakdown". Nun ist ersichtlich, welche Wortformen des Suchbegriffs im Korpus mit welcher Frequenz vorkommen. Wenn nicht nach dem Lemma, sondern nach einer konkreten Wortform gesucht wird, dann fallen natürlich alle Treffer auf die eine Wortform. Bei der Suche nach

[lemma="Freiheit"]

wird jedoch folgende Tabelle angegeben:

No.	Search result	No. of occurrences	Percent
1	Freiheit	2833	91.51%
2	Freiheiten	263	8.49%

91% aller Treffer entfallen also auf "Freiheit", 8% auf den Plural "Freiheiten".

Es ist zudem möglich, auch die Wortarten-Informationen in die Verteilung einzubeziehen: Dafür muss im Menü oben, das auf "New query" voreingestellt ist, die entsprechende Auswahl getroffen werden. So kann man z.B. ersehen, auf welche Wortarten das Lemma "Freiheiten" entfällt – das ist bei diesem Beispiel trivial: Es handelt sich immer um Nomen.

Verteilung der Treffer über das Korpus (Distribution)

Wählen Sie im Menü "New query" oberhalb der KWiC-Zeilen rechts den Befehl "Distribution". Nun kann die Verteilung der Treffer über verschiedene Kategorien dargestellt werden:

Sie erhalten Tabellen für alle im Korpus verfügbaren Metadaten. Im Fall des Parlamentsdebatten-Korpus sehen Sie z.B. Tabellen für die Verteilung über die Kammern, die Fraktionen, die Sessionen und das Datum (Jahre und Jahr-Monate).
Sie können im Menü "Categories" statt "General Information" eine der verfügbaren Kategorien auswählen, damit nur diese Tabelle angezeigt wird.
Es lässt sich auch eine Kreuztabelle ausgeben, wenn als "Category for Crosstabs" eine weitere Kategorie ausgewählt wird.
Mit dem Klick auf "Show distribution" wird eine Tabelle mit den Frequenzwerten pro Kategorieneinheit, also z.B. pro Jahr erstellt. Dabei werden neben den absoluten Trefferzahlen ("Hits in category") einerseits ein Dispersionswert (Anzahl Texte mit mindestens einem Treffer) und Frequenzwerte (Anzahl Treffer pro Million Wörter) angezeigt.
Wenn man im Menü "Show as" statt "Distribution table" "Bar chart" wählt, werden die Frequenzwerte als Balkengrafik ausgegeben.

Über diese Funktion lassen sich Veränderungen der Frequenzen eines Ausdrucks über die Zeit gut darstellen. Oder aber z.B. die unterschiedliche Verwendung eines Wortes in den Parteien (Fraktionen). Der folgende Bildausschnitt zeigt die Frequenzen für

[lemma="Freiheit"]

entlang der Kategorieneinheit "text_partynamecat" (Fraktionen) dargestellt.

Berechnung von Kollokationen (Collocations)

In CQPweb ist es möglich, sich die Kollokationen (manchmal auch: "Kookkurrenzen" genannt) zum Suchbegriff zu berechnen. Verwenden Sie dazu im Menü "New query" den Befehl "Collocations".

Als erstes kann man die Einstellungen für die Art der Berechnung vornehmen. Es ist sinnvoll, "Lemma" (die Grundformen) und "POS" (Wortarten) in die Berechnung einzubeziehen. Zudem kann das Fenster der Anzahl Wörter links und rechts vom Suchbegriff ("Maximum Window Span") bestimmt werden.
Die Tabelle (vgl. Abbildung oben) gibt nun die signifikantesten Kollokatoren zum Suchbegriff aus. Es werden die absoluten und relativen beobachteten und (aufgrund der statistischen Verteilung) erwarteten Frequenzen sowie der statistische Signifikanzwert (Standard: Log-likelihood) angegeben (ein Bug in CQPweb führt zu falschen Darstellungen der Umlaute).
Man kann nun über die diversen Einstellmöglichkeiten oben die Liste filtern:

Über "Collocation based on" kann man anstelle der Wortform die Kollokatoren auf der Basis der Grundformen (Lemmata) oder Wortarten (POS) ausgeben lassen.
Man kann über "Collocation window from/to" das Fenster einschränken und nur Kollokatoren in einem bestimmten Bereich links und rechts des Suchbegriffs ausgeben lassen.
Über "Freq(node, collocate) at least" kann man die Mindestfrequenz, mit der eine Kollokation oder ein Kollokator – "Freq(collocate) at least" – auftreten muss, bestimmen.
Man kann in "Statistics" das statistische Mass für die Berechnung bestimmen.
Und es ist möglich, die Liste nach bestimmten Wortformen, Lemmata oder Wortarten zu filtern ("Filter results by").

Weitere Analysefunktionen

Hinter dem Menü "New query", das oberhalb einer KWiC-Liste angezeigt wird, verbergen sich noch weitere interessante Funktionen. In Kürze:

Thin: Aus der Belegmenge kann eine Zufallsauswahl für die genauere Analyse gezogen werden.
Sort: Die Belege können nach verschiedenen Kriterien sortiert werden.
Download: Die Belege können heruntergeladen werden.
Categorise: Die Belege können nach eigenen Kriterien kategorisiert und diese Kategorisierung gespeichert werden.
Save current set of hits: Die Suche kann in CQPweb gespeichert werden, damit man sie später schnell wieder ausführen oder daraus ein Teilkorpus bilden kann.

Mit Teilkorpora arbeiten (Restricted Query / Create/edit subcorpora)

Wahrscheinlich möchte man nicht immer mit dem gesamten Korpus arbeiten und z.B. nur Texte einer Partei oder einer Politikerin untersuchen. Solche Einschränkungen sind über "Restricted Query" möglich; der Menüpunkt findet sich in der linken Menüspalte.

Auch da kann man im Suchfenster den Suchausdruck mit den gleichen Mitteln formulieren wie bei der normalen Suche. Zusätzlich kann man aber die Suche auf Texte mit bestimmten Metadaten beschränken. Über die unterhalb des Suchfensters angezeigten Listen kann man die gewünschte Korpusgrundlage auswählen, z.B. eine bestimmte Partei oder bestimmte Autoren.

Mit der Funktion "Create / edit subcorpora" kann man Teilkorpora bilden, die über eine Suche hinaus bestehen bleiben. Es gibt verschiedene Möglichkeiten, die Teilkorpora zu definieren, z.B. über "Corpus metadata". Da das Parlamentskorpus verschiedensprachige Beiträge enthält, ist es z.B. sinnvoll, ein Teilkorpus von nur deutschsprachiger Daten zu erstellen, ggf. noch eingeschränkt auf eine oder mehrere Fraktionen/Parteien und/oder Zeitabschnitte.

Berechnen des typischen Vokabulars (Keywords)

Links im Menü von CQPweb finden Sie unter "Corpus queries" den Bereich "Keywords". Damit lässt sich das für ein bestimmtes Korpus im Vergleich zu einem anderen Korpus typische Vokabular berechnen. Dafür müssen für die Korpora, die verglichen werden sollen, vorberechnete Frequenzlisten zur Verfügung stehen. Für das Korpus, mit dem Sie arbeiten, ist dies bereits der Fall. Zudem liegen von den anderen Korpora, die auf dem Server verfügbar sind, Frequenzlisten vor. Oder Sie können Teilkorpora definieren und diese miteinander vergleichen.

Sie können nun zwei Frequenzlisten auswählen: Unter "Select frequency list 1" lassen Sie die Frequenzliste des aktuellen Korpus ausgewählt. Unter "Select frequency list 2" wählen Sie die Liste eines Vergleichskorpus. Sie können z.B. zwei Teilkorpora von zwei Parteien definieren und diese vergleichen.
Nun können Sie noch die Einheit, die verglichen werden soll ("Compare") auswählen: Voreingestellt ist "Word forms", es werden also Wortformen verglichen. Alternativ können Sie dort "Lemma" auswählen, um Grundformen zu vergleichen oder "POS", um die Verteilung der Wortarten zu vergleichen.
Es gibt nun noch die Möglichkeit, Optionen zu den Mindestfrequenzen und der gewünschten Statistik auszuwählen – belassen Sie die Einstellungen erstmal wie sie sind.
Nun klicken Sie "calculate keywords!".

In der Eregbnisliste werden nun, geordnet nach statistischer Signifikanz, die Wörter angezeigt, die für das Untersuchungskorpus (hier: Fraktion der SP) und das Referenzkorpus (hier: FDP/Liberale) typisch sind. Blau hinterlegt und mit + versehen sind die typischen SP-Wörter, grau hinterlegt und mit - versehen, das Vokabular des Referenzkorpus. Zusätzlich sind die absoluten Frequenzen jedes Wortes in den beiden Korpora und der statistische Signifikanzwert angegeben.

Suche nach Wortarten, Lemmata etc.

Interessant wird die Corpus Workbench und CQPweb natürlich besonders dann, wenn intelligentere Suchmöglichkeiten eingesetzt werden. Im nächsten Kapitel werden deshalb die wichtigsten Regeln der Abfragesprache CQP erklärt.

CQPweb recherchieren	Abfragesyntax CQP
Daten analysieren	Anwendungen

Das Copyright dieses Kurses liegt bei Noah Bubenhofer. Bei Zitaten oder Verweisen darauf, freut der Autor sich über eine Mitteilung. Ebenso bei Fehlern und anderen Hinweisen!
Diese elektronische Ressource soll wie folgt zitiert werden: Bubenhofer, Noah (2006-2024): Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge. Elektronische Ressource: http://www.bubenhofer.com/korpuslinguistik/.