Diese Seite richtet sich speziell an Studierende von Noah Bubenhofer an der UZH! Alle anderen konsultieren bitte die alternative Seite.

CQPweb: Recherche in den Korpora des Korpuspragmatik-Teams Bubenhofer

CQPweb ist das grafische Fenster auf die Corpus Workbench, einer mächtigen Korpusanalyse-Plattform. Die in der CWB und in CQPweb verwendete Abfragesprache heisst "CQP" und ist sehr flexibel. Wenn die Korpusdaten annotiert sind, können diese Informationen mit CQP abgefragt werden.

Überblick über diese Seite

Screencast zur Bedienung von CQPweb

Am Beispiel des Spiegel/Zeit-Korpus zeige ich die wichtigsten Funktionen von CQPweb.

Die Korpora des Korpuspragmatik-Teams

Wir wollen die Abfragesprache CQP und die Funktionen von CQPweb am Beispiel der Korpora des Korpuspragmatik-Teams zeigen. Es gibt Zeitungskorpora, Korpora zur COVID-Pandemie und weitere Projektkorpora. Der Zugang ist mit einem Passwort geschützt – die Zugangsdaten erhalten Sie über noah.bubenhofer@ds.uzh.ch.

Erste Schritte

  1. Die Koropra sind unter der Adresse https://korpuspragmatik.ds.uzh.ch/korpora/ verfügbar. Wählen Sie auf der Seite eines der Korpora aus, z.B. das CH-Parlament-Korpus.
  2. Der Bildschirm gliedert sich in verschiedene Menüs links und das Suchfenster auf der rechten Seite (siehe Abbildung oben).
  3. Abhängig davon, was unterhalb des Suchfensters als "Query Mode" ausgewählt ist, gestaltet sich die Suchanfrage. Bitte wählen Sie "Simple Query (ignore case)" für den Start.
  4. Geben Sie nun ein beliebiges Suchwort ein, z.B.:
    Freiheit
    Klicken Sie dann auf "Start Query".
  5. Nun wird eine KWiC-Liste mit Belegen ausgegeben.

Ganz oben auf der KWiC-Seite werden Frequenzinformationen angegeben. In der Zeile darunter kann über "Line View" eine Satz-Darstellung erzeugt und über "Show in random order" können die Belege zufällig sortiert werden. Zudem verbergen sich hinter dem Menü "New query" einige interessante Funktionen, die im Folgenden beschrieben werden.

Wir haben nun mit der Eingabe "Freiheit" nach genau dieser Wortform gesucht und finden deshalb keine flektierten Formen davon. Da das Korpus jedoch mit Lemma-Informationen annotiert ist, können wir nach dem Lemma (der Grundform) "Freiheit" suchen. Das geht folgendermassen:

  1. Gehe zurück zur Suchmaske indem Sie im Menü rechts oben "New query" einstellen und auf "Go!" klicken.
  2. Nun benutzen wir die Abfragesprache "CQP" und stellen deshalb unterhalb des Suchfensters als "Query syntax" die Option "CQP Syntax" ein.
  3. Der Suchbefehl für eine Lemmasuche lautet:
    [lemma="Freiheit"]
  4. Der Klick auf "Start Query" führt die Suche aus. In den KWiCs ist nun sichtbar, dass nach allen Flexionsformen von "Freiheit" gesucht wurde.

Ausführlichere Informationen zur CQP-Syntax findet sich auf der nächsten Seite und natürlich in der offiziellen Dokumentation.

Verteilung der Flexionsformen (Frequency Breakdown)

Wählen Sie im Menü "New query" oberhalb der KWiC-Zeilen rechts den Befehl "Frequency Breakdown". Nun ist ersichtlich, welche Wortformen des Suchbegriffs im Korpus mit welcher Frequenz vorkommen. Wenn nicht nach dem Lemma, sondern nach einer konkreten Wortform gesucht wird, dann fallen natürlich alle Treffer auf die eine Wortform. Bei der Suche nach

[lemma="Freiheit"]
wird jedoch folgende Tabelle angegeben:
No.Search resultNo. of occurrencesPercent
1Freiheit283391.51%
2Freiheiten2638.49%
91% aller Treffer entfallen also auf "Freiheit", 8% auf den Plural "Freiheiten".

Es ist zudem möglich, auch die Wortarten-Informationen in die Verteilung einzubeziehen: Dafür muss im Menü oben, das auf "New query" voreingestellt ist, die entsprechende Auswahl getroffen werden. So kann man z.B. ersehen, auf welche Wortarten das Lemma "Freiheiten" entfällt – das ist bei diesem Beispiel trivial: Es handelt sich immer um Nomen.

Verteilung der Treffer über das Korpus (Distribution)

Wählen Sie im Menü "New query" oberhalb der KWiC-Zeilen rechts den Befehl "Distribution". Nun kann die Verteilung der Treffer über verschiedene Kategorien dargestellt werden:

Über diese Funktion lassen sich Veränderungen der Frequenzen eines Ausdrucks über die Zeit gut darstellen. Oder aber z.B. die unterschiedliche Verwendung eines Wortes in den Parteien (Fraktionen). Der folgende Bildausschnitt zeigt die Frequenzen für

[lemma="Freiheit"]
entlang der Kategorieneinheit "text_partynamecat" (Fraktionen) dargestellt.

Berechnung von Kollokationen (Collocations)

In CQPweb ist es möglich, sich die Kollokationen (manchmal auch: "Kookkurrenzen" genannt) zum Suchbegriff zu berechnen. Verwenden Sie dazu im Menü "New query" den Befehl "Collocations".

Weitere Analysefunktionen

Hinter dem Menü "New query", das oberhalb einer KWiC-Liste angezeigt wird, verbergen sich noch weitere interessante Funktionen. In Kürze:

Mit Teilkorpora arbeiten (Restricted Query / Create/edit subcorpora)

Wahrscheinlich möchte man nicht immer mit dem gesamten Korpus arbeiten und z.B. nur Texte einer Partei oder einer Politikerin untersuchen. Solche Einschränkungen sind über "Restricted Query" möglich; der Menüpunkt findet sich in der linken Menüspalte.

Auch da kann man im Suchfenster den Suchausdruck mit den gleichen Mitteln formulieren wie bei der normalen Suche. Zusätzlich kann man aber die Suche auf Texte mit bestimmten Metadaten beschränken. Über die unterhalb des Suchfensters angezeigten Listen kann man die gewünschte Korpusgrundlage auswählen, z.B. eine bestimmte Partei oder bestimmte Autoren.

Mit der Funktion "Create / edit subcorpora" kann man Teilkorpora bilden, die über eine Suche hinaus bestehen bleiben. Es gibt verschiedene Möglichkeiten, die Teilkorpora zu definieren, z.B. über "Corpus metadata". Da das Parlamentskorpus verschiedensprachige Beiträge enthält, ist es z.B. sinnvoll, ein Teilkorpus von nur deutschsprachiger Daten zu erstellen, ggf. noch eingeschränkt auf eine oder mehrere Fraktionen/Parteien und/oder Zeitabschnitte.

Berechnen des typischen Vokabulars (Keywords)

Links im Menü von CQPweb finden Sie unter "Corpus queries" den Bereich "Keywords". Damit lässt sich das für ein bestimmtes Korpus im Vergleich zu einem anderen Korpus typische Vokabular berechnen. Dafür müssen für die Korpora, die verglichen werden sollen, vorberechnete Frequenzlisten zur Verfügung stehen. Für das Korpus, mit dem Sie arbeiten, ist dies bereits der Fall. Zudem liegen von den anderen Korpora, die auf dem Server verfügbar sind, Frequenzlisten vor. Oder Sie können Teilkorpora definieren und diese miteinander vergleichen.

  1. Sie können nun zwei Frequenzlisten auswählen: Unter "Select frequency list 1" lassen Sie die Frequenzliste des aktuellen Korpus ausgewählt. Unter "Select frequency list 2" wählen Sie die Liste eines Vergleichskorpus. Sie können z.B. zwei Teilkorpora von zwei Parteien definieren und diese vergleichen.
  2. Nun können Sie noch die Einheit, die verglichen werden soll ("Compare") auswählen: Voreingestellt ist "Word forms", es werden also Wortformen verglichen. Alternativ können Sie dort "Lemma" auswählen, um Grundformen zu vergleichen oder "POS", um die Verteilung der Wortarten zu vergleichen.
  3. Es gibt nun noch die Möglichkeit, Optionen zu den Mindestfrequenzen und der gewünschten Statistik auszuwählen – belassen Sie die Einstellungen erstmal wie sie sind.
  4. Nun klicken Sie "calculate keywords!".

In der Eregbnisliste werden nun, geordnet nach statistischer Signifikanz, die Wörter angezeigt, die für das Untersuchungskorpus (hier: Fraktion der SP) und das Referenzkorpus (hier: FDP/Liberale) typisch sind. Blau hinterlegt und mit + versehen sind die typischen SP-Wörter, grau hinterlegt und mit - versehen, das Vokabular des Referenzkorpus. Zusätzlich sind die absoluten Frequenzen jedes Wortes in den beiden Korpora und der statistische Signifikanzwert angegeben.

Suche nach Wortarten, Lemmata etc.

Interessant wird die Corpus Workbench und CQPweb natürlich besonders dann, wenn intelligentere Suchmöglichkeiten eingesetzt werden. Im nächsten Kapitel werden deshalb die wichtigsten Regeln der Abfragesprache CQP erklärt.