Verteilungen von Treffern

Die unterschiedlichen Ergebnisanzeigen nach einer Suche sind immer ähnlich aufgebaut. In der Quellenansicht sind die Anzahl Treffer und Texte pro Quelle, sowie der Zeitraum, in dem es Treffer gibt, ersichtlich:

Wenn man nun die Treffer zwischen den verschiedenen Quellen vergleichen will, sagen die Trefferzahlen nicht viel, da es sich um absolute Häufigkeiten handelt. Das Problem ist, dass nicht bekannt, wie viele Texte und Wörter die jeweiligen Quellen enthalten.

Wenn wir in Quelle A 50 Treffer finden und in Quelle B 100 Treffer, ist ein Vergleich nicht möglich, so lange wir die Anzahl Wörter in den Quellen nicht kennen. Enthält Quelle A 1.000.000 Wörter und Quelle B 2.000.000, ist es nicht überraschend, dass wir in Quelle B doppelt so viele Treffer finden wie in Quelle A.

Um den Vergleich zu ermöglichen, müssen relative Häufigkeiten berechnet werden, also z.B. Prozente:

Die Treffer machen also in beiden Quellen 0.005% der Wörter aus.

Da in der Korpuslinguistik oft relativ niedrige Trefferzahlen in relativ grossen Korpora gezählt werden, rechnet man normalerweise nicht Prozente (pro Hundert), sondern pro Tausend (Promille) oder sogar noch häufiger pro Million:

Gerechnet auf ein 1-Millionen-Korpus ergeben sich also in beiden Quellen 50 Treffer.

Relative Häufigkeiten in COSMAS II

In COSMAS II kann man sich bequem zusätzlich relative Häufigkeitsmasse ausgeben lassen. Dazu begibt man sich im Menü oben in die "Optionen", dort in den Reiter "Ergebnispräsentation":

Hier kann man die "Berechnung des Häufigkeitsmaßes" einschalten und hat die Wahl zwischen drei Varianten, darunter die oben besprochene relative Häufigkeit als Prozent oder pro Million-Angabe.

Es gibt daneben zwei weitere Häufigkeitsmasse, der Differenzkoeffizient und die Häufigkeitsklassen, die auf der Hilfe-Seite zu den Häufigkeitsmassen erklärt werden.

Mit der zusätzlichen Angabe eines relativen Häufigkeitsmasses können die Treffermengen zwischen den Quellen nun besser verglichen werden (hier Angabe pro Mio. Wörter):

Natürlich muss man daneben die absoluten Häufigkeiten ebenfalls im Blick behalten, denn bei Quellen, in denen nur ganz wenige Treffer vorhanden sind, ist auch die relative Häufigkeitsangabe irreführend.

Diachrone Häufigkeitsverteilungen

Interessant sind nun beispielsweise diachrone Häufigkeitsverteilungen, also Verteilungen der Treffer über Zeit. In der Ergebnisse-Darstellung kann im Menü oberhalb der Treffer die Darstellung "Ansicht nach Jahrzehnt" (oder "nach Jahr") ausgewählt werden, um zu sehen, wie sich die Treffermengen über die Jahre verändern:

Auch hier ist es wichtig, die absoluten Treffermengen im Auge zu behalten. Es existieren statistische Verfahren, um zu prüfen, ob die Häufigkeitsveränderungen zwischen den Gruppen (hier: Jahrzehnten) sich genug stark unterscheiden, um von signifikanten Veränderungen reden zu können. Mehr dazu wird im Statistik-Kapitel beschrieben.

Aufgabe 1
Erstelle eine Übersicht der relativen Frequenz der Wörter "Terror" und "Krieg" in den Jahren 1995 bis heute!

Aufgabe 2
Überlege dir eine Korpusabfrage, die für einen diachronen Vergleich interessant sein könnte! Erstelle anschliessend eine Übersicht dazu, die die diachrone Entwicklung aufzeigt!

Tipp: Über "Export" kann die Ergebnistabelle in COSMAS II auch exportiert werden. Die Daten können dann in eine Tabellenkalkulationssoftware (z.B. Excel oder Calc) kopiert werden, um ein Balkendiagramm zu erstellen.