Induktive Statistik: Signifikanztest (3)

Grössere Kontingenztabellen

Egal, ob mit dem Chi-Quadrat-Test oder dem Log-likelihood-Test gearbeitet wird, bilden immer Kontintenztabellen die Basis der Berechnungen. Und diese müssen sich nicht auf die 2*2-Felder-Grösse beschränken, sondern können auch grössere Dimensionen aufweisen, z.B. wenn Frequenzen in mehreren Korpora miteinander verglichen werden sollen.

Ein Beispiel sind diachrone Studien, wenn z.B. die Verteilung eines Wortes über einen bestimmten Zeitabschnitt analysiert werden soll. So könnte eine entsprechende Kontingenztabelle folgendermassen aussehen:

Frequenz von XAlle anderen WörterTotal
1995ABA+B
1996CDC+D
1997EFE+F
1998GHG+H
1999IJI+J
2000KLK+L
2001MNM+N
2002OPO+P
2003QRQ+R
2004STS+T
2005UVU+V
TotalA+C+...B+D+...A+B+C+D+...

Tabelle 1: Eine generelle Kontingenztabelle für eine Distribution über Jahre

Wird der Chi-Quadrat-Test verwendet, muss nur für jede Zelle (O - E)2/E berechnet und die Ergebnisse addiert werden. Achtung: Weil dafür eine 2*11-Felder-Tafel verwendet wird, erhöht sich der Freiheitsgrad df entsprechend: (Reihenzahl - 1) * (Spaltenzahl - 1) ergibt (11 - 1) * (2 - 1) = 10. Die kritischen Werte betragen demnach 18,31 bei P = 0,05 und 29,59 bei P = 0,001.

Mehrworteinheiten, Sätze oder Kühe statt Wörter

Zudem ist es den Signifikanztests reichlich egal, ob mit ihnen die Frequenzen von Wörtern oder aber ganz anderen Dingen verglichen werden. Statt die Frequenzen eines Wortes X zu messen, können natürlich auch bestimmte Mehrworteinheiten, Phrasen oder Sätze gezählt werden – oder auch braune Kühe im Vergleich zu schwarzen Kühen auf zwei Wiesen. Wichtig ist nur, dass jeweils in der Kontingenztabelle das richtige Total von allem Gezählten gewählt wird. Zähle ich bestimmte Sätze, muss das Total in der Kontingenztabelle die Zahl aller Sätze nicht aller Wörter des Korpus nennen.

Signifikanztests können aber auch verwendet werden, um Kollokationen/Kookkurrenzen zu berechnen. Dabei möchte man wissen, ob eine bestimmte Wortverbindung, z.B. heute Abend eine signifikante Verbindung ist. Es ist klar, dass dies davon abhängt, wie oft heute und Abend einzeln im Korpus vorkommen: Wenn beide Wörter sehr häufig sind, ist es nicht überraschend, wenn sie auch hin und wieder zusammen auftreten. Wenn sie aber einzeln nicht so häufig auftreten, dabei aber fast immer zusammen, dann handelt es sich um eine signifikante Verbindung.

Die Kontingenztabelle, um dies zu berechnen, sieht folgendermassen aus:

heutenicht heuteTotal
AbendA: 20B: 200220
nicht AbendC: 500D: 20002500
Total52022002720

Tabelle 2: Kontingenztabelle zur Berechnung von Kollokationen (erfundene Werte)

Feld A enthält also die Anzahl Fälle, in denen heute und Abend zusammen auftreten. Feld B alle Fälle, in denen Abend aber nicht in Kombination mit heute auftritt. Feld C umfasst die Fälle, in denen heute, aber nicht Abend auftritt und Feld D alle restlichen Fälle, in denen weder heute noch Abend zusammen vorkommen.

Mit dem Chi-Quadrat-Test ergeben die Werte in Tabelle 2 einen Wert für Χ2 von 15,6 (bitte nachrechnen!) und ist somit signifikant.

Natürlich müsste noch definiert werden, was "zusammen vorkommen" genau bedeutet. Man kann nur Fälle berücksichtigen, in denen Abend direkt auf heute folgt, oder aber gemeinsames Vorkommen im selben Satz zählen etc.

Glücklicherweise gibt es Software, die solche Signifikanztests für Kollokationen automatisch erledigen, so ist diese Funktion z.B. in der COSMAS-Oberfläche der IDS-Korpora bereits eingebaut. Aber auch die Konkordanz-Software AntConc oder das Ngram Statistics Package arbeiten nach diesem Prinzip.