Induktive Statistik: Signifikanztest (1)

Beispiel

Nehmen wir an, dass wir uns für das Vorkommen von geil in zwei Zeitungskorpora interessieren. Mit Hilfe von COSMAS II haben wir die Anzahl Treffer des Lexems im St. Galler Tagblatt und im Tages-Anzeiger anzeigen lassen:

Korpus SG Tagblatt 97–01Korpus TA 96–00
geil131
1,26/Mio.
170
2,83/Mio.
Total Wörter103'644'78260'065'707
Total Texte349'085142'714

Tabelle 1

Es ist klar, dass die absoluten Werte (131 und 170) in Relation zur jeweiligen Korpusgrösse gesetzt werden muss. In der Korpuslinguistik ist es üblich, die Angabe in Relation zu einer Million Wörter zu setzen – genauso gut könnte man aber auch Prozente oder Promille angeben, was bei tiefen Frequenzen jedoch zu kleinen und wenig anschaulichen Zahlen führt.

Doch ist der Unterschied der Frequenzen von geil in den beiden Korpora signifikant, wenn man die Korpusgrösse miteinbezieht? Darüber kann ein Signifikanztest Auskunft geben. Die Frage lautet also:

Kann mit genügend grosser Sicherheit angenommen werden, dass der Frequenzunterschied von geil in den beiden Korpora nicht zufällig zustande gekommen ist? Ist die Korrelation zwischen der Frequenz von geil und dem jeweiligen Korpus signifikant?

Oder umgekehrt gefragt stellen wir eine sog. Nullhypothese (H0) auf, die behauptet: Die Korrelation ist zufällig. Unsere Hypothese (H) lautet aber: Die Korrelation ist nicht zufällig. Der Signifikanztest prüft nun: Kann die Nullhypothese mit genügend grosser Wahrscheinlichkeit verworfen werden?

Erstellen einer Kontingenztabelle

Um unsere Hypothese zu prüfen fragen wir uns, welche Frequenzen wir denn erwarten würden, wenn wir davon ausgehen, dass die Frequenz von geil gleichmässig in den Korpora verteilt wäre. Das sind die erwarteten Werte. Die Werte, die wir aber tatsächlich haben, sind die beobachteten Werte. Es muss also bloss gemessen werden, wie gross der Abstand zwischen den beobachteten und den erwarteten Werte ist.

Wir erstellen nun sog. Kontingenztabellen, die diese Werte erfassen. Zunächst also erstellen wir eine Kontingenztabelle der beobachteten Werte. Nehmen wir für ein neues Beispiel ganz simple Werte an:

Korpus AKorpus BTotal
Frequenz von Wort X203050
Alle anderen Wörter98019702950
Total100020003000

Tabelle 2: Beobachtete Werte

Die Kontingenztabelle unterscheidet sich leicht von Tabelle 1: Wir tragen darin die Werte ein für die Frequenzen des gesuchten Wortes X, daneben aber auch die Anzahl aller anderen Wörter (was sich also aus dem Total der Wörter im Korpus minus der Frequenz von X ergibt).

Wie müsste die Tabelle aussehen, wenn wir von einer gleichmässigen Verteilung des Wortes X in den beiden Korpora ausgingen? Da Korpus B doppelt so gross ist wie Korpus A müssten sich die Frequenzen von X (insgesamt 50) ebenfalls in diesem Verhältnis auf die beiden Korpora verteilen:

Korpus AKorpus BTotal
Frequenz von Wort XDreisatz:
3000 ≙ 50
1000 ≙ x
Also:
x = 1000 * 50/3000
x = 16,66
Dreisatz:
3000 ≙ 50
2000 ≙ x
Also:
x = 2000 * 50/3000
x = 33,33
50
Alle anderen WörterDreisatz:
3000 ≙ 2950
1000 ≙ x
Also:
x = 1000 * 2950/3000
x = 983,33
Dreisatz:
3000 ≙ 2950
2000 ≙ x
Also:
x = 2000 * 2950/3000
x = 1966,66
2950
Total100020003000

Tabelle 3: Erwartete Werte

Mit einem einfachen Dreisatz können die erwarteten Werte berechnet werden, wobei man natürlich die Berechnung der erwarteten Werte für alle anderen Wörter einfacher machen kann, indem die erwarteten Werte des Wortes X vom jeweiligen Korpustotal subtrahiert wird.

Wenden wir nun dieses Verfahren auf das Beispiel in Tabelle 1 an. Die folgende Kontingenztabelle umfasst sowohl die beobachteten als auch die erwarteten Werte:

Korpus SG Tagblatt 97–01Korpus TA 96–00Total
geil131
(190,6)
170
(110,4)
301
Alle anderen Wörter103'644'651
(103'644'591,4)
60'065'537
(60'065'596,6)
163'710'188
Total103'644'78260'065'707163'710'489

Tabelle 4: Beobachtete und erwartete Werte (in Klammern) aus Tabelle 1

Jetzt ist alles für den eigentlichen Signifikanztest vorbereitet. Es gibt verschiedene Testverfahren die unterschiedlichen Zwecken dienen. Ein Standardverfahren für den vorliegenden Fall ist der Chi-Quadrat-Test.

Chi-Quadrat-Test (Χ2-Test)

Vergegenwärtigen wir uns nochmals eine Kontingenztabelle:

Korpus AKorpus BTotal
Frequenz von Wort XABA+B
Alle anderen WörterCDC+D
TotalA+CB+DA+B+C+D

Tabelle 5: Eine generelle Kontingenztabelle

Die Formel für den Chi-Quadrat-Test lautet:

O ist der beobachtete Wert (observed), E ist der erwartete Wert (expected). Für alle Wertezellen der Tabelle (A, B, C, D) berechnen wir jeweils: (O - E)2/E. Diese Werte werden addiert und ergeben so Χ2.

Mit den Werten aus Tabelle 4 ergibt sich folgende Berechnung:

Χ2 = ((131 - 190,6)2/190,6)
+ ((170 - 110,4)2/110,4)
+ ((103'644'651 - 103'644'591,4)2/103'644'591,4)
+ ((60'065'537 - 60'065'596,6)2/60'065'596,6)
= 50,74

Der komplizierteste Teil ist nun geschafft. Jetzt können wir in einer Tabelle, in der die sog. kritischen Werte für Χ2 aufgeführt sind, nachschlagen, ob der berechnete Wert signifikant ist. Solche Tabellen sind z.B. in Statistikbüchern zu finden oder aber im Web, beispielsweise in dieser Table of Chi-square statistics. Die ersten Zeile dieser Tabelle sehen so aus:

dfP = 0,05P = 0,01P = 0,001
13,846,6410,83
25,999,2113,82
37,8211,3516,27
49,4913,2818,47
511,0715,0920,52
612,5916,8122,46

Tabelle 6: Die kritischen Werte für Χ2.

df ist der sog. Freiheitsgrad (degree of freedom), der in Abhängigkeit zur Grösse der Kontingenztabelle steht (wir werden später sehen, dass Kontingenztabellen viel mehr als vier Felder enthalten können). Der Freiheitsgrad berechnet sich wie folgt: (Reihenzahl - 1) * (Spaltenzahl - 1). Dabei werden aber nur die Wertefelder gezählt. Bei einer 4*4-Felder-Tafel wie in Tabellen 2-5 beträgt df also 1: (2 - 1) * (2 - 1) = 1.

Für unsere Berechnung halten wir uns also an die erste Zeile aus der Tabelle 6 der kritischen Werte. Die Tabelle sagt nun, wie hoch Χ2 sein muss, damit wir die Nullhypothese ablehnen können. Die erste Spalte enthält den Mindestwert, den Χ2 erreichen muss, damit die Wahrscheinlichkeit (P) für H0 nur 5% beträgt. Oder anders: Wenn Χ2 grösser als 3,84 ist, dann sind die Frequenzunterschiede mit 95%iger Sicherheit signifikant (also nicht zufällig).

Die Berechnungen oben haben einen Χ2-Wert von 50,74 ergeben. Das bedeutet, dass die Frequenzunterschiede selbst bei einem Signifikanzniveau von P = 0,001 signfikant sind. Es kann also mit 99,9% Wahrscheinlichkeit davon ausgegeangen, dass es sich nicht um zufällige Schwankungen handelt (die Wahrscheinlichkeit für H0 beträgt also nur 0,1%).

Natürlich muss man das nicht von Hand rechnen. Ein Tabellenkalkulationsprogramm wie z.B. Excel oder Calc beherrscht dies ebenso. Diese Excel-Vorlage zeigt, wie der Signifikanzwert in einer Tabellenkalkulation berechnet werden kann.