Einführung

Statistische Methoden werden grob in deskriptive und induktive/schliessende Methoden eingeteilt:

Deskriptive Statistik

Die deskriptive Statistik macht zusammenfassende Aussagen über Datenmengen. Wenn wir in einem Korpus gezählt haben, wie viele Wörter die Sätze haben, können diese Daten folgendermassen zusammengefasst werden:

Daneben gibt es eine Reihe von weiteren Massen für unterschiedliche Zwecke.

Induktive/schliessende Statistik

Mit der induktiven Statistik können Hypothesen über den Zusammenhang von Variablen getestet werden. Wenn wir beispielsweise die Beobachtung machen, dass in einem Korpus A die mittlere Satzlänge 12 Wörter beträgt, in einem Korpus B aber 15, dann stellt sich die Frage, ob dieser Unterschied genügend gross ist, um ihn nicht dem Zufall zurechnen zu müssen. Handelt es sich um sehr kleine Korpora, könnte der Unterschied zufällig entstanden sein. Sind die Korpora hingegen sehr gross und haben wir demnach sehr viele Messresulate, ist der Unterschied signifikanter. Mit sog. Signifikanztests kann also geprüft werden, ob mit genügend grosser Wahrscheinlichkeit von einem nicht-zufälligen Unterschied ausgegangen werden kann.

In der Korpuslinguistik sind Signifikanztests sehr wichtig, um z.B. zu überprüfen, ob ein bestimmtes Lexem in einem Korpus A wirklich signifikant häufiger vorkommt als in Korpus B. Oder in diachroner Perspektive kann geprüft werden, ob die Verwendung eines Sprachmusters sich zeitlich tatsächlich signifikant verändert oder ob es sich um zufällige Schwankungen handelt. Auch bei der Berechnung von Kollokationen spielen Signifikanztests eine wichtige Rolle: Treten zwei Wörter überzufällig (also signifikant) häufig zusammen auf?

Die weiteren Ausführungen stellen zwei einfache Signifikanztests vor.