Beispiel: Die Software kfNgram um Wortgruppen zu berechnen

Das Programm kfNgram des Linguisten William H. Fletcher ist nützlich, um unkompliziert sog. "nGrams", also frequente Wortgruppen ("n" steht für eine beliebige Zahl) zu berechnen. Das Programm läuft unter Windows und ist kostenlos erhältlich.

Die Software verarbeitet Text- (ASCII-Text, "Nur-Text") und HTML-Dateien. Text-Dateien können z.B. in einer Textverarbeitung wie Word als solche abgespeichert werden. Als Resultat erhält man eine Liste der gefundenen Wortgruppen (wobei festgelegt werden muss, wieviele Wörter die Wortgruppen enthalten sollen) nach Frequenz im Korpus geordnet.


Kurzanleitung

  1. Mindestens eines oder auch mehrere Dateien im Text-Format anlegen.

  2. kfNgram starten.

  3. Auf den Knopf "Add Sourcefiles" klicken und eine oder mehrere Dateien auswählen.

  4. Die gewünschten Optionen im oberen Bereich des kfNgram-Programmfensters auswählen:
    nGrams: Länge der Wortgruppen; es kann auch ein Bereich z.B. 2-5 eingegeben werden. Dann werden 2er, 3er, 4er und 5er-Wortgruppen berechnet. Gibt man nur 1 ein, erhält man eine Liste aller vorhandenen Wörter und ihrer Frequenzen.
    Floor: Wie oft muss eine Wortgruppe mindestens vorkommen, damit sie in die Liste aufgenommen wird?
    Auswahl "Don't show" und "Show n-grams" bezieht sich darauf, ob die generierte Liste der Wortgruppen gerade angezeigt werden soll oder nicht.
    Chars to sort: Bezieht sich auf die Anzahl Buchstaben, die bei der Sortierung berücksichtigt werden. Je mehr Buchstaben, desto länger dauert die Berechnung. Wenn die Wortgruppen nicht mehr als 20 Wörter enthalten sollen, dann reichen 256 Buchstaben.
    Auswahl "not case-sensitive" oder "case sensitive": Soll die Gross- und Kleinschreibung berücksichtigt werden?
    Auswahl zur Behandlung von Interpunktion: Die Voreinstellung "keep internal . , - '" bedeutet, dass Wörter wie "www.unizh.ch" oder "250'000.25" oder "E-Mail" als einzelne Token intakt bleiben. Weitere Angaben zu den Einstellungsmöglichkeiten finden sich hier.
    Auswahl "Frequency-" oder "Alphabetic Sort": Die enstehenden Listen können nach Frequenz oder alphabetisch sortiert werden.
    Auswahl "Change numerals to #" oder "Retain numerals": Um die Wortgruppen "10 Millionen Franken" und "12 Millionen Franken" als eine Wortgruppe behandeln zu lassen, muss erstere Einstellung gewählt werden. In der generierten Liste wird dann bloss "## Millionen Franken" stehen.

  5. Zusätzlich kann noch die Auswahl getroffen werden, ob die Resultate mehrerer Quelldateien in eine einzige Datei zusammengefügt werden sollen. Dann wähle man im Auswahlfeld unterhalb des Knopfes "Replace Sourcefiles" die Auswahl "Combine".

  6. Mit dem Befehl "Tools" -> "Get Wordgrams" wird nun die Berechnung der Wortgruppen gestartet.

  7. Nun sind eine Reihe von Dateien entstanden. Wenn oben die Option "Show n-grams" ausgewählt wurde, wird nun die berechnete Liste angezeigt. Ansonsten kann die Datei mit der Endung "ngrams-Freq.txt" bzw. "ngrams-Alpha.txt" manuell geöffnet werden; sie befindet sich am gleichen Ort wie die Quelldateien. Die Datei kann auch über den Befehl "File" -> "View N-Gram File" geöffnet werden.

Phrase-Frames

Über die simple Berechnung von Wortgruppen hinaus kann man auch sog. "Phrase-Frames" berechnen lassen. Dabei dienen alphabetisch sortierte nGram-Dateien die Grundlage, wobei das Programm versucht, Muster in den Wortgruppen zu erkennen.

Man muss dazu erst eine alphabetisch sortierte nGram-Datei erstellen und kann diese dann über den Befehl "Tools" -> "Get Phrase-Frames from Wordgram" umrechnen. Wählt man anschliessend wieder im Menü "Tools" den Befehl "Browse Phrase-Frame file", erhält man eine angenehme Darstellung dieser musterhaften Wortgruppen. Die einzelnen Wortgruppen werden dabei unter Auslassung jeweils eines Gliedes zusammengefasst dargestellt.



Weitere Möglichkeiten, z.B. eine Stoppliste von zu ignorierenden Wörtern zu erstellen, werden auf der Hilfe-Seite des Programms erläutert.