TiGerSearch und TiGerCorpus

Bei TiGerSearch handelt es sich nicht um ein Korpus, sondern ein Korpussuchwerkzeug (ein "Query-Tool"), das mit sog. Baumbanken umgehen kann. D.h., Korpora, die morphosyntaktisch annotiert sind, werden als Syntaxbäume dargestellt und über eine grafische Oberfläche kann bequem nach bestimmten Baumstrukturen gesucht werden.

Ein so dargestellter Satz sieht dann z.B. so aus:



Das TiGerSearch-Programm ist kostenlos erhältlich (nach vorgängiger Registrierung). Es läuft unter den Betriebssystemen Windows, Mac OS X, Linux und Solaris (Sparc). Mit dabei sind eine Auswahl von Demokorpora verschiedener Sprachen. Es gibt aber Korpora von anderen Anbietern, die ebenfalls in TiGerSearch verwendet werden können. So z.B. die interessanten Tübinger Baumbanken des Deutschen, wo es sowohl ein schriftsprachliches, als auch ein spontansprachliches Korpus gibt. Die Nutzung dieser Korpora muss schiftlich beantragt werden.

Benutzung von TiGerSearch

Hier folgt ein kurzer Leitfaden zur Benutzung von TiGerSearch. Zuerst muss das Programm (nach der Registration) heruntergeladen und installiert werden. Eine Dokumentation, die die Installation und die Bedienung des Programms erklärt, befindet sich im Programm-Ordner. Zudem ist eine Hilfe in TiGerSearch selbst verfügbar.

Um das Programm zu starten, muss folgendes Icon doppelgeklickt werden:



Anschliessend zeigt sich die Arbeitsoberfläche:



Zunächst muss ein Korpus geladen werden, mit dem gearbeitet werden soll. Bei der Grundinstallation sind einige Demo-Korpora verfügbar. Wie eigene Korpora hinzugefügt werden, wird in der Hilfe des Programms, oder auf dieser Seite weiter unten, erklärt. Wir arbeiten vorerst mit den Demo-Korpora.

In der linken oberen Liste kann auf die verfügbaren Korpora zugegriffen werden. Man kann sich durch die hierarchische Ordnerstruktur arbeiten, bis man das gewünschte Korpus gefunden hat - z.B. das deutsche TIGERSampler-Korpus. Wird ein Korpus ausgewählt, werden im Fenster darunter Informationen dazu angezeigt. Ein Doppelklick auf das Korpus lädt es:



Bei einem geladenen Korpus können vielfältige Informationen abgerufen werden, so z.B. über die erfassten Knotennamen und Wortartenkategorien. Dazu klickt man im geladenen Korpus im linken oberen Bereich einfach die entsprechenden Kategorien an, wobei im Fenster darunter dann die Informationen angezeigt werden:



Um einfach das Korpus mal zu durchstöbern, bedient man sich des Befehls "Explore" im Menü "Corpus". Es öffnet sich ein weiteres Fenster, in dem durch das Korpus navigiert werden kann.



Um nun aber nach etwas Bestimmtem im Korpus zu suchen, geht man folgendermassen vor: Im rechten Bereich des Programmfensters können Suchen entweder grafisch oder in Textform formuliert werden. Hier wird nun beschrieben, wie eine einfache grafische Suchanfrage funktioniert.

Zunächst muss man also in den grafischen Modus wechseln. In der Werkzeugleiste befinden sich die Werkzeuge, die für die grafische Suche benötigt werden:



Hier wählt man das Knotenwerkzeug (inkl. Pfeil) ganz links aus, das normalerweise vorausgewählt ist. Die Suchfläche ist in zwei Teile geteilt: Eine hellere graue Fläche oben, eine dunklere unten. In der oberen Fläche werden Phrasenknoten definiert, also Nichtterminal-Knoten (z.B. Nominalphrase, Adjektivphrase etc.), unten Terminal-Knoten, also Token/einzelne Wörter (z.B. ein konkretes Wort oder eine Wortart etc.). Nun erzeugt ein Klick auf die graue Fläche einen Knoten. Dieser Knoten kann nun genauer spezifiziert werden. So kann man auf die dunkelgraue Fläche des Knotens doppelklicken - es öffnet sich ein Menü, in dem je nach Bereich verschiedene Eigenschaften ausgewählt werden können. Handelt es sich um einen Nichtterminal-Knoten, kann "cat" für "Kategorie" ausgewählt werden, bei einem Terminal-Knoten können word (konkretes Token), pos (Wortart - Part-of-speach), morph (morphologische Merkmale) oder lemma (Grundform eines Wortes mit allen Flexionsformen) ausgewählt werden.



Es stehen dann weitere Menüs zur Verfügung: Es kann der Operator festgelegt werden (in Normalfall "="), und im untersten Menü kann der Wert festgelegt werden, der die Kategorie haben soll. Die Auswahl sieht ja nach gewähltem Korpus anders aus; im TigerSampler-Korpus kann z.B. nach Nominalphrasen (NP) gesucht werden.

Es gibt vielfältige weitere Suchmöglichkeiten, so können Bedingungen miteinander verknüpft werden, es kann bestimmt werden, auf welcher Hierarchiestufe der Knoten sich befinden soll etc. Man konsultiere für weitere Informationen diesbezüglich die Hilfe.

Ist die Suche fertig formuliert, kann im Menü "Query" mit "Search" die Suche ausgeführt werden. Alle gefundenen Sätze werden nun im "Viewer" dargestellt, wobei der jeweils gefundene Knoten rot hervorgehoben ist.


Import eines Korpus in TiGerSearch

In TiGerSearch sind einige Demokorpora enthalten. Man kann aber weitere Korpora, die syntaktisch annotiert sind und in einem von TiGer lesbaren Format vorliegen, importieren. Dazu eignet sich z.B. das TIGERCorpus, eine Sammlung von etwa 700'000 Token aus der Frankfurter Rundschau. Nach vorgängiger Registrierung kann das Korpus für wissenschaftliche Zwecke kostenlos heruntergeladen werden.

Die Verwaltung der Korpora für TiGerSearch geschieht mit dem dazugehörigen Programm TiGerRegistry, das sich am gleichen Ort befindet wie TiGerSearch. Folgende Schritte sind nötig, um das Korpus zu importieren:
  1. TiGerRegistry starten.
  2. Im hierarchischen Baum der bereits verfügbaren Korpora den Ordner auswählen, in den das neue Korpus eingefügt werden soll.
  3. Menü "Corpus" "Insert Corpus" wählen.
  4. Format wählen (die Beispieldatei TigerCorpus liegt im Negra-Format vor; also unter "Corpus is in" "Other Format" wählen, unter "Import filter" den"Negra Import Filter" wählen).
  5. Corpus ID, also ein Kurzname für das Korpus wählen.
  6. Unter "Import file" die Datei auf der Harddisk lokalisieren.
  7. Unten auf "Start" klicken.
  8. Die Datei wird importiert und steht anschliessend in TiGerSearch zur Verfügung.