Lexikon
Dieses Lexikon ist noch nicht ganz so umfangreich, wie es einmal werden könnte. Doch für weiter gehende Bedürfnisse wende man sich z.B. dahin:
http://www.ifi.unizh.ch/CL/Glossar/glossary.html
XML (eXtensible Markup Language)
XML ist eine Weiterentwicklung aus HTML; beide sind Vorläufer von SGML.
Die Grundidee ist überall dieselbe: Zu Text können beliebige
Metainformationen über sog. "Tags" einfach hinzugefügt werden. Ein Tag
ist ein Ausdruck, der aus zwei Teilen besteht: Einem öffnenden und
einem schliessenden Tag. Diese werden in spitze Klammern geschrieben:
öffnend: <tag>
schliessend: </tag>
Zwischen den Tags steht der Text, für den die Tags gelten.
<tag>hier steht Text</tag>
Zwischen den Tags steht der Text, für den die Tags gelten. Nun
können Tags definiert werden, die eine spezielle Funktion haben.
Beispielsweise können wir einen Tag definieren, der die Bedeutung
"Titel" hat. Wir nennen in:
<title></title>
Alles, was zwischen diesen Tags steht, ist nun als Titel markiert.
In sog. Stylesheet-Dateien (Stilvorlagen) kann dann festgelegt werden,
was mit Text passieren soll, der so ausgezeichnet ist. Er kann z.B. in
einen anderen Schrift und grösser als der Rest dargestellt werden.
Und
natürlich helfen solche Auszeichnungen bei der maschinellen
Verarbeitung von Textdaten. Ein Computer kann nun einfach aus einer
riesigen Textmenge alle Titel ausspucken, wenn man ihm sagt, er solle
allen Text, der zwischen diesen Tags steht, extrahieren.
Das Copyright dieses Kurses liegt bei Noah Bubenhofer. Bei Zitaten oder Verweisen darauf, freut der Autor sich über
eine
Mitteilung.
Ebenso bei Fehlern und anderen Hinweisen!
Diese elektronische Ressource soll wie folgt zitiert werden:
Bubenhofer, Noah (2006-2010): Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge. Elektronische Ressource: http://www.bubenhofer.com/korpuslinguistik/.