{"id":439,"date":"2014-01-14T09:35:13","date_gmt":"2014-01-14T08:35:13","guid":{"rendered":"http:\/\/www.bubenhofer.com\/sprechtakel\/?p=439"},"modified":"2014-01-23T09:37:22","modified_gmt":"2014-01-23T08:37:22","slug":"vom-download-zum-xml-korpus-gangbare-wege-fuer-die-lehre","status":"publish","type":"post","link":"https:\/\/www.bubenhofer.com\/sprechtakel\/2014\/01\/14\/vom-download-zum-xml-korpus-gangbare-wege-fuer-die-lehre\/","title":{"rendered":"Vom Download zum XML-Korpus: Gangbare Wege f\u00fcr die Lehre"},"content":{"rendered":"<p>Mein Online-Handbuch Korpuslinguistik (&#8222;<a href=\"http:\/\/www.bubenhofer.com\/korpuslinguistik\/\">Einf\u00fchrung in die Korpuslinguistik<\/a>&#8222;) enth\u00e4lt <a href=\"http:\/\/www.bubenhofer.com\/korpuslinguistik\/kurs\/index.php?id=eigenes_start.html\">ein Kapitel zur Erstellung von eigenen Korpora<\/a>. Es ist dabei das Ziel, einfache Wege zu beschreiben, wie man aus unterschiedlichen Quellen ein Korpus bauen kann \u2013 Wege, die auch f\u00fcr technisch weniger erfahrene Linguistinnen und Linguisten gangbar sind.<\/p>\n<p>Entscheidend f\u00fcr die m\u00f6glichen Wege sind dabei zwei Dinge:<\/p>\n<ol>\n<li>In welchem <strong>Datenformat<\/strong> liegen die <strong>Ausgangsdaten<\/strong> vor? Ist es ein strukturiertes (Datenbank), semi-strukturiertes (XML, HTML etc.) oder unstrukturiertes (nicht ausgezeichneter Text, RTF, Word-Doc, PDFs etc.) Format?<\/li>\n<li>Welches <strong>Format<\/strong> verlangt die <strong>Analysesoftware<\/strong>, mit der gearbeitet werden soll?<\/li>\n<\/ol>\n<p>Viele Konkordanzprogramme wie z.B. das recht verbreitete <a href=\"http:\/\/www.antlab.sci.waseda.ac.jp\/software.html\">AntConc<\/a> (<a href=\"http:\/\/www.bubenhofer.com\/korpuslinguistik\/kurs\/index.php?id=eigenes_AntConc.html\">mein Tutorial hier<\/a>) lesen unstrukturierte Textdateien, allenfalls auch HTML, allerdings ohne die HTML-Tags zu beachten. Es ist damit unm\u00f6glich, Metadaten mit den Dokumenten zu assoziieren.<\/p>\n<p>State-of-the-Art ist aber nat\u00fcrlich XML. Die <a href=\"http:\/\/cwb.sourceforge.net\">Open Corpus Workbench<\/a>,\u00a0<a href=\"http:\/\/sourceforge.net\/projects\/txm\/\">TXM<\/a>\u00a0(Unicode-XML-TEI text\/corpus analysis platform) oder <a href=\"http:\/\/weblicht.sfs.uni-tuebingen.de\">Weblicht<\/a> lesen\u00a0beispielsweise XML-Daten und k\u00f6nnen so codierte Metadaten und Auszeichnungen im Text (Titel, Abs\u00e4tze, S\u00e4tze etc.) auslesen.<\/p>\n<p>Wenn es jedoch darum geht, einfache Wege aufzuzeigen, wie man z.B. von heruntergeladenen Webseiten zu sauber codierten XML-Dokumenten kommt, wird es schwierig. Ein nahe liegender Weg, den ich z. B. in meinem Aufsatz &#8222;<a href=\"http:\/\/www.linguistik-online.de\/61_13\/bubenhofer.html\">Skandalisierung korpuslinguistisch: Eine empirisch-linguistischer Blick auf die Berichterstattung zur &#8218;Wulff-Aff\u00e4re&#8216;<\/a>&#8220; (Linguistik Online 61, 4\/2013) beschreibe, geht so (f\u00fcr Unix-Systeme, Mac):<\/p>\n<ol>\n<li>Mit <a href=\"http:\/\/www.gnu.org\/software\/wget\/\">wget<\/a> oder <a href=\"http:\/\/curl.haxx.se\">curl<\/a> werden die HTML-Seiten auf den eigenen Rechner geladen.<\/li>\n<li>Konvertierung der HTML-Seiten nach XHTML, z.B. mittels <a href=\"http:\/\/ccil.org\/~cowan\/XML\/tagsoup\/\">TagSoup<\/a>, einem in Java programmierten XML-Parser, der auch mit nicht validem HTML zurecht kommt.<\/li>\n<li>Extraktion der gew\u00fcnschten Daten aus den XHTML-Dateien mit einem <a href=\"http:\/\/de.wikipedia.org\/wiki\/XSL_Transformation\">XSL-Stylesheet<\/a>. So k\u00f6nnen der eigentliche Artikel-Text (ohne Navigation etc.) und die Metadaten (Titel, Publikationsdatum, Autor\/in etc.) extrahiert werden.<\/li>\n<\/ol>\n<p>Dieser Weg funktioniert besonders dann gut, wenn man eine Serie von gleich strukturierten Webseiten herunterladen m\u00f6chte, z.B. Web-Foren, Online-Zeitungen etc. Etwas flexibler (und in den Funktionen m\u00e4chtiger) ist z.B. der Web-Crawler <a href=\"https:\/\/github.com\/internetarchive\/heritrix3\">Heritrix<\/a>, der jedoch auch nochmals schwieriger zu bedienen ist.<\/p>\n<p>Doch was ist der gangbare Weg f\u00fcr Linguistinnen und Linguisten, die keine Lust haben, sich in die Tiefen der XML-Verarbeitung mit XSLT, XPath etc. zu begeben? Eine m\u00f6gliche Alternative, an der ich arbeite, ist:<\/p>\n<ol>\n<li>Download der Daten mit einen Tool wie dem Firefox-Plugin <a href=\"https:\/\/addons.mozilla.org\/de\/firefox\/addon\/downthemall\/\">DownThemAll<\/a>.<\/li>\n<li>Import der HTML-Dokumente in <a href=\"http:\/\/basex.org\">BaseX<\/a>, einem XML-Datenbankprogramm, das auch Konvertierung der HTML-Dateien in XHTML erledigt. In BaseX kann man dann relativ intuitiv die XPath-Ausdr\u00fccke zusammenbauen, die notwendig sind, um die relevanten Textstellen aus den XHTML-Dateien zu finden.<\/li>\n<li>Danach muss jedoch trotzdem ein XSLT-Stylesheet erstellt werden \u2013 soll\/kann man Studierende der Linguistik in die Grundregeln von XSLT einf\u00fchren?<\/li>\n<\/ol>\n<p>Es handelt sich also noch um eine offene Baustelle und Anregungen dazu sind sehr willkommen!\u00a0<a href=\"http:\/\/www.bubenhofer.com\/korpuslinguistik\/kurs\/index.php?id=eigenes_aufbereitenXML.html\">Diese Seite<\/a> aus meinem Online-Handbuch zur Korpuslinguistik f\u00fchrt wenigstens schon mal (hoffentlich auch f\u00fcr Laien verst\u00e4ndlich) in <a href=\"http:\/\/www.bubenhofer.com\/korpuslinguistik\/kurs\/index.php?id=eigenes_aufbereitenXML.html\">XML f\u00fcr die Korpuslinguistik<\/a> ein.<\/p>\n<p><strong>Update vom 23. Januar 2014:<\/strong> Inzwischen habe ich einen Weg von <a href=\"http:\/\/www.bubenhofer.com\/korpuslinguistik\/kurs\/index.php?id=eigenes_aufbereitenXML3.html\">HTML zu XML in meinem Online-Handbuch beschrieben<\/a>. Um XSLT kommt man nicht herum, aber ich hoffe, es verst\u00e4ndlich beschrieben zu haben. Zudem habe ich <a href=\"http:\/\/www.bubenhofer.com\/korpuslinguistik\/kurs\/index.php?id=eigenes_aufbereitenXML2.html\">dargestellt, wie man mit geschickter Anwendung von Regul\u00e4ren Ausdr\u00fccken von einer strukturierten Text-Datei zu XML kommt<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Mein Online-Handbuch Korpuslinguistik (&#8222;Einf\u00fchrung in die Korpuslinguistik&#8222;) enth\u00e4lt ein Kapitel zur Erstellung von eigenen Korpora. Es ist dabei das Ziel, einfache Wege zu beschreiben, wie man aus unterschiedlichen Quellen ein Korpus bauen kann \u2013 Wege, die auch f\u00fcr technisch weniger &hellip; <a href=\"https:\/\/www.bubenhofer.com\/sprechtakel\/2014\/01\/14\/vom-download-zum-xml-korpus-gangbare-wege-fuer-die-lehre\/\">Weiterlesen <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[4,7],"tags":[53,51,75,77,55,79,49,78,76,73,74],"class_list":["post-439","post","type-post","status-publish","format-standard","hentry","category-4-korpuslinguistik","category-6-korpustools","tag-ancconc","tag-corpus-workbench","tag-crawler","tag-curl","tag-cwb","tag-korpuserstellung","tag-korpustool","tag-tagsoup","tag-wget","tag-xml","tag-xslt"],"_links":{"self":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts\/439","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/comments?post=439"}],"version-history":[{"count":4,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts\/439\/revisions"}],"predecessor-version":[{"id":444,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/posts\/439\/revisions\/444"}],"wp:attachment":[{"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/media?parent=439"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/categories?post=439"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.bubenhofer.com\/sprechtakel\/wp-json\/wp\/v2\/tags?post=439"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}