input/xml/posters-056.xml

<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xml:id="posters-056">
  <teiHeader>
    <fileDesc>
      <titleStmt>
        <title>Kuration und Exploration des Korpus "Diskurs in der Weimarer Republik"</title>
        <author>
          <name>
            <surname>Fankhauser</surname>
            <forename>Peter</forename>
          </name>
          <affiliation>IDS-Mannnheim, Deutschland</affiliation>
          <email>fankhauser@ids-mannheim.de</email>
        </author>
      </titleStmt>
      <editionStmt>
        <edition>
          <date>2015-12-30T10:49:00Z</date>
        </edition>
      </editionStmt>
      <publicationStmt>
        <publisher>Elisabeth Burr, Universität Leipzig</publisher>
        <address>
          <addrLine>Beethovenstr. 15</addrLine>
          <addrLine>04107 Leipzig</addrLine>
          <addrLine>Deutschland</addrLine>
          <addrLine>Elisabeth Burr</addrLine>
        </address>
      </publicationStmt>
      <sourceDesc>
        <p>Converted from a Word document </p>
      </sourceDesc>
    </fileDesc>
    <encodingDesc>
      <appInfo>
        <application ident="DHCONVALIDATOR" version="1.17">
          <label>DHConvalidator</label>
        </application>
      </appInfo>
    </encodingDesc>
    <profileDesc>
      <textClass>
        <keywords scheme="ConfTool" n="category">
          <term>Poster</term>
        </keywords>
        <keywords scheme="ConfTool" n="subcategory">
          <term></term>
        </keywords>
        <keywords scheme="ConfTool" n="keywords">
          <term>Korpora</term>
          <term>Kuration</term>
          <term>Langzeitarchivierung</term>
          <term>Visualisierung</term>
        </keywords>
        <keywords scheme="ConfTool" n="topics">
          <term>Bereinigung</term>
          <term>Archivierung</term>
          <term>Visualisierung</term>
          <term>Text</term>
        </keywords>
      </textClass>
    </profileDesc>
  </teiHeader>
  <text>
    <body>
      <p>Auch in Zeiten von „Big Data“ haben relativ kleine, auf eine spezifische Fragestellung hin zugeschnittene und aufbereitete Korpora ihre Bedeutung. In diesem Beitrag beschreiben wir die Aufbereitung eines solchen Korpus für die nachhaltige Langzeitarchivierung und skizzieren die sich daraus ergebenden Möglichkeiten zur explorativen Analyse.</p>
      <p>Das Korpus „Diskurs in der Weimarer Republik“ (DWR) wurde im Rahmen des Projektes
        „Demokratiediskurs 1918-1925“ (Kämper 2014) zur Dokumentation und Analyse des
        sprachlichen Wandels im Umbruch von der Monarchie zur Demokratie erstellt. Es
        umfasst 779 Dokumente im Zeitraum von 1912 bis 1933, davon 641 zwischen 1918 und
        1925. 551 Dokumente sind (u. a.) nach Themenbereich und Textsorte klassifiziert (s.
        Tabelle 1).</p>
        <figure>
          <graphic url="p56-table1.png" rend="inline"></graphic>
        </figure>
        <p rend="figure"><hi rend="bold">Tab. 1</hi>: Themenbereiche und Auswahl an Textsorten im DWR</p>
        <p>Ursprünglich wurde das Korpus im Rich-Text-Format (RTF) bzw. MS-Office (DOC) erstellt, und die Metadaten in einer Oracle-Datenbank verwaltet. Im Rahmen des LIS-Projektes „Zentrum für germanistische Forschungsprimärdaten“
          <ref type="note" target="n01" n="1">1</ref> wurde das Korpus für die Langzeitarchivierung aufbereitet. Im Einzelnen wurden folgende Schritte durchgeführt:
          </p>
          <list type="ordered">
            <item>Alignierung und Bereinigung der Metadaten: Die Verknüpfung von Metadaten mit
              Dokumenten war über Dateinamen repräsentiert, die teilweise nicht einheitlich
              enkodiert waren. Diese wurden entsprechend normalisiert, um einen eindeutigen
              Bezug herzustellen. Darüber hinaus wurden die Wertebereiche der einzelnen
              Metadatenfelder von Tippfehlern (z. B. Poitik vs. Politik) und
              Enkodierungsproblemen weitestgehend bereinigt.</item>
              <item>Validierung und Kuration der Datenformate: Die vorhandenen RTF-Versionen und DOC-Versionen wurden mithilfe von Open-Office-Macros in valides RTF transformiert. Zur besseren Nachnutzbarkeit wurde zusätzlich mit Hilfe des TEI Open-Office Pakets
                <hi rend="italic">teioop5 </hi>eine valide TEI-P5-XML-Version erstellt, die mit Metadaten für Autor, Titel und Erscheinungsjahr angereichert wurde. Zudem wurde auch eine PDF-Leseversion erzeugt.
              </item>
              <item>Extraktion zusätzlicher Metadaten: Die in den Dokumenten vorhandenen bibliographischen Quellenangaben wurden mit Hilfe heuristischer Regeln extrahiert und in die Metadaten integriert.</item>
              <item>Generierung von CMDI-Metadaten: Die Metadaten wurden in das CLARIN-Metadatenframework CMDI (Broeder et al. 2011) transformiert.</item>
            </list>
            <p>Das aufbereitete Korpus
              <ref type="note" target="n02" n="2">2</ref> ist im Langzeitarchiv des IDS
              <ref type="note" target="n03" n="1">3</ref> (Fankhauser et al. 2013) abgelegt.
              </p>
              <p>Zur Exploration sprachlicher Variation im Korpus wurde das Korpus zudem für ein am Institut für Deutsche Sprache entwickeltes System zur kontrastiven Visualisierung von Korpora (Fankhauser et al. 2014a, 2014b) aufbereitet.</p>
              <p>Dafür wurde das Korpus an Hand der Metadaten für Themenbereiche und Textsorten in Teilkorpora aufgeteilt, und für die einzelnen Teilkorpora Frequenzlisten aller Wörter (ohne Lemmatisierung oder Stopwortausschluss) erstellt. Diese Frequenzlisten, repräsentiert als multinomiale Verteilungen über das Vokabular, werden mit Hilfe der Kullback-Leibler Divergenz verglichen. Auf dieser Basis wird die Distanz zwischen Teilkorpora in Form von Heatmaps visualisiert, und der Beitrag einzelner Wörter zu der jeweiligen Distanz mit Hilfe von Wortwolken.</p>
              <p>Zur Exploration sprachlicher Variation im Korpus wurde das Korpus zudem für ein am Institut für Deutsche Sprache entwickeltes System zur kontrastiven Visualisierung von Korpora (Fankhauser et al. 2014a, 2014b) aufbereitet.</p>
              <p>Dafür wurde das Korpus an Hand der Metadaten für Themenbereiche und Textsorten in Teilkorpora aufgeteilt, und für die einzelnen Teilkorpora Frequenzlisten aller Wörter (ohne Lemmatisierung oder Stopwortausschluss) erstellt. Diese Frequenzlisten, repräsentiert als multinomiale Verteilungen über das Vokabular, werden mit Hilfe der Kullback-Leibler Divergenz verglichen. Auf dieser Basis wird die Distanz zwischen Teilkorpora in Form von Heatmaps visualisiert, und der Beitrag einzelner Wörter zu der jeweiligen Distanz mit Hilfe von Wortwolken.</p>
              <p>Abbildung 1 zeigt die Distanz zwischen Themenbereichen sowie zwischen Textsorten innerhalb eines Themenbereichs (grün für geringe, purpur für große Distanz). Es wird deutlich, dass der Themenbereich
                <hi rend="italic">Kirche </hi>(KI) sich am deutlichsten von den anderen Themenbereichen abhebt. Innerhalb der Themenbereiche zeigt sich, dass die Textsorten - soweit für einen Themenbereich mit Dokumenten belegt - im Themenbereich
                <hi rend="italic">Frauen</hi> deutlich stärker ausdifferenziert sind als im Themenbereich
                <hi rend="italic">Politik</hi>. Inbesondere die Textsorten
                <hi rend="italic">Stellungnahme</hi> (S) und
                <hi rend="italic">Kundgebung</hi> (K) heben sich deutlicher von den anderen Textsorten ab als im Themenbereich
                <hi rend="italic">Politik</hi>.
              </p>
              <figure>
                <graphic n="1001" width="16.002cm" height="4.821cm" url="p056-image1.png" rend="block"/>
              </figure>
              <p rend="figure"><hi rend="bold">Abb. 1</hi>: Heatmaps für den Vergleich von Themenbereichen (links)
              und Textsorten innerhalb eines Themenbereichs ( <hi rend="italic">Politik</hi>:
              mitte, <hi rend="italic">Frauen</hi>: rechts). </p>
              <p>Abbildung 2 zeigt den Beitrag einzelner Wörter zu der Distanz zwischen Teilkorpora in Form von Wortwolken. Groß dargestellte Wörter sind hierbei besonders typisch für ein Teilkorpus, die Farbe korrespondiert mit der relativen Häufigkeit eines Wortes im Teilkorpus (blau für selten, purpur für häufig). Die Wortwolke links vergleicht
                <hi rend="italic">Frauen</hi> mit dem restlichen Korpus. Sie wird sowohl auf begrifflicher Ebene (
                <hi rend="italic">Frau/Mann</hi>) als auch auf grammatischer Ebene (
                <hi rend="italic">die, ihre, sie, …</hi>) vom allgemeinen Diskursgegenstand
                <hi rend="italic">Frauen</hi> dominiert. Die Wortwolke in der Mitte zeigt die typischen Wörter von
                <hi rend="italic">Zeitungsartikeln</hi> im Vergleich zu
                <hi rend="italic">Essays</hi> innerhalb des Themenbereichs
                <hi rend="italic">Frauen</hi>, die Wortwolke rechts typische Wörter im umgekehrten Vergleich. Hier wird deutlich, dass
                <hi rend="italic">Zeitungsartikel</hi> sich im wesentlichen um die politisch/öffentliche Stellung der Frau drehen (
                <hi rend="italic">Wahlrecht, Frauenstimmrecht, politische</hi>) und
                <hi rend="italic">Essays</hi> um die private Welt der Frau (
                <hi rend="italic">Beziehung, Moral, Erotik</hi>). Ein sehr deutlicher Unterschied zeigt sich auch im Numerus von
                <hi rend="italic">Frau: </hi>Plural in
                <hi rend="italic">Zeitungsartikeln</hi> und Singular in
                <hi rend="italic">Essays</hi>.
              </p>
              <figure>
                <graphic n="1002" width="16.002cm" height="4.835cm" url="p056-image2.png" rend="block"/>
              </figure>
              <p rend="figure"><hi rend="bold">Abb. 2</hi>: Wortwolken für die typischen Wörter des Themenbereichs
              <hi rend="italic">Frauen</hi> im Vergleich mit dem restlichen Korpus (links) und
              in den Textsorten <hi rend="italic">Zeitungsartikel</hi> vs. <hi rend="italic"
              >Essay</hi> im Themenbereich <hi rend="italic">Frauen</hi> (mitte und rechts). </p>
              <p>Dieser kurze explorative Überblick kann natürlich nur einen kursorischen Eindruck über Inhalt und Vielfalt des Korpus geben. Technisch wurde er erst möglich durch die konsequente Kuration der Metadaten und Daten an Hand der generellen Richtlinien der CLARIN Infrastruktur.</p>
            </body>
            <back>
              <div type="Notes">
                
                <note xml:id="n01" n="1">
              Das <ref
                target="http://www1.ids-mannheim.de/fi/projekte/lis.html">Zentrum für
                germanistische Forschungsprimärdaten</ref>, wird gefördert von der DFG
              im Rahmen des Programms „Informationsinfrastrukturen für Forschungsdaten“.</note>
               <note xml:id="n02" n="2"> Korpus: „Diskurs in der Weimarer Republik“
                <lb/>PID:
                <ref target="http://hdl.handle.net/10932/00-01B9-43B3-1E1D-7B01-6">http://hdl.handle.net/10932/00-01B9-43B3-1E1D-7B01-6</ref>
                </note>
                <note xml:id="n03" n="3">Siehe <ref target="https://repos.ids-mannheim.de/"
                  >IDS-Repositorium</ref>.</note>
              </div>
              
              <div type="bibliogr">
                <listBibl>
                  <head>Bibliographie</head>
                  <bibl>
                    <hi rend="bold">Broeder, Dan / Schonefeld, Oliver / Trippel, Thorsten / Van
                      Uytvanck, Dieter / Witt, Andreas</hi> (2011): "A pragmatic approach to
                      XML interoperability – the Component Metadata Infrastructure (CMDI)", in:
                      <hi rend="italic">Proceedings of Balisage</hi>. The Markup Conference
                      2011 (= Balisage Series of Markup Technologies 7). </bibl>
                      <bibl>
                        <hi rend="bold">Fankhauser, Peter / Fiedler, Norman / Witt, Andreas</hi>
                        (2013): "Forschungsdatenmanagement in den Geisteswissenschaften am Beispiel
                        der germanistischen Linguistik", in: <hi rend="italic">Zeitschrift für
                        Bibliothekswesen und Bibliographie (ZfBB)</hi> 60, 6: 296-306. </bibl>
                        <bibl>
                          <hi rend="bold">Fankhauser, Peter / Knappen, Jörg / Teich, Elke</hi>
                          (2014a): "Exploring and Visualizing Variation in Language Resources", in:
                          <hi rend="italic">Proceedings of the Ninth International Conference on
                            Language Resources and Evaluation (LREC'14)</hi>
                          </bibl>
                          <bibl>
                            <hi rend="bold">Fankhauser, Peter / Kermes, Hannah / Teich, Elke</hi>
                            (2014b): "Combining Macro- and Microanalysis for Exploring the Construal of
                            Scientific Disciplinarity", in: <hi rend="italic">Proceedings of the Digital
                            Humanities 2014</hi>. </bibl>
                            <bibl><hi rend="bold">Institut für Deutsche Sprache (IDS)</hi>: <hi
                            rend="italic">Zentrum für germanistische Forschungsprimärdaten</hi>
                            <ref target="http://www1.ids-mannheim.de/fi/projekte/lis.html"
                              >http://www1.ids-mannheim.de/fi/projekte/lis.html</ref> [letzter Zugriff
                              11. Februar 2016].</bibl>
                              <bibl><hi rend="bold">Institut für Deutsche Sprache (IDS)</hi>: <hi
                              rend="italic">IDS Repository</hi>
                              <ref target="https://repos.ids-mannheim.de/"
                                >https://repos.ids-mannheim.de/</ref> [letzter Zugriff 11. Februar
                                2016].</bibl>
                                <bibl>
                                  <hi rend="bold">Kämper, Heidrun</hi> (2015): "Demokratiediskurs 1918-1925"
                                  <ref target="http://www1.ids-mannheim.de/lexik/zeitreflexion18.html"
                                    >http://www1.ids-mannheim.de/lexik/zeitreflexion18.html</ref> [letzter
                                    Zugriff 14. Oktober 2015]. </bibl>
                                  </listBibl>
                                </div>
                              </back>
                            </text>
                          </TEI>