input/xml/posters-001.xml

<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xml:id="posters-001">
  <teiHeader>
    <fileDesc>
      <titleStmt>
        <title>Das Tool LAKomp und seine Anwendung auf Texte nichtstandardisierter Sprachstufen</title>
        <author>
          <name>
            <surname>Aehnlich</surname>
            <forename>Barbara</forename>
          </name>
          <affiliation>Friedrich-Schiller-Universität Jena, Deutschland</affiliation>
          <email>Barbara.Aehnlich@uni-jena.de</email>
        </author>
        <author>
          <name>
            <surname>Kösser</surname>
            <forename>Sylwia</forename>
          </name>
          <affiliation>Martin-Luther-Universität Halle-Wittenberg</affiliation>
          <email>sylwia.koesser@germanistik.uni-halle.de</email>
        </author>
      </titleStmt>
      <editionStmt>
        <edition>
          <date>2015-12-22T19:06:00Z</date>
        </edition>
      </editionStmt>
      <publicationStmt>
        <publisher>Elisabeth Burr, Universität Leipzig</publisher>
        <address>
          <addrLine>Beethovenstr. 15</addrLine>
          <addrLine>04107 Leipzig</addrLine>
          <addrLine>Deutschland</addrLine>
          <addrLine>Elisabeth Burr</addrLine>
        </address>
      </publicationStmt>
      <sourceDesc>
        <p>Converted from a Word document </p>
      </sourceDesc>
    </fileDesc>
    <encodingDesc>
      <appInfo>
        <application ident="DHCONVALIDATOR" version="1.17">
          <label>DHConvalidator</label>
        </application>
      </appInfo>
    </encodingDesc>
    <profileDesc>
      <textClass>
        <keywords scheme="ConfTool" n="category">
          <term>Poster</term>
        </keywords>
        <keywords scheme="ConfTool" n="subcategory">
          <term></term>
        </keywords>
        <keywords scheme="ConfTool" n="keywords">
          <term>korpusbasierte Untersuchungen historischer Sprachstufen</term>
          <term>Tokenisierung</term>
          <term>Lemmatisierung</term>
          <term>Annotation</term>
          <term>verschiedene frühneuhochdeutsche Textkorpora</term>
        </keywords>
        <keywords scheme="ConfTool" n="topics">
          <term>Transkription</term>
          <term>Strukturanalyse</term>
          <term>Annotieren</term>
          <term>Visualisierung</term>
          <term>Sprache</term>
        </keywords>
      </textClass>
    </profileDesc>
  </teiHeader>
  <text>
    <body>
      <p>Die Verarbeitung historischer Sprachdaten des Deutschen birgt zahlreiche Probleme:
        Sie weisen einen hohen Grad an Variation auf, insbesondere auf den Ebenen Phonologie
        und Graphematik, aber auch in den Bereichen der Morphologie, Syntax und Lexik. Die
        bisher entwickelten Tools, z. B. im Bereich der automatischen Wortarten-Annotation,
        sind auf Daten des Gegenwartsdeutschen trainiert und können deshalb nur bedingt oder
        gar nicht auf Daten historischer Sprachstufen angewandt werden.</p>
        <p>Für die Lemmatisierung und Annotierung mit Part-of-Speech-Tags existieren bereits linguistische Werkzeuge, die nach einer Trainingsphase auf bereits annotierten Texten weitere Texte automatisch annotieren können. Angewendet auf frühneuhochdeutsche Texte liefern diese Werkzeuge aber hohe Fehlerraten, denn eine Voraussetzung für ihr Funktionieren ist hier schwer erfüllbar: das Erkennen von Wortformen. Hier stellt die stark variierende Graphie ein Hindernis dar. </p>
        <p>Im Projekt SaDA (Semiautomatische Differenzanalyse von komplexen Textvarianten) (<ref
          target="http://www.informatik.uni-halle.de/ti/forschung/ehumanities/sada/"
          >Bremer et al. 2012-2015</ref>) werden deshalb elektronische Werkzeuge
          entwickelt, die der Aufbereitung eines historischen Korpus dienen sollen und zur
          Anwendung in verschiedenen philologischen Bereichen gedacht sind. Zur Erstellung
          eines strukturierten Korpus ist die Anreicherung der Überlieferungszeugen mit
          verschiedenen Informationen Voraussetzung. Zu diesem Zweck wurde das Werkzeug LAKomp
          <ref type="note" target="n01" n="1">1</ref> entwickelt, mit dessen Hilfe alle im Zuge der Bearbeitung dem Text
            hinzugefügten Informationen gespeichert und für die spätere Nutzung aufbereitet
            werden. </p>
            <p>LAKomp wird unter anderem an der "Wundarznei" des Heinrich von Pfalzpaint
              (weiter)entwickelt. Nach der Transkription der Überlieferungszeugen nach den
              Konventionen und Kodierungen der Mittelhochdeutschen Grammatik, des Referenzkorpus
              Mittelhochdeutsch und des Referenzkorpus Frühneuhochdeutsch werden die Texte
              lemmatisiert und annotiert. </p>
              <p>Die morphologische Annotation reichert das Textmaterial zunächst mit der Angabe der Wortart an, wobei Verben und Nomina weiter spezifiziert, also mit Angaben zu den verbalen und nominalen Kategorien versehen werden. Syntaktische Informationen werden teilweise durch die Unterscheidung attributiver, prädikativer oder adverbialer Verwendung bei Adjektiven und Partizipien geliefert. </p>
              <p>Durch Lemmatisierung und Annotation werden die Wortformen der einzelnen Handschriften einem tertium comparationis gegenübergestellt. Durch diese Abstraktion, die Zuweisung einer der Einzelgraphie übergeordneten Wörterbuchform (bei parallelem Erhalt der konkreten Handschriften-Graphie), wird ein sehr konkreter maschineller Vergleich möglich.</p>
              <p>Mit der vorgenommenen Kodierung des Quellenmaterials ist ein semi-automatischer Textzeugenvergleich möglich. Zunächst durch die Segmentierung, aber vor allem durch die Lemmatisierung und noch stärker durch die grammatische Auszeichnung können die einzelnen Handschriften konkret aufeinander abgebildet werden, sodass Abweichungen und damit Filiationsverhältnisse deutlich sichtbar werden. Für die Darstellung der Unterschiede und Gemeinsamkeiten der Textzeugen werden diese in einem sogenannten Partiturtext vertikal dargestellt, miteinander verglichen und die Unterschiede zusätzlich farbig markiert. Der Partiturtext wird von LAKomp unter Zuhilfenahme der vorher beigegebenen Informationen automatisch erzeugt.</p>
              <p>Neben der einfachen Suchfunktion kann das zuvor im textspezifischen Wörterbuch abgelegte und mit Informationen angereicherte Wortmaterial auch mit der Analysefunktion gezielt durchsucht werden. So bietet sich dem Nutzer beispielsweise die Möglichkeit, alle Graphieformen eines Lemmas abzurufen und ihre statistische Verteilung in den Handschriften und Drucken abzufragen. Neben der prozentualen Verteilung werden ebenso die Belegzahlen und die einzelnen Graphieformen ausgegeben. </p>
              <p>Im Rahmen eines an der MLU Halle geplanten Projekts zu medizinischen Sachtexten des
                Mittelalters soll LAKomp weiterentwickelt werden, um die Untersuchung der
                medizinischen Inhalte (Texte und Objekte) hinsichtlich verschiedener Fragestellungen
                (Verschlagwortung, Datenbank, Verknüpfung von Informationen) und eine optimierte
                nutzerbezogene Darstellung der Ergebnisse gewährleisten (Analysefunktion,
                Satzprogramm zum Edieren der Texte, kartographische Darstellung) zu können. Die
                Überlieferung der Zeit von 1350 - 1650 ist vor allem durch Kompilationen
                medizinischer Texte geprägt, was eine Einordnung einzelner Texte in
                Überlieferungswege und -zusammenhänge bedeutend erschwert. Grundvoraussetzung für
                die Entwicklung und Verifizierung von Werkzeugen ist ein geeignetes Korpus. Text-
                und Objektbasis dieser Pilotstudie ist die "Wundarznei" des Heinrich von Pfalzpaint
                aus dem Jahre 1460. Anhand dieses Textes sollen die Möglichkeiten zur Beantwortung
                verschiedenster Fragen exemplarisch erprobt und Werkzeuge zur Umsetzung und
                Darstellung entwickelt werden.</p>
                <p>Ein weiteres Projekt, das sich auf das Tool LAKomp stützt, befasst sich mit
                  Rechtstexten aus der Rezeptionszeit des römischen Rechts (<ref
                  target="http://www.sprachwissenschaft.uni-jena.de/Lehrbereiche/Geschichte+der+deutschen+Sprache/Dr_+Barbara+Aehnlich/Projekt-p-1881.html"
                  >Aehnlich 2016</ref>). Es beruht auf einem Korpus zweier frühneuhochdeutscher
                  Rechtsbücher des 15. und 16. Jahrhunderts. Der Klagspiegel ist das mit Abstand
                  älteste populärwissenschaftliche Rechtsbuch der Rezeptionszeit und bildet mit dem
                  Laienspiegel zusammen die wichtigste Grundlage an rechtswissenschaftlichen populären
                  Texten des 15. und 16. Jahrhunderts. Davon ausgehend ist ein Projektantrag zu einem
                  Korpus von Strafrechtstexten der frühen Neuzeit in Arbeit, welches ebenfalls
                  mithilfe von LAKomp strukturiert und aufbereitet werden soll. Durch semantische und
                  linguistische Annotationen soll eine umfassende Forschungsgrundlage geschaffen
                  werden, die für die Schließung rechts- und sprachhistorischer Forschungslücken einen
                  zentralen Beitrag leistet. </p>
                  <p>Das Poster stellt das Werkzeug LAKomp mit seinen Einsatzmöglichkeiten und -gebieten vor. Am Beispiel des Pfalzpaint und des Laienspiegels wird gezeigt, dass das Tool einfach und intuitiv bedienbar ist.</p>
                </body>
                <back>
                  <div type="Notes">
                    <note xml:id="n01" n="1">
                        <hi rend="bold">L</hi>emmatisierung, <hi rend="bold">A</hi>nnotation, <hi
                          rend="bold">Komp</hi>aration.</note>
                  </div>
                  
                  <div type="bibliogr">
                    <listBibl>
                      <head>Bibliographie</head>
                      <bibl>
                        <hi rend="bold">Aehnlich, Barbara</hi> (2016): <hi rend="italic"
                        >Sprachwissenschaftliche Untersuchungen zum Klagspiegel Conrad Heydens
                        (1436) und zum Laienspiegel Ulrich Tenglers (1509)</hi>. Universität
                        Jena <ref
                        target="http://www.sprachwissenschaft.uni-jena.de/Lehrbereiche/Geschichte+der+deutschen+Sprache/Dr_+Barbara+Aehnlich/Projekt-p-1881.html"
                        >http://www.sprachwissenschaft.uni-jena.de/Lehrbereiche/Geschichte+der+deutschen+Sprache/Dr_+Barbara+Aehnlich/Projekt-p-1881.html</ref>
                        [letzter Zugriff 28. Januar 2016]. </bibl>
                        <bibl>
                          <hi rend="bold">Bremer, Thomas / Molitor, Paul / Ritter, Jörg / Solms,
                            Hans-Joachim (eds.)</hi> (2012-2015): <hi rend="italic">SaDA</hi>.
                            Semi-automatische Differenzanalyse von komplexen Textvarianten.
                            Martin-Luther-Universität Halle <ref
                            target="http://www.informatik.uni-halle.de/ti/forschung/ehumanities/sada/"
                            >http://www.informatik.uni-halle.de/ti/forschung/ehumanities/sada/</ref>
                            [letzter Zugriff 08. Januar 2016].</bibl>
                          </listBibl>
                        </div>
                      </back>
                    </text>
                  </TEI>