documentation/ziel.dita

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE topic PUBLIC "-//OASIS//DTD DITA Topic//EN" "topic.dtd">
<topic id="topic_ntb_5sd_qs">
  
    <title>Ziel und Fokus des DTA-Basisformats</title>
  <titlealts><navtitle>Zielsetzung</navtitle></titlealts>
    <body>
      <p>Die folgende Darstellung dokumentiert das XML-Basisformat des DTA, welches
        die Grundlage für die Annotation der DTA-Volltexte bildet. Das DTA-Basisformat
        folgt den P5-Richtlinien der <xref href="http://www.tei-c.org/" scope="external" format="html">Text Encoding
          Initiative</xref> (TEI). Da diese Richtlinien jedoch Lösungen für
        sämtliche Bedürfnisse bei der Textaufbereitung anbieten sollen und daher
        entsprechend vielfältig und umfangreich sind, bedürfen sie im konkreten
        Einzelfall einer näheren Spezifikation. Daher wurde aus den P5-Richtlinien
        für die Textstrukturierung im DTA-Korpus eine Tag-Auswahl getroffen (Tagset),
        die das DTA-Basisformat bildet. Dieses Tagset ist mit den P5-Richtlinien der
        TEI vollständig konform; auf Erweiterungen (tei.extensions) durch davon
        abweichende Elemente wurde verzichtet. 
      </p>
      <p>Das DTA-Basisformat soll im Rahmen der DTA-Richtlinien, die daneben
            auch die allgemeinen <xref
            href="http://www.deutschestextarchiv.de/doku/leitlinien"
            format="html" scope="external">Leitlinien des DTA</xref> sowie die <xref
            href="http://www.deutschestextarchiv.de/doku/richtlinien"
            format="html" scope="external">Transkriptionsrichtlinien</xref> umfassen, eine
            umfassende Textaufbereitung ermöglichen und dabei gleichzeitig
            Variationsspielräume bei der Annotation so einschränken, dass die
            Kohärenz der DTA-Texte untereinander gewährleistet wird. Für dieses
            Ziel stellt die weite zeitliche Erstreckung des DTA-Korpus
            einerseits und seine Textsortenvielfalt andererseits eine große
            Herausforderung dar, resultiert sie doch u.a. in einer strukturellen
            Variabilität der Vorlagen, der mit dem zur Verfügung stehenden
            Tagset Genüge getan werden muss. </p>
      <p>Mit der Ausarbeitung des DTA-Basisformats wollen wir einen Vorschlag
			für einen Standard zur Volltext-Aufbereitung historischer Texte
			unterbreiten. Damit soll die Analyse unterschiedlicher TEI-Texte mit
			einheitlichen Methoden und im Vergleich miteinander ermöglicht werden. Die
			DTABf-Annotationsrichtlinien sind ausführlich dokumentiert, um so
			Ambiguitäten und folglich Fehlinterpretationen der
			Auszeichnungsmöglichkeiten weiter zu minimieren. Somit sollen zum einen
			Texte, die mit dem Basisformat kompatibel sind, in das DTA einfließen
			können, zum anderen aber die Verwendung von DTA-Texten in anderen
			Volltextarchiven erleichtert werden. </p>
        <p id="rec">Das DTA-Basisformat wurde von der DFG und CLARIN-D zur Nachnutzung empfohlen, namentlich in den folgenden Dokumenten:
        <ul>
            <li><xref href="http://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" format="pdf" scope="external">Handreichung: Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von 
                Sprachkorpora</xref>. Hrsg. vom Fachkollegium Sprachwissenschaften der Deutschen 
                Forschungsgemeinschaft (DFG). Bonn 2015.</li>
            <li><xref href="http://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/foerderkriterien_editionen_literaturwissenschaft.pdf" format="pdf" scope="external">Förderkriterien für wissenschaftliche Editionen in der Literaturwissenschaft.</xref> 
                Hrsg. vom Fachkollegium Literaturwissenschaft der Deutschen Forschungsgemeinschaft (DFG). Bonn 2015.</li>
            <li><xref href="https://www.clarin-d.de/de/hilfe/benutzerhandbuch" format="pdf" scope="external">CLARIN-D User Guide.</xref> 
                Part II (Linguistic resources and tools), ch. 6 (Types of resources), section "Text Corpora". Hrsg. von CLARIN-D AP 5. Berlin 2012.</li>
        </ul></p>
    </body>
  
</topic>