-
Notifications
You must be signed in to change notification settings - Fork 9
/
ziel.dita
56 lines (54 loc) · 4.19 KB
/
ziel.dita
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE topic PUBLIC "-//OASIS//DTD DITA Topic//EN" "topic.dtd">
<topic id="topic_ntb_5sd_qs">
<title>Ziel und Fokus des DTA-Basisformats</title>
<titlealts><navtitle>Zielsetzung</navtitle></titlealts>
<body>
<p>Die folgende Darstellung dokumentiert das XML-Basisformat des DTA, welches
die Grundlage für die Annotation der DTA-Volltexte bildet. Das DTA-Basisformat
folgt den P5-Richtlinien der <xref href="http://www.tei-c.org/" scope="external" format="html">Text Encoding
Initiative</xref> (TEI). Da diese Richtlinien jedoch Lösungen für
sämtliche Bedürfnisse bei der Textaufbereitung anbieten sollen und daher
entsprechend vielfältig und umfangreich sind, bedürfen sie im konkreten
Einzelfall einer näheren Spezifikation. Daher wurde aus den P5-Richtlinien
für die Textstrukturierung im DTA-Korpus eine Tag-Auswahl getroffen (Tagset),
die das DTA-Basisformat bildet. Dieses Tagset ist mit den P5-Richtlinien der
TEI vollständig konform; auf Erweiterungen (tei.extensions) durch davon
abweichende Elemente wurde verzichtet.
</p>
<p>Das DTA-Basisformat soll im Rahmen der DTA-Richtlinien, die daneben
auch die allgemeinen <xref
href="http://www.deutschestextarchiv.de/doku/leitlinien"
format="html" scope="external">Leitlinien des DTA</xref> sowie die <xref
href="http://www.deutschestextarchiv.de/doku/richtlinien"
format="html" scope="external">Transkriptionsrichtlinien</xref> umfassen, eine
umfassende Textaufbereitung ermöglichen und dabei gleichzeitig
Variationsspielräume bei der Annotation so einschränken, dass die
Kohärenz der DTA-Texte untereinander gewährleistet wird. Für dieses
Ziel stellt die weite zeitliche Erstreckung des DTA-Korpus
einerseits und seine Textsortenvielfalt andererseits eine große
Herausforderung dar, resultiert sie doch u.a. in einer strukturellen
Variabilität der Vorlagen, der mit dem zur Verfügung stehenden
Tagset Genüge getan werden muss. </p>
<p>Mit der Ausarbeitung des DTA-Basisformats wollen wir einen Vorschlag
für einen Standard zur Volltext-Aufbereitung historischer Texte
unterbreiten. Damit soll die Analyse unterschiedlicher TEI-Texte mit
einheitlichen Methoden und im Vergleich miteinander ermöglicht werden. Die
DTABf-Annotationsrichtlinien sind ausführlich dokumentiert, um so
Ambiguitäten und folglich Fehlinterpretationen der
Auszeichnungsmöglichkeiten weiter zu minimieren. Somit sollen zum einen
Texte, die mit dem Basisformat kompatibel sind, in das DTA einfließen
können, zum anderen aber die Verwendung von DTA-Texten in anderen
Volltextarchiven erleichtert werden. </p>
<p id="rec">Das DTA-Basisformat wurde von der DFG und CLARIN-D zur Nachnutzung empfohlen, namentlich in den folgenden Dokumenten:
<ul>
<li><xref href="http://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" format="pdf" scope="external">Handreichung: Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von
Sprachkorpora</xref>. Hrsg. vom Fachkollegium Sprachwissenschaften der Deutschen
Forschungsgemeinschaft (DFG). Bonn 2015.</li>
<li><xref href="http://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/foerderkriterien_editionen_literaturwissenschaft.pdf" format="pdf" scope="external">Förderkriterien für wissenschaftliche Editionen in der Literaturwissenschaft.</xref>
Hrsg. vom Fachkollegium Literaturwissenschaft der Deutschen Forschungsgemeinschaft (DFG). Bonn 2015.</li>
<li><xref href="https://www.clarin-d.de/de/hilfe/benutzerhandbuch" format="pdf" scope="external">CLARIN-D User Guide.</xref>
Part II (Linguistic resources and tools), ch. 6 (Types of resources), section "Text Corpora". Hrsg. von CLARIN-D AP 5. Berlin 2012.</li>
</ul></p>
</body>
</topic>