forked from stefaniegehrke/dhd2016-boa
-
Notifications
You must be signed in to change notification settings - Fork 1
/
posters-001.xml
161 lines (160 loc) · 11.5 KB
/
posters-001.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xml:id="posters-001">
<teiHeader>
<fileDesc>
<titleStmt>
<title>Das Tool LAKomp und seine Anwendung auf Texte nichtstandardisierter Sprachstufen</title>
<author>
<name>
<surname>Aehnlich</surname>
<forename>Barbara</forename>
</name>
<affiliation>Friedrich-Schiller-Universität Jena, Deutschland</affiliation>
<email>[email protected]</email>
</author>
<author>
<name>
<surname>Kösser</surname>
<forename>Sylwia</forename>
</name>
<affiliation>Martin-Luther-Universität Halle-Wittenberg</affiliation>
<email>[email protected]</email>
</author>
</titleStmt>
<editionStmt>
<edition>
<date>2015-12-22T19:06:00Z</date>
</edition>
</editionStmt>
<publicationStmt>
<publisher>Elisabeth Burr, Universität Leipzig</publisher>
<address>
<addrLine>Beethovenstr. 15</addrLine>
<addrLine>04107 Leipzig</addrLine>
<addrLine>Deutschland</addrLine>
<addrLine>Elisabeth Burr</addrLine>
</address>
</publicationStmt>
<sourceDesc>
<p>Converted from a Word document </p>
</sourceDesc>
</fileDesc>
<encodingDesc>
<appInfo>
<application ident="DHCONVALIDATOR" version="1.17">
<label>DHConvalidator</label>
</application>
</appInfo>
</encodingDesc>
<profileDesc>
<textClass>
<keywords scheme="ConfTool" n="category">
<term>Poster</term>
</keywords>
<keywords scheme="ConfTool" n="subcategory">
<term></term>
</keywords>
<keywords scheme="ConfTool" n="keywords">
<term>korpusbasierte Untersuchungen historischer Sprachstufen</term>
<term>Tokenisierung</term>
<term>Lemmatisierung</term>
<term>Annotation</term>
<term>verschiedene frühneuhochdeutsche Textkorpora</term>
</keywords>
<keywords scheme="ConfTool" n="topics">
<term>Transkription</term>
<term>Strukturanalyse</term>
<term>Annotieren</term>
<term>Visualisierung</term>
<term>Sprache</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<text>
<body>
<p>Die Verarbeitung historischer Sprachdaten des Deutschen birgt zahlreiche Probleme:
Sie weisen einen hohen Grad an Variation auf, insbesondere auf den Ebenen Phonologie
und Graphematik, aber auch in den Bereichen der Morphologie, Syntax und Lexik. Die
bisher entwickelten Tools, z. B. im Bereich der automatischen Wortarten-Annotation,
sind auf Daten des Gegenwartsdeutschen trainiert und können deshalb nur bedingt oder
gar nicht auf Daten historischer Sprachstufen angewandt werden.</p>
<p>Für die Lemmatisierung und Annotierung mit Part-of-Speech-Tags existieren bereits linguistische Werkzeuge, die nach einer Trainingsphase auf bereits annotierten Texten weitere Texte automatisch annotieren können. Angewendet auf frühneuhochdeutsche Texte liefern diese Werkzeuge aber hohe Fehlerraten, denn eine Voraussetzung für ihr Funktionieren ist hier schwer erfüllbar: das Erkennen von Wortformen. Hier stellt die stark variierende Graphie ein Hindernis dar. </p>
<p>Im Projekt SaDA (Semiautomatische Differenzanalyse von komplexen Textvarianten) (<ref
target="http://www.informatik.uni-halle.de/ti/forschung/ehumanities/sada/"
>Bremer et al. 2012-2015</ref>) werden deshalb elektronische Werkzeuge
entwickelt, die der Aufbereitung eines historischen Korpus dienen sollen und zur
Anwendung in verschiedenen philologischen Bereichen gedacht sind. Zur Erstellung
eines strukturierten Korpus ist die Anreicherung der Überlieferungszeugen mit
verschiedenen Informationen Voraussetzung. Zu diesem Zweck wurde das Werkzeug LAKomp
<ref type="note" target="n01" n="1">1</ref> entwickelt, mit dessen Hilfe alle im Zuge der Bearbeitung dem Text
hinzugefügten Informationen gespeichert und für die spätere Nutzung aufbereitet
werden. </p>
<p>LAKomp wird unter anderem an der "Wundarznei" des Heinrich von Pfalzpaint
(weiter)entwickelt. Nach der Transkription der Überlieferungszeugen nach den
Konventionen und Kodierungen der Mittelhochdeutschen Grammatik, des Referenzkorpus
Mittelhochdeutsch und des Referenzkorpus Frühneuhochdeutsch werden die Texte
lemmatisiert und annotiert. </p>
<p>Die morphologische Annotation reichert das Textmaterial zunächst mit der Angabe der Wortart an, wobei Verben und Nomina weiter spezifiziert, also mit Angaben zu den verbalen und nominalen Kategorien versehen werden. Syntaktische Informationen werden teilweise durch die Unterscheidung attributiver, prädikativer oder adverbialer Verwendung bei Adjektiven und Partizipien geliefert. </p>
<p>Durch Lemmatisierung und Annotation werden die Wortformen der einzelnen Handschriften einem tertium comparationis gegenübergestellt. Durch diese Abstraktion, die Zuweisung einer der Einzelgraphie übergeordneten Wörterbuchform (bei parallelem Erhalt der konkreten Handschriften-Graphie), wird ein sehr konkreter maschineller Vergleich möglich.</p>
<p>Mit der vorgenommenen Kodierung des Quellenmaterials ist ein semi-automatischer Textzeugenvergleich möglich. Zunächst durch die Segmentierung, aber vor allem durch die Lemmatisierung und noch stärker durch die grammatische Auszeichnung können die einzelnen Handschriften konkret aufeinander abgebildet werden, sodass Abweichungen und damit Filiationsverhältnisse deutlich sichtbar werden. Für die Darstellung der Unterschiede und Gemeinsamkeiten der Textzeugen werden diese in einem sogenannten Partiturtext vertikal dargestellt, miteinander verglichen und die Unterschiede zusätzlich farbig markiert. Der Partiturtext wird von LAKomp unter Zuhilfenahme der vorher beigegebenen Informationen automatisch erzeugt.</p>
<p>Neben der einfachen Suchfunktion kann das zuvor im textspezifischen Wörterbuch abgelegte und mit Informationen angereicherte Wortmaterial auch mit der Analysefunktion gezielt durchsucht werden. So bietet sich dem Nutzer beispielsweise die Möglichkeit, alle Graphieformen eines Lemmas abzurufen und ihre statistische Verteilung in den Handschriften und Drucken abzufragen. Neben der prozentualen Verteilung werden ebenso die Belegzahlen und die einzelnen Graphieformen ausgegeben. </p>
<p>Im Rahmen eines an der MLU Halle geplanten Projekts zu medizinischen Sachtexten des
Mittelalters soll LAKomp weiterentwickelt werden, um die Untersuchung der
medizinischen Inhalte (Texte und Objekte) hinsichtlich verschiedener Fragestellungen
(Verschlagwortung, Datenbank, Verknüpfung von Informationen) und eine optimierte
nutzerbezogene Darstellung der Ergebnisse gewährleisten (Analysefunktion,
Satzprogramm zum Edieren der Texte, kartographische Darstellung) zu können. Die
Überlieferung der Zeit von 1350 - 1650 ist vor allem durch Kompilationen
medizinischer Texte geprägt, was eine Einordnung einzelner Texte in
Überlieferungswege und -zusammenhänge bedeutend erschwert. Grundvoraussetzung für
die Entwicklung und Verifizierung von Werkzeugen ist ein geeignetes Korpus. Text-
und Objektbasis dieser Pilotstudie ist die "Wundarznei" des Heinrich von Pfalzpaint
aus dem Jahre 1460. Anhand dieses Textes sollen die Möglichkeiten zur Beantwortung
verschiedenster Fragen exemplarisch erprobt und Werkzeuge zur Umsetzung und
Darstellung entwickelt werden.</p>
<p>Ein weiteres Projekt, das sich auf das Tool LAKomp stützt, befasst sich mit
Rechtstexten aus der Rezeptionszeit des römischen Rechts (<ref
target="http://www.sprachwissenschaft.uni-jena.de/Lehrbereiche/Geschichte+der+deutschen+Sprache/Dr_+Barbara+Aehnlich/Projekt-p-1881.html"
>Aehnlich 2016</ref>). Es beruht auf einem Korpus zweier frühneuhochdeutscher
Rechtsbücher des 15. und 16. Jahrhunderts. Der Klagspiegel ist das mit Abstand
älteste populärwissenschaftliche Rechtsbuch der Rezeptionszeit und bildet mit dem
Laienspiegel zusammen die wichtigste Grundlage an rechtswissenschaftlichen populären
Texten des 15. und 16. Jahrhunderts. Davon ausgehend ist ein Projektantrag zu einem
Korpus von Strafrechtstexten der frühen Neuzeit in Arbeit, welches ebenfalls
mithilfe von LAKomp strukturiert und aufbereitet werden soll. Durch semantische und
linguistische Annotationen soll eine umfassende Forschungsgrundlage geschaffen
werden, die für die Schließung rechts- und sprachhistorischer Forschungslücken einen
zentralen Beitrag leistet. </p>
<p>Das Poster stellt das Werkzeug LAKomp mit seinen Einsatzmöglichkeiten und -gebieten vor. Am Beispiel des Pfalzpaint und des Laienspiegels wird gezeigt, dass das Tool einfach und intuitiv bedienbar ist.</p>
</body>
<back>
<div type="Notes">
<note xml:id="n01" n="1">
<hi rend="bold">L</hi>emmatisierung, <hi rend="bold">A</hi>nnotation, <hi
rend="bold">Komp</hi>aration.</note>
</div>
<div type="bibliogr">
<listBibl>
<head>Bibliographie</head>
<bibl>
<hi rend="bold">Aehnlich, Barbara</hi> (2016): <hi rend="italic"
>Sprachwissenschaftliche Untersuchungen zum Klagspiegel Conrad Heydens
(1436) und zum Laienspiegel Ulrich Tenglers (1509)</hi>. Universität
Jena <ref
target="http://www.sprachwissenschaft.uni-jena.de/Lehrbereiche/Geschichte+der+deutschen+Sprache/Dr_+Barbara+Aehnlich/Projekt-p-1881.html"
>http://www.sprachwissenschaft.uni-jena.de/Lehrbereiche/Geschichte+der+deutschen+Sprache/Dr_+Barbara+Aehnlich/Projekt-p-1881.html</ref>
[letzter Zugriff 28. Januar 2016]. </bibl>
<bibl>
<hi rend="bold">Bremer, Thomas / Molitor, Paul / Ritter, Jörg / Solms,
Hans-Joachim (eds.)</hi> (2012-2015): <hi rend="italic">SaDA</hi>.
Semi-automatische Differenzanalyse von komplexen Textvarianten.
Martin-Luther-Universität Halle <ref
target="http://www.informatik.uni-halle.de/ti/forschung/ehumanities/sada/"
>http://www.informatik.uni-halle.de/ti/forschung/ehumanities/sada/</ref>
[letzter Zugriff 08. Januar 2016].</bibl>
</listBibl>
</div>
</back>
</text>
</TEI>