forked from stefaniegehrke/dhd2016-boa
-
Notifications
You must be signed in to change notification settings - Fork 1
/
posters-056.xml
200 lines (198 loc) · 14.7 KB
/
posters-056.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xml:id="posters-056">
<teiHeader>
<fileDesc>
<titleStmt>
<title>Kuration und Exploration des Korpus "Diskurs in der Weimarer Republik"</title>
<author>
<name>
<surname>Fankhauser</surname>
<forename>Peter</forename>
</name>
<affiliation>IDS-Mannnheim, Deutschland</affiliation>
<email>[email protected]</email>
</author>
</titleStmt>
<editionStmt>
<edition>
<date>2015-12-30T10:49:00Z</date>
</edition>
</editionStmt>
<publicationStmt>
<publisher>Elisabeth Burr, Universität Leipzig</publisher>
<address>
<addrLine>Beethovenstr. 15</addrLine>
<addrLine>04107 Leipzig</addrLine>
<addrLine>Deutschland</addrLine>
<addrLine>Elisabeth Burr</addrLine>
</address>
</publicationStmt>
<sourceDesc>
<p>Converted from a Word document </p>
</sourceDesc>
</fileDesc>
<encodingDesc>
<appInfo>
<application ident="DHCONVALIDATOR" version="1.17">
<label>DHConvalidator</label>
</application>
</appInfo>
</encodingDesc>
<profileDesc>
<textClass>
<keywords scheme="ConfTool" n="category">
<term>Poster</term>
</keywords>
<keywords scheme="ConfTool" n="subcategory">
<term></term>
</keywords>
<keywords scheme="ConfTool" n="keywords">
<term>Korpora</term>
<term>Kuration</term>
<term>Langzeitarchivierung</term>
<term>Visualisierung</term>
</keywords>
<keywords scheme="ConfTool" n="topics">
<term>Bereinigung</term>
<term>Archivierung</term>
<term>Visualisierung</term>
<term>Text</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<text>
<body>
<p>Auch in Zeiten von „Big Data“ haben relativ kleine, auf eine spezifische Fragestellung hin zugeschnittene und aufbereitete Korpora ihre Bedeutung. In diesem Beitrag beschreiben wir die Aufbereitung eines solchen Korpus für die nachhaltige Langzeitarchivierung und skizzieren die sich daraus ergebenden Möglichkeiten zur explorativen Analyse.</p>
<p>Das Korpus „Diskurs in der Weimarer Republik“ (DWR) wurde im Rahmen des Projektes
„Demokratiediskurs 1918-1925“ (Kämper 2014) zur Dokumentation und Analyse des
sprachlichen Wandels im Umbruch von der Monarchie zur Demokratie erstellt. Es
umfasst 779 Dokumente im Zeitraum von 1912 bis 1933, davon 641 zwischen 1918 und
1925. 551 Dokumente sind (u. a.) nach Themenbereich und Textsorte klassifiziert (s.
Tabelle 1).</p>
<figure>
<graphic url="p56-table1.png" rend="inline"></graphic>
</figure>
<p rend="figure"><hi rend="bold">Tab. 1</hi>: Themenbereiche und Auswahl an Textsorten im DWR</p>
<p>Ursprünglich wurde das Korpus im Rich-Text-Format (RTF) bzw. MS-Office (DOC) erstellt, und die Metadaten in einer Oracle-Datenbank verwaltet. Im Rahmen des LIS-Projektes „Zentrum für germanistische Forschungsprimärdaten“
<ref type="note" target="n01" n="1">1</ref> wurde das Korpus für die Langzeitarchivierung aufbereitet. Im Einzelnen wurden folgende Schritte durchgeführt:
</p>
<list type="ordered">
<item>Alignierung und Bereinigung der Metadaten: Die Verknüpfung von Metadaten mit
Dokumenten war über Dateinamen repräsentiert, die teilweise nicht einheitlich
enkodiert waren. Diese wurden entsprechend normalisiert, um einen eindeutigen
Bezug herzustellen. Darüber hinaus wurden die Wertebereiche der einzelnen
Metadatenfelder von Tippfehlern (z. B. Poitik vs. Politik) und
Enkodierungsproblemen weitestgehend bereinigt.</item>
<item>Validierung und Kuration der Datenformate: Die vorhandenen RTF-Versionen und DOC-Versionen wurden mithilfe von Open-Office-Macros in valides RTF transformiert. Zur besseren Nachnutzbarkeit wurde zusätzlich mit Hilfe des TEI Open-Office Pakets
<hi rend="italic">teioop5 </hi>eine valide TEI-P5-XML-Version erstellt, die mit Metadaten für Autor, Titel und Erscheinungsjahr angereichert wurde. Zudem wurde auch eine PDF-Leseversion erzeugt.
</item>
<item>Extraktion zusätzlicher Metadaten: Die in den Dokumenten vorhandenen bibliographischen Quellenangaben wurden mit Hilfe heuristischer Regeln extrahiert und in die Metadaten integriert.</item>
<item>Generierung von CMDI-Metadaten: Die Metadaten wurden in das CLARIN-Metadatenframework CMDI (Broeder et al. 2011) transformiert.</item>
</list>
<p>Das aufbereitete Korpus
<ref type="note" target="n02" n="2">2</ref> ist im Langzeitarchiv des IDS
<ref type="note" target="n03" n="1">3</ref> (Fankhauser et al. 2013) abgelegt.
</p>
<p>Zur Exploration sprachlicher Variation im Korpus wurde das Korpus zudem für ein am Institut für Deutsche Sprache entwickeltes System zur kontrastiven Visualisierung von Korpora (Fankhauser et al. 2014a, 2014b) aufbereitet.</p>
<p>Dafür wurde das Korpus an Hand der Metadaten für Themenbereiche und Textsorten in Teilkorpora aufgeteilt, und für die einzelnen Teilkorpora Frequenzlisten aller Wörter (ohne Lemmatisierung oder Stopwortausschluss) erstellt. Diese Frequenzlisten, repräsentiert als multinomiale Verteilungen über das Vokabular, werden mit Hilfe der Kullback-Leibler Divergenz verglichen. Auf dieser Basis wird die Distanz zwischen Teilkorpora in Form von Heatmaps visualisiert, und der Beitrag einzelner Wörter zu der jeweiligen Distanz mit Hilfe von Wortwolken.</p>
<p>Zur Exploration sprachlicher Variation im Korpus wurde das Korpus zudem für ein am Institut für Deutsche Sprache entwickeltes System zur kontrastiven Visualisierung von Korpora (Fankhauser et al. 2014a, 2014b) aufbereitet.</p>
<p>Dafür wurde das Korpus an Hand der Metadaten für Themenbereiche und Textsorten in Teilkorpora aufgeteilt, und für die einzelnen Teilkorpora Frequenzlisten aller Wörter (ohne Lemmatisierung oder Stopwortausschluss) erstellt. Diese Frequenzlisten, repräsentiert als multinomiale Verteilungen über das Vokabular, werden mit Hilfe der Kullback-Leibler Divergenz verglichen. Auf dieser Basis wird die Distanz zwischen Teilkorpora in Form von Heatmaps visualisiert, und der Beitrag einzelner Wörter zu der jeweiligen Distanz mit Hilfe von Wortwolken.</p>
<p>Abbildung 1 zeigt die Distanz zwischen Themenbereichen sowie zwischen Textsorten innerhalb eines Themenbereichs (grün für geringe, purpur für große Distanz). Es wird deutlich, dass der Themenbereich
<hi rend="italic">Kirche </hi>(KI) sich am deutlichsten von den anderen Themenbereichen abhebt. Innerhalb der Themenbereiche zeigt sich, dass die Textsorten - soweit für einen Themenbereich mit Dokumenten belegt - im Themenbereich
<hi rend="italic">Frauen</hi> deutlich stärker ausdifferenziert sind als im Themenbereich
<hi rend="italic">Politik</hi>. Inbesondere die Textsorten
<hi rend="italic">Stellungnahme</hi> (S) und
<hi rend="italic">Kundgebung</hi> (K) heben sich deutlicher von den anderen Textsorten ab als im Themenbereich
<hi rend="italic">Politik</hi>.
</p>
<figure>
<graphic n="1001" width="16.002cm" height="4.821cm" url="p056-image1.png" rend="block"/>
</figure>
<p rend="figure"><hi rend="bold">Abb. 1</hi>: Heatmaps für den Vergleich von Themenbereichen (links)
und Textsorten innerhalb eines Themenbereichs ( <hi rend="italic">Politik</hi>:
mitte, <hi rend="italic">Frauen</hi>: rechts). </p>
<p>Abbildung 2 zeigt den Beitrag einzelner Wörter zu der Distanz zwischen Teilkorpora in Form von Wortwolken. Groß dargestellte Wörter sind hierbei besonders typisch für ein Teilkorpus, die Farbe korrespondiert mit der relativen Häufigkeit eines Wortes im Teilkorpus (blau für selten, purpur für häufig). Die Wortwolke links vergleicht
<hi rend="italic">Frauen</hi> mit dem restlichen Korpus. Sie wird sowohl auf begrifflicher Ebene (
<hi rend="italic">Frau/Mann</hi>) als auch auf grammatischer Ebene (
<hi rend="italic">die, ihre, sie, …</hi>) vom allgemeinen Diskursgegenstand
<hi rend="italic">Frauen</hi> dominiert. Die Wortwolke in der Mitte zeigt die typischen Wörter von
<hi rend="italic">Zeitungsartikeln</hi> im Vergleich zu
<hi rend="italic">Essays</hi> innerhalb des Themenbereichs
<hi rend="italic">Frauen</hi>, die Wortwolke rechts typische Wörter im umgekehrten Vergleich. Hier wird deutlich, dass
<hi rend="italic">Zeitungsartikel</hi> sich im wesentlichen um die politisch/öffentliche Stellung der Frau drehen (
<hi rend="italic">Wahlrecht, Frauenstimmrecht, politische</hi>) und
<hi rend="italic">Essays</hi> um die private Welt der Frau (
<hi rend="italic">Beziehung, Moral, Erotik</hi>). Ein sehr deutlicher Unterschied zeigt sich auch im Numerus von
<hi rend="italic">Frau: </hi>Plural in
<hi rend="italic">Zeitungsartikeln</hi> und Singular in
<hi rend="italic">Essays</hi>.
</p>
<figure>
<graphic n="1002" width="16.002cm" height="4.835cm" url="p056-image2.png" rend="block"/>
</figure>
<p rend="figure"><hi rend="bold">Abb. 2</hi>: Wortwolken für die typischen Wörter des Themenbereichs
<hi rend="italic">Frauen</hi> im Vergleich mit dem restlichen Korpus (links) und
in den Textsorten <hi rend="italic">Zeitungsartikel</hi> vs. <hi rend="italic"
>Essay</hi> im Themenbereich <hi rend="italic">Frauen</hi> (mitte und rechts). </p>
<p>Dieser kurze explorative Überblick kann natürlich nur einen kursorischen Eindruck über Inhalt und Vielfalt des Korpus geben. Technisch wurde er erst möglich durch die konsequente Kuration der Metadaten und Daten an Hand der generellen Richtlinien der CLARIN Infrastruktur.</p>
</body>
<back>
<div type="Notes">
<note xml:id="n01" n="1">
Das <ref
target="http://www1.ids-mannheim.de/fi/projekte/lis.html">Zentrum für
germanistische Forschungsprimärdaten</ref>, wird gefördert von der DFG
im Rahmen des Programms „Informationsinfrastrukturen für Forschungsdaten“.</note>
<note xml:id="n02" n="2"> Korpus: „Diskurs in der Weimarer Republik“
<lb/>PID:
<ref target="http://hdl.handle.net/10932/00-01B9-43B3-1E1D-7B01-6">http://hdl.handle.net/10932/00-01B9-43B3-1E1D-7B01-6</ref>
</note>
<note xml:id="n03" n="3">Siehe <ref target="https://repos.ids-mannheim.de/"
>IDS-Repositorium</ref>.</note>
</div>
<div type="bibliogr">
<listBibl>
<head>Bibliographie</head>
<bibl>
<hi rend="bold">Broeder, Dan / Schonefeld, Oliver / Trippel, Thorsten / Van
Uytvanck, Dieter / Witt, Andreas</hi> (2011): "A pragmatic approach to
XML interoperability – the Component Metadata Infrastructure (CMDI)", in:
<hi rend="italic">Proceedings of Balisage</hi>. The Markup Conference
2011 (= Balisage Series of Markup Technologies 7). </bibl>
<bibl>
<hi rend="bold">Fankhauser, Peter / Fiedler, Norman / Witt, Andreas</hi>
(2013): "Forschungsdatenmanagement in den Geisteswissenschaften am Beispiel
der germanistischen Linguistik", in: <hi rend="italic">Zeitschrift für
Bibliothekswesen und Bibliographie (ZfBB)</hi> 60, 6: 296-306. </bibl>
<bibl>
<hi rend="bold">Fankhauser, Peter / Knappen, Jörg / Teich, Elke</hi>
(2014a): "Exploring and Visualizing Variation in Language Resources", in:
<hi rend="italic">Proceedings of the Ninth International Conference on
Language Resources and Evaluation (LREC'14)</hi>
</bibl>
<bibl>
<hi rend="bold">Fankhauser, Peter / Kermes, Hannah / Teich, Elke</hi>
(2014b): "Combining Macro- and Microanalysis for Exploring the Construal of
Scientific Disciplinarity", in: <hi rend="italic">Proceedings of the Digital
Humanities 2014</hi>. </bibl>
<bibl><hi rend="bold">Institut für Deutsche Sprache (IDS)</hi>: <hi
rend="italic">Zentrum für germanistische Forschungsprimärdaten</hi>
<ref target="http://www1.ids-mannheim.de/fi/projekte/lis.html"
>http://www1.ids-mannheim.de/fi/projekte/lis.html</ref> [letzter Zugriff
11. Februar 2016].</bibl>
<bibl><hi rend="bold">Institut für Deutsche Sprache (IDS)</hi>: <hi
rend="italic">IDS Repository</hi>
<ref target="https://repos.ids-mannheim.de/"
>https://repos.ids-mannheim.de/</ref> [letzter Zugriff 11. Februar
2016].</bibl>
<bibl>
<hi rend="bold">Kämper, Heidrun</hi> (2015): "Demokratiediskurs 1918-1925"
<ref target="http://www1.ids-mannheim.de/lexik/zeitreflexion18.html"
>http://www1.ids-mannheim.de/lexik/zeitreflexion18.html</ref> [letzter
Zugriff 14. Oktober 2015]. </bibl>
</listBibl>
</div>
</back>
</text>
</TEI>