forked from stefaniegehrke/dhd2016-boa
-
Notifications
You must be signed in to change notification settings - Fork 1
/
posters-022.xml
150 lines (150 loc) · 10.2 KB
/
posters-022.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xml:id="posters-022">
<teiHeader>
<fileDesc>
<titleStmt>
<title>Annotation natürlichsprachlicher Texte aus Onlineforen zur Entwicklung domainspezifischer Ontologien </title>
<author>
<name>
<surname>Hastik</surname>
<forename>Canan</forename>
</name>
<affiliation>TU Darmstadt, Deutschland</affiliation>
<email>[email protected]</email>
</author>
</titleStmt>
<editionStmt>
<edition>
<date>2016-01-09T20:15:00Z</date>
</edition>
</editionStmt>
<publicationStmt>
<publisher>Elisabeth Burr, Universität Leipzig</publisher>
<address>
<addrLine>Beethovenstr. 15</addrLine>
<addrLine>04107 Leipzig</addrLine>
<addrLine>Deutschland</addrLine>
<addrLine>Elisabeth Burr</addrLine>
</address>
</publicationStmt>
<sourceDesc>
<p>Converted from a Word document </p>
</sourceDesc>
</fileDesc>
<encodingDesc>
<appInfo>
<application ident="DHCONVALIDATOR" version="1.17">
<label>DHConvalidator</label>
</application>
</appInfo>
</encodingDesc>
<profileDesc>
<textClass>
<keywords scheme="ConfTool" n="category">
<term>Poster</term>
</keywords>
<keywords scheme="ConfTool" n="subcategory">
<term></term>
</keywords>
<keywords scheme="ConfTool" n="keywords">
<term>NLP</term>
<term>NLTK</term>
<term>Annotation</term>
<term>Ontologie</term>
<term>CIDOC CRM</term>
</keywords>
<keywords scheme="ConfTool" n="topics">
<term>Datenerkennung</term>
<term>Inhaltsanalyse</term>
<term>Modellierung</term>
<term>Annotieren</term>
<term>Bereinigung</term>
<term>Sprache</term>
<term>Text</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<text>
<body>
<p rend="paper_abstract">Annotation natürlicher Sprachdaten aus sozialen Medien zur
Erforschung zeitgenössischer Szenen, zur Sprach- und Trendanalyse und zur
Weiterentwicklung von Sprachtechnologien gewinnt mit der zunehmenden Verfügbarkeit
großer Datenbestände weiter an Bedeutung (Farzindar / Inkpen 2015). Zeitgenössische
Kommunikation in sozialen Medien verfügt über inhaltliche und strukturelle
Besonderheiten und ist von umgangssprachlicher Ausdrucksform geprägt. Beiträge, die
im Kontext internetbasierter Diskussionskulturen in Foren entstehen, stellen eine
wichtige Forschungsquelle dar. Diese nutzergenerierten Texte, in Form von semi- oder
unstrukturierten Kommentaren, repräsentieren Meinungen und Bewertungen einer
Gemeinschaft zu einem Thema, Produkt oder Werk und beziehen sich in der Regel auf
inhaltliche, technische oder ästhetische Aspekte. Die Autoren verwenden dabei
Sprachmittel wie Metaphern, Analogien, Ambiguität, Humor und Ironie sowie
metalinguistische bildhafte Mittel wie Emoticons oder andere graphische Zeichen
(Reyes et al. 2012).</p>
<p rend="paper_abstract">Vor diesem Hintergrund adressiert dieses Projekt Herausforderungen, die bei der linguistischen und statistischen Verarbeitung von realen web-basierten Daten entstehen. Es wird ein Ansatz semi-automatischer Annotation zur Extraktion von Begriffen für die ontologiebasierte Beschreibung von computergenerierten audiovisuellen Kunstwerken einer digitalen Kunstszene präsentiert. Forschungsgegenstand ist die Diskussionskultur der Demoszene, einer spezialisierten Computerkunstszene. Bisher sind die zahlreichen Beiträge der Gemeinschaft, die sich auf ästhetische und technische Aspekte der Kunstwerke beziehen, nicht erschlossen. Bei diesen Beiträgen handelt es sich um informelle, emotionale, kurze und unstrukturierte Kommentartexte. Das verwendete Vokabular ist mehrsprachig und beinhaltet fachspezifische Terminologien, exklusive Neologismen und einen eigenen szenespezifischen orthographischen Stil. Diese Beiträge bieten detaillierte Einblicke in die Charakteristika der Werke, weshalb ihre Erschließung deren Verständnis fördert und eine gezielte Recherche einzelner Werke ermöglicht. Das Projekt befasst sich mit der Fragestellung, in wieweit sich aktuelle Verfahren der natürlichen Sprachverarbeitung (NLP), die auf grammatikalisch korrekte Schriftformen optimiert und auf Zeitungskorpora trainiert sind, anwenden lassen. Somit leistet das präsentierte Projekt einen Beitrag im Bereich der Entwicklung von Ansätzen zur Aufbereitung großer textbasierter Datenbestände sowie der Erforschung des Sprachgebrauchs zeitgenössischer digitaler Kunstszenen, aber auch hinsichtlich Nutzung semantischer Technologien.</p>
<p rend="paper_abstract">Die Anwendung von NLP-Verfahren für textbasierte Kommunikation
in soziale Medien bedarf einiger Anpassungen an die sprachlichen Besonderheiten
(Maynard 2012). Die Nutzung standardisierter Techniken ist bisher nur wenig
erfolgversprechend (Gimpel 2011; Finin 2010). Bestehende Frameworks, wie das Natural
Language Toolkit (NLTK, vgl. Bird et al. 2015), bieten die Möglichkeit der
Implementierung eines individuellen NLP-Prozesses, bei dem verschiedene
Verarbeitungsschritte modular integriert und miteinander kombiniert werden können.
Für das vorliegende Projekt wurde eine Pipeline konzipiert und implementiert, die
die Generierung von Annotationsebenen, begonnen mit der Tokenisierung und
Part-of-Speech Tagging bis hin zur Extraktion von relevanten werkbeschreibenden
Begriffen umfasst. Zur Evaluation des entwickelten Ansatzes wird ein regelbasiertes
überwachtes Experiment mit einer definierten Teilmenge von 1255 Kommentaren
durchgeführt. Es lässt sich feststellen, dass Emoticons und Partikeln falsch
verarbeitet werden. Darüber hinaus werden auch Nomen, Verben und Adjektive,
insbesondere Gerundien häufig falsch annotiert. Das Experiment zeigt, dass die
konzipierte Pipeline für das vorliegende Kommentarkorpus iterativ optimiert werden
muss. Der generierte Index werkbeschreibender Terminologie wird ferner für die
Erweiterung einer domainspezifischen Ontologie zur Unterstützung semantischer
Annotation verwendet. Hierfür wird ein Ansatz für das Lernen von Ontologien aus
Texten verfolgt, wobei die ermittelten Begriffe als Kandidaten für Instanzen
beschrieben werden. Als Referenzontologie wird eine auf CIDOC CRM-basierte Adaption
verwendet (Hastik et al. 2013).</p>
<p rend="paper_abstract">Dieses Projekt präsentiert einen innovativen Ansatz, um mit NLTK Kommentartexte aus Onlineforen der Demoszene zu annotieren. Das Standard-Tagset muss jedoch angepasst werden. Die Erweiterung der CIDOC CRM-basierten Ontologie auf Basis des generierten Indexes ermöglicht die semantische Beschreibung der Werke.</p>
</body>
<back>
<div type="bibliogr">
<listBibl>
<head>Bibliographie</head>
<bibl><hi rend="bold">Bird, Steven / Klein, Ewan / Loper, Edward</hi> (2015):
<hi rend="italic">Natural Language Processing with Python</hi>. NLTK
Book <ref target="http://www.nltk.org/book/">http://www.nltk.org/book/</ref>
[letzter Zugriff 15. Februar 2016].</bibl>
<bibl><hi rend="bold">Farzindar, Atefeh / Inkpen, Diana</hi> (2015): <hi
rend="italic">Natural Language Processing for Social Media</hi>. San
Francisco: Morgan & Claypool.</bibl>
<bibl><hi rend="bold">Finin, Tim / Murnane, Will / Karandikar, Anand / Keller,
Nicholas / Martineau, Justin</hi> (2010): "Annotating Named Entities in
Twitter Data with Crowdsourcing", in: <hi rend="italic">Proceedings of the
NAACL HLT</hi> 80–88. </bibl>
<bibl><hi rend="bold">Gimpel, Kevin / Schneider, Nathan / O'Connor, Brendan /
Dipanjan, Das / Mills, Daniel / Eisenstein, Jacob / Heilman, Michael /
Yogatama, Dani / Flanigan, Jeffrey / Smith, Noah A.</hi> (2011):
"Part-of-Speech Tagging for Twitter: Annotation, Features, and Experiments",
in: <hi rend="italic">Proceedings of the 49th Annual Meeting of the
Association for Computational Linguistics</hi> 42-47. </bibl>
<bibl><hi rend="bold">Hastik, Canan / Steinmetz, Arnd / Thull, Bernhard</hi>
(2013): "Ontology based Framework for Real-Time Audiovisual Art", in: <hi
rend="italic">IFLA World Library and Information Congress</hi>. 79th
IFLA General Conference and Assembly: Audiovisual and Multimedia with
Cataloguing <ref target="http://library.ifla.org/87/1/124-hastik-en.pdf"
>http://library.ifla.org/87/1/124-hastik-en.pdf</ref> [letzter Zugriff
15. Februar 2016]. </bibl>
<bibl><hi rend="bold">Maynard, Diana / Bontcheva, Kalina / Rout, Dominic</hi>
(2012): "Challenges in Developing Opinion Mining Tools for Social Media",
in: <hi rend="italic">Proceedings of @NLP can u tag #usergeneratedcontent?!
Workshop at International Conference on Language Resources and
Evaluation (LREC 2012)</hi> 8.</bibl>
<bibl><hi rend="bold">Reyes, Antonio / Rosso, Paolo / Buscaldi, Davide</hi>
(2012): "From Humor Recognition to Irony Detection: The Figurative Language
of Social Media", in: <hi rend="italic">Data Knowledge Engineering</hi>.
Applications of Natural Language to Information Systems 74: 1-12. </bibl>
</listBibl>
</div>
</back>
</text>
</TEI>