input/xml/vorträge-002.xml

<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xml:id="vorträge-002">
  <teiHeader>
    <fileDesc>
      <titleStmt>
        <title>Pattern Mining in Keilschriftzeichnungen</title>
        <author>
          <name>
            <surname>Bogacz</surname>
            <forename>Bartosz</forename>
          </name>
          <affiliation>Universität Heidelberg, Deutschland</affiliation>
          <email>bg.bartek@gmail.com</email>
        </author>
        <author>
          <name>
            <surname>Mara</surname>
            <forename>Hubert</forename>
          </name>
          <affiliation>Universität Heidelberg, Deutschland</affiliation>
          <email>hubert.mara@iwr.uni-heidelberg.de</email>
        </author>
      </titleStmt>
      <editionStmt>
        <edition>
          <date>2015-10-15T21:30:12.862323279</date>
        </edition>
      </editionStmt>
      <publicationStmt>
        <publisher>Elisabeth Burr, Universität Leipzig</publisher>
        <address>
          <addrLine>Beethovenstr. 15</addrLine>
          <addrLine>04107 Leipzig</addrLine>
          <addrLine>Deutschland</addrLine>
          <addrLine>Elisabeth Burr</addrLine>
        </address>
      </publicationStmt>
      <sourceDesc>
        <p>Converted from an OASIS Open Document</p>
      </sourceDesc>
    </fileDesc>
    <encodingDesc>
      <appInfo>
        <application ident="DHCONVALIDATOR" version="1.14">
          <label>DHConvalidator</label>
        </application>
      </appInfo>
    </encodingDesc>
    <profileDesc>
      <textClass>
        <keywords scheme="ConfTool" n="category">
          <term>Vortrag</term>
        </keywords>
        <keywords scheme="ConfTool" n="subcategory">
          <term></term>
        </keywords>
        <keywords scheme="ConfTool" n="keywords">
          <term>Keilschrift</term>
          <term>Data Mining</term>
          <term>Pattern Mining</term>
          <term>Machine Learning</term>
        </keywords>
        <keywords scheme="ConfTool" n="topics">
          <term>Umwandlung</term>
          <term>Datenerkennung</term>
          <term>Aufzeichnung</term>
          <term>Transkription</term>
          <term>Strukturanalyse</term>
          <term>Modellierung</term>
          <term>Annotieren</term>
          <term>Bearbeitung</term>
          <term>Archivierung</term>
          <term>Kommentierung</term>
          <term>Konservierung</term>
          <term>Artefakte</term>
          <term>Computer</term>
          <term>Daten</term>
          <term>Datei</term>
          <term>Sprache</term>
          <term>Methoden</term>
          <term>Forschungsprozess</term>
          <term>Text</term>
          <term>texttragende Gegenstände</term>
        </keywords>
      </textClass>
    </profileDesc>
  </teiHeader>
  <text>
    <body>
      <p>Keilschrifttafeln gehören zu den ältesten Textzeugen, die im Umfang mit den Texten in
        lateinischer und alt-griechischer Sprache vergleichbar sind. Da diese Tafeln aus dem
        gesamten Alten Orient über beinahe viertausend Jahre in Verwendung waren (Soden
        1994), lassen sich damit viele interessante Fragestellungen zur Entwicklung von
        Religion, Politik, Wissenschaft, Handel bis hin zu Klimaveränderungen (Kaniewski et
        al. 2013) beantworten. Die aus Ton geformten Tafeln, bei denen Zeichen (Borger 2010)
        als keilförmige Abdrücke mit einem eckigen Stylus eingedrückt wurden, erfordern neue
        informationstechnische Methoden zu der Dokumentation und Analyse als die in Archiven
        üblichen Flachwaren. </p>
        <p>Keilschrifttafeln werden mit Hilfe verschiedenster Methoden digitalisiert und in
          verschiedene, untereinander nicht kompatible Formate übertragen. Sie werden
          photographisch mit wechselnden Lichtverhältnissen aufgezeichnet, handschriftlich
          oder digital abgezeichnet oder mit Hilfe eines 3D-Scanners aufgenommen (Mara et al.
          2010; Mara / Krömker 2013). Jede dieser Repräsentationen erfordert ein eigenes
          Tool-Set zur Analyse und die textuelle Analyse ist auf die jeweilige Repräsentation
          beschränkt. </p>
          <p>Die Initiative für eine digitale Keilschriftdatenbank (<ref
            target="http://cdli.ucla.edu/">Cuneiform Digital Library Initiative</ref> -
            CDLI) stellt mehr als 300.000 Keilschrifttafeln je nach Verfügbarkeit in Form von
            handgefertigten Abschriften, Photographien oder Umschriften zur Verfügung. Diese
            Datenbank besitzt keine Möglichkeit Keilschrifttafeln nach den Keilsymbolen zu
            durchsuchen. </p>
            <p>In unserer bisherigen Arbeit (Bogacz / Massa et al. 2015) stellten wir Verfahren und
              einen Ablauf zur Homogenisierung von den drei gängigsten Datenquellen vor.
              Keilschriftabdrücke wurden handschriftlichen Zeichnungen, digital abgezeichneten und
              3D-gescannten Tafeln entnommen. Die Datenquellen wurden zuerst, falls nötig, in das
              SVG Format (Scalable Vector Graphics) vektorisiert. SVG Dateien sind ein offener
              Standard zur Beschreibung von Vektorgrafiken, der sich den XML Standard zu nutze
              macht. </p>
              <p>Die Nutzung dieses Dateiformates ermöglicht uns Wörter in den digitalen Abzeichnungen
                mit ihrer Übersetzung zu Annotieren und als XML-Tags zu den Grafikpfaden, die den
                Wörtern entsprechen, in den SVG Dateien selbst abzuspeichern. Wir nutzten diese
                Annotationen, um die Genauigkeit unserer Worterkennung zu überprüfen (Bogacz / Gertz
                et al. 2015).</p>
                <p>Auf Grundlage der homogenisierten Datenbasis führten wir eine minimale und einheitliche Beschreibung von Keilabdrücken mit Hilfe von Merkmalsvektoren ein. Die Abdrücke einer Keilschrifttafel in dem jeweiligen Datenformat werden erkannt und extrahiert. Bei der Extraktion werden die einzelnen Keile durch mehrere verschiedene, sich ausschließende, Merkmalsvektoren modelliert. Die abschließend gewählte Untermenge von Keilmodellen für die gegebenen Keile einer Tafel ist eine global optimale Zuordnung von Keilmodellen zu den jeweiligen Keilabdrücken. Dieser Ansatz wurde gewählt, da die Abdrücke oft beschädigt oder nicht eindeutig identifizierbar sind. </p>
                <p>Die reduzierte Darstellung als Merkmalsvektoren ermöglicht eine Analyse der Daten mit
                  gängigen Methoden aus dem Bereich des maschinellen Lernens, wie der Priniciple
                  Component Analysis (PCA) Dimensionsreduktion, dem k-Means Algorithmus oder auch
                  einem Entscheidungsbaum (Mohri et al. 2012), und das Abspeichern der Keilabdrücke
                  und der Keilschrifttafeln in austauschbaren XML Dateien zur weiteren Analyse oder in
                  einer effizienten Suchstruktur als Grundlage für einen Suchalgorithmus. </p>
                  <p>In dieser Arbeit stellen wir ein Verfahren zur vollständig automatisierten Suche von
                    Keilschriftsymbolen vor. Wir übernehmen die Idee von "Query Words" und adaptieren
                    sie für geometrische Symbole. Anstatt ausschließlich Übersetzungen von
                    Keilschrifttafeln zu durchsuchen und nicht übersetzte Tafeln auszulassen, können wir
                    alle homogenisierten Tafeln nach Keilkonfigurationen durchsuchen. Eine beliebige
                    geometrische Anordnung von Keilen im Merkmalsvektor Repräsentation wird als Query
                    (Abfrage) genutzt, nach welcher Tafeln abgesucht werden können. </p>
                    <p>Unser Verfahren baut eine Suchstruktur auf, die danach mit Keilkonfigurationen
                      abgesucht werden kann. Zuerst wird durch eine Radial Basis Function (RBF) Kernel-PCA
                      Dimensionsreduktion (Schölkopf 1997) der Merkmalsraum der Merkmalsvektoren
                      reduziert. Es gibt nur wenige Keiltypen und diese werden durch die hochdimensionalen
                      (12 Merkmale pro Keil) Merkmalsvektoren überspezifisch beschrieben. Danach wird ein
                      k-Means Clustering (Kanungo et al. 2002) durchgeführt, um die einzelnen Keiltypen
                      automatisiert zu erkennen. Die gefunden Gruppierungen bilden die Basis für ein
                      Wörterbuch an bekannten Keilkonfigurationen. Dieses Wörterbuch wird nun erweitert
                      indem ein spatiales Frequent Pattern Mining (Han et al. 2007) der Tafeln
                      durchgeführt wird. Häufig vorkommende und dicht zusammen liegende Keiltypen werden
                      zu neuen Einträgen zusammengefasst. Keilschrifttafeln werden somit anhand der
                      Positionen von im Wörterbuch vorhandenen Keilkonfigurationen beschrieben.</p>
                      <p>Ein Keilschriftszeichen wird gesucht, indem es in im Wörterbuch bekannte
                        Keilkonfiguration unterteilt wird. Dazu werden die Merkmalsvektoren des Zeichens mit
                        gelernten PCA reduziert und dem gelernten k-Means klassifiziert. Danach werden
                        bekannte Konfigurationen im gesuchten Zeichen durch erneutes spatiales Frequent
                        Pattern Mining identifiziert. Nun wird eine Schnittmenge von bekannten
                        Konfigurationen im gesuchten Zeichen mit der Menge an bekannten Konfigurationen auf
                        der Tafel gebildet. Übereinstimmungen werden durch ein genaueres Verfahren
                        verglichen (Bogacz / Gertz et al. 2015). </p>
                        <p>Unser Verfahren Pattern Mining a Dictionary of Complex Structures (PDCS) macht sich die geringe Anzahl von Keiltypen (Winkelhaken, stehender Keil und liegender Keil) und häufig vorkommende Keilkonfigurationen zu nutze, um den Suchraum zu reduzieren. Zusammenfassend basiert es auf der Annahme, dass sich das zu durchsuchende Objekt in bekannte und grundlegende Formen, Keile der Keilschrift, zerlegen lässt, und die gesuchte Form eine geometrische Anordnung dieser Grundform ist. Dafür erweitern das Konzept des Frequent Pattern Minings indem wir die Geometrie der häufig vorkommenden Muster beachten. </p>
                        <p>Die k-Means Gruppierung der Keiltypen hat gegenwärtig eine Fehlerrate von 10%. Wir planen die Fehlerrate zu reduzieren indem wir die Parameter der PCA Dimensionreduktion automatisiert lernen und optimieren. Das Bilden der geometrischen Schnittmenge ist ein zeitaufwändiger Prozess. Wir arbeiten an einer Methode diesen Algorithmus zu beschleunigen indem wir Keilkonfigurationen aus dem Wörterbuch entfernen, die nicht zur Suche beitragen. Weitere mögliche Anwendungsbereiche für unser Verfahren sind Chinesische Zeichen, Heraldik, Maya Schriftzeichen und die kodikologische Untersuchung der Anordnung von Textpassagen eines Keilschrifttextes.</p>
                      </body>
                      <back>
                        <div type="bibliogr">
                          <listBibl>
                            <head>Bibliography</head>
                            <bibl><hi rend="bold">Bogacz, Bartosz / Gertz, Michael / Mara, Hubert</hi>
                            (2015): "Character Retrieval of Vectorized Cuneiform Script", in: <hi
                            rend="italic">Proceedings of the 13th International Conference on
                            Document Analysis and Recognition (ICDAR)</hi>, Nancy, France.</bibl>
                            <bibl><hi rend="bold"> Bogacz, Bartosz / Massa, Judith / Mara, Hubert</hi>
                            (2015): "Homogenization of 2D &amp; 3D Document Formats for Cuneiform Script
                            Analysis", in: <hi rend="italic">Proceedings of the 2015 Workshop on
                            Historical Imaging and Processing</hi>, Nancy, France 115-122.</bibl>
                            <bibl><hi rend="bold">Borger, Rykle</hi> (22010): <hi rend="italic"
                            >Mesopotamisches Zeichenlexikon</hi> (= Alter Orient und Altes Testament
                            – Veröffentlichungen zur Kultur und Geschichte des Alten Orients und des
                            Alten Testaments 305). Münster: Ugarit-Verlag.</bibl>
                            <bibl><hi rend="bold">Han, Jiawei / Cheng, Hong / Xin, Dong / Yan, Xifeng</hi>
                            (2007): "Frequent pattern mining: current status and future directions", in:
                            <hi rend="italic">Data Mining and Knowledge Discovery</hi> 15, 1: 55-86. </bibl>
                            <bibl><hi rend="bold">Kaniewski, David / Van Campo, Elise / Guiot, Joel / Le
                              Burel, Sabine / Otto, Thierry / Baeteman, Cecile</hi> (2013):
                              "Environmental Roots of the Late Bronze Age Crisis", in: <hi rend="italic"
                              >PLoS One</hi> 8, 8  <ref
                              target="http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0071004"
                              >http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0071004</ref>
                              [letzter Zugriff 07. Februar 2016].</bibl>
                              <bibl><hi rend="bold">Kanungo, Tapas / Mount, David M. / Netanyahu, Nathan S. /
                                Piatko, Christine D. / Silverman, Ruth / Wu, Angela Y.</hi> (2002): "An
                                efficient k-means clustering algorithm: Analysis and implementation. Pattern
                                Analysis and Machine Intelligence", in: <hi rend="italic">IEEE Transactions
                                on Pattern Analysis and Machine Intelligence</hi> 24, 7: 881-892.</bibl>
                                <bibl><hi rend="bold">Mara, Hubert / Krömker, Susanne </hi>(2013):
                                "Vectorization of 3D-Characters by Integral Invariant Filtering of
                                High-Resolution Triangular Meshes", in: <hi rend="italic">Proceedings of
                                12th International Conference on Document Analysis and Recognition
                                (ICDAR / IAPR)</hi>, Washington D.C., USA 62–66.</bibl>
                                <bibl><hi rend="bold">Mara, Hubert / Krömker, Susanne / Jakob, Stefan /
                                  Breuckmann, Bernd</hi> (2010): "GigaMesh and Gilgamesh - 3D Multiscale
                                  Integral Invariant Cuneiform Character Extraction", in: <hi rend="italic"
                                  >Proceedings of VAST10 - International Symposium on Virtual Reality,
                                  Archaeology and Cultural Heritage</hi>, Palais du Louvre, Paris, France
                                  131-138. </bibl>
                                  <bibl><hi rend="bold">Mohri, Mehryar / Rostamizadeh, Afshin / Talwalkar,
                                    Ameet</hi> (2012): Foundations of Machine Learning (= Adaptive
                                    Computation and Machine Learning series). Cambridge, Massachusetts: MIT
                                    Press. </bibl>
                                    <bibl><hi rend="bold">Schölkopf, Bernhard / Smola, Alexander / Müller,
                                      Klaus-Robert</hi> (1997): "Kernel Principal Component Analysis", in:
                                      Gerstner, Wulfram / Germond, Alain / Hasler, Martin / Nicoud, Jean-Daniel
                                      (eds.): <hi rend="italic">Artificial Neural Networks</hi>. Proceedings of
                                      the 7th International Conference Lausanne, Switzerland (ICANN'97). Berlin /
                                      Heidelberg: Springer 583-588. </bibl>
                                      <bibl><hi rend="bold">Soden, Wolfram von</hi> (1994): <hi rend="italic">The
                                      ancient Orient</hi>. An introduction to the study of the ancient Near
                                      East. Michigan: Wm. B. Eerdmans Publishing Co.</bibl>
                                    </listBibl>
                                  </div>
                                </back>
                              </text>
                            </TEI>