Skip to content

Latest commit

 

History

History
402 lines (323 loc) · 21.3 KB

publication metadata.md

File metadata and controls

402 lines (323 loc) · 21.3 KB

Handout zu Publication Metadata

Autorin: Lia Kirsch @cherry13579

Was sind Metadaten

Eine kurze Definition

  • Daten über Daten
  • Zweckbestimmung hilft bei der Unterscheidung zwischen Daten und Metadaten
  • Hier: Daten, die digitale oder physische Objekte beschreiben
  • Sind selber Informationsobjekt und werden in der Wissenschaft gebraucht
  • Sind nicht für den direkten Gebrauch durch den Menschen bestimmt
  • Für den Benutzer nicht immer sichtbar
  • Hilft dem Entwickler
  • Müssen von Maschinen verstanden und ausgewertet werden können (XML...)

Warum sind Metadaten so wichtig?

  • Es gibt eine immer größer werdende Menge an Daten, die geordnet werden muss * Schneller Überblick über den Inhalt * Geben Daten eine Struktur
  • Beschreiben hilft verstehen und vereinfacht die Auswahl
  • Klassifikation und zur Identifizierung
  • Ermöglichen eine gemeinsame Nutzung von Daten
  • Erhöhen die Wiederverwendbarkeit der Daten, bessere Nachnutzung, Zitierbarkeit, Reproduzierbarkeit. Zietierbarkeit * Verbesserung der Suche nach Internetressourcen
  • Publikation von Forschnungsdaten ist nur sinnvoll, wenn die Daten in interpretierbarer Form vorliegen
  • Analysefehler beseitigen
  • Macht die Entstehung eines Datensatzes nachvollziehbar
  • Ohne sie oft nicht auf Validität überprüft(Hyperlinks, die nicht mehr funktionieren etc.)

Wo spielen sie eine Rolle + Beispiele

  • Suchen nach Internetressourcen
  • Archiven
  • Universitäten
  • Bibliotheken
  • Regierungsstellen
  • Unternehmen
  • Forschung, e-commerce
  • Öffentliche Verwaltung
  • Semantisches Web
  • Erzeugung von Dateien, die für neue Anwendungen besser geeignet sind
  • Datum,Version,URL,Verlinkung zu anderen Ressourcen,Herkunft, Geschichte,Beziehung zu anderen Ressourcen,Urheberrecht...
  • Im headbereich von HTML-dateien oder in gesonderten Dateien

Wo werden Metadaten gespeichert?

  • Im Dokument selbst: Buch Autor, HTML-Dokument:
  • Im zugeordneten Nachschlagwerk
  • Bei Computern in Dateiattributen
  • Zur Speicherung und Übertragung von Datenformaten und Datenmodellen werden z.B. Dublin Core... genutzt

Wie werden Metadaten veröffentlicht?

Datenjournale

  • Nachnutzung, Anerkennung und Veröffentlichung von Forschnungsdaten als wissenschaftliche Leistung
  • Transparenz von wissenschaftlichen Methoden und Ergebnissen verbessern
  • Gute Datenmanagementpraktiken unterstützen
  • Dauerhafter Zugang zum Datensatz
  • Archivieren
  • Es gibt ein Data-Curation-Profile zusätzlich
  • Keine wissenschaftliche Entdeckung muss zu Grunde liegen
  • Online
  • Restricted oder open Access
  • Hauptziel: Datensätze veröffentlichen

Repositorien

  • Spezielle Form des Archivs 
  • Als verwalteter Speicherort für digitale Objekte verstanden**
  • meistens öffentlich oder einem eingeschränkten Nutzerkreis zugänglich
  • Mit  Open Access verknüpft. 

Wissenschaftliche Fachzeitschriften

  • Digital und analog
  • Qualitätssicherung durch Reviewverfahren
  • Forschnungsdaten meist nicht mit abgedruckt

Wer sind die Akteur*innen?

  • Informatikerinnen und Programmiererinnen, die Web-Standarts vorschlagen und Suchmaschinen entwickeln (w3c...)
  • Allgemein Internet-Gemeinschaft: zunächst eher wenig Google nutzt Metadaten zum Ranking Missbrauch heute nutzt so gut wie keine allgemeine Suchmaschine inhaltserschließende Metadaten
  • Autorinnen, Redakteurinnen, Indexerinnen, Herausgeberinnen
  • Können auch maschinell erzeugt werden(automatischer Dateityp...)
  • Closed-Communities
  • Autoren selber (haben verschiedene Tools)
  • Ausgebildete Informationsfachleute(Bibliothekar*innen)

Rechtliche Fragen

  • Wem gehören die Daten?
  • Verschieden IPR(Recht am geistigen Eigentum)-Systeme
  • Metadaten ermöglichen den Abruf von Informationen und sind deshalb selber Handelsobjekte
  • Metadaten haben einen eigenen IPR
  • Eindeutige Autoren ID?
  • Sobald man Namen einführt führt man auch die Mehrdeutigkeit ein

Beispiele

Keyword Systeme

  • System, welches über Schlagworte sucht

Thesauri

  • Dokumentationssprache zum Indexieren, Speichern und Finden von Dokumenten
  • Geeignetes Hilfsmittel zur Sacherschließung und zum Auffinden von Dokumenten
  • Relationen zwischen den einzelnen Begriffen zum Auffinden bei der Indexierung (Vergabe von Schlagworten) und bei der Recherche
  • Kontrolliertes Vokabular ( eindeutige Benennungen für jeden Begriff. Unterschiedliche Schreibweisen, Synonyme bzw. als gleichbedeutend behandelte Quasi-Synonyme, Abkürzungen
  • Übersetzungen etc. werden durch Äquivalenzrelationen miteinander in Beziehung gesetzt
  • Begriffe werden außerdem durch Assoziationen und hierarchische  Relationen vernetzt
  • Die Relationen ermöglichen es, bei der Indexierung und Recherche passende Benennungen für gesuchte Begriffe zu finden. Bei der Suche können Thesauri durch die automatische Erweiterung der Suchanfrage auf Synonyme und Unterbegriffe hilfreich sein
  • Zur Begriffsklärung dienen
  • hat im besten Fall die Funktion einer Normdatei inne
  • Im Gegensatz zu einer monohierarchischen Tabelle oder Datenbank kann der Thesaurus eine polyhierarchische Struktur besitzen (d. h. ein Unterbegriff kann mehrere Oberbegriffe haben).
  • Die Thesaurusnormen DIN 1463-1 bzw. das internationale Äquivalent ISO 2788 sehen folgende Relationsarten und dazugehörige Abkürzungen vor

Welche Typen von Metadaten gibt es?

Bibliographische Administrative
Inhaltsbeschreibende Fachlich
Informationen zur Verwaltung von Daten  Einzelne Aspekte 
Informationen zur Entstehung der Gesamtheit der Daten Beschreiben den Datensatz genauer
Allgemeine Natur und oft kombiniert   Zusätzliche Informationen zum Datensatz
Unterstützen alle eine YML-Kodierung Sehr verschieden aufgebaut

Sicht auf Informationswachstum und Bedeutung für die Metadaten

Informationswachstum kann nicht gezähmt werden Bezeichnung von Informationen hilft
Statistische Informationsgewinnung Jede relevante Information wird um Daten erweitert, die das Informationsobjekt beschreiben, sogenannte Metadaten
In diesen IR-Techniken wird der Kontext aus Mustern abgeleitet, die die Abfragewörter enthalten. Im Extremfall werden nicht einmal Wörter wie in der mächtigen N-Gram-Technik verwendet Als Filter (verteilen Infos als Klassen)
  . Meist von hand hinzugefügt 
Minus :Mangel an semantischem Wissen, Unfähigkeit, Ironie oder zufällige Verweise zu interpretieren) Minus:vollständige Vorcodierung durch den Autor einerseits unmöglich zu erreichen ist und andererseits den suchenden Leser davon abhält über unerwartete Beziehungen oder übergreifende Ähnlichkeiten zu stolpern
  systematischer Stichwortsysteme versuchen, das Dokument in eine bestimmte Domäne zu kontextualisieren inhaltliche Aussage,Unklarheiten vor der Veröffentlichung der Arbeit vorweggenommen werden,viel anspruchsvoller, stellt aber sicher, dass der Kontext der Arbeit fundiert ist

Wie schaffe ich es denn, dass die Metadaten gleich sind und auch gleich eingetragen werden?

  • Standards
  • Viele verschiedene, weil das Feld sehr breit gefächert ist
  • Immer den zum eigenen Projekt passenden Standard wählen
  • Um den Maschinen den Kontext eines Begriffes zu vermitteln, wird auf maschinenlesbare Metadatenstandarts zurückgegriffen

Beispiele Metadatenstandards (bibliographisch)

RDF

  • Resource Description Framework
  • Metasprache zur Beschreibung von beliebigen Dingen durch logische Aussagen
  • Starkes abstraktes Niveau
  • Grundlegender Baustein: Semantic web
  • Aufgebaut: Subjekt-Prädikat-Objekt
  • Stellt SKOS(Kodierung von Dokumentationssprache wie Thesauri)
  • Mapping von strukturell gelichförmigen Metadaten von einem Standard in einen Anderen
  • Leicht durchführbar
  • Beschreibung von Büchern und vergleichbaren anderen medien, Datnesätzen
  • Wichtig beim Austausch

MARC21

  • Machine-Readable Cataloging
  • Weltweit verwendet, um bibliographische Daten zwischen verschiedenen Einrichtungen auszutauschen
  • Fußt auf Zahlencodes, die für Menschen kaum verständlich sind

METS

  • Metadate&Ecoding&Transmissio Standard
  • XML Format zur Beschreibung von digitalen Objekten mit strukturellen und bibliographischen bzw. administrativen Metadaten
  • Teil der MARC21 Standards
  • Umfasst 7 Bereiche, in denen die Metadaten strukturiert abgelegt werden:
    • Kopfteil, Erschließungsangaben, Verwaltungsangaben, Dateiabschnitt, Strukturverknüpfung, Verhalten (Anleitung, wie man konkret abspeichert)
  • Format kann in verschiedenen Bereichen verschieden sein, deshalb können unterschiedliche Formate, wie Dublin Core, MARC,MODS Verwendung finden
  • Robuste und flexible Möglichkeit digitale Objekte zu definieren
  • Von der British Library
  • Normalisiert Metadaten

Dublin Core, als Akteur*in die Standarts setzt

  • Beschreibt jede Ressource anhand der Folgender 15 Felder
    • Die Felder sind optional
    • Titel, Ersteller/Autor, Betreff, Beschreibung, Herausgeber, Beitragender, Datum, Typ, Format, Bezeichner, Quelle, Sprache, Beziehung, Abdeckung, Rechte
  • Nicht sehr komplex
  • Am häufigsten verwendeten Standards
  • Content-Produzenten werden dazu ermutigt diese Standarts zur Beschreibung ihrer Produkte zu verwenden
  • Kategoriesierung von Webelementen
  • Einfache Beschreibung von Dokumenten und anderen verwandten Objekten im Web mit Hilfe bibliographischer Metadaten
  • Übersicht über alle Elemente auf der Webseite
  • Heute gibt es spezialisierte Arbeitsgruppen(Communities) Mitarbeit freiwillig und unbezahlt

Beispiel Dublin Core

Term Name:     coverage
URI: (http://purl.org/dc/elements/1.1/coverage)
Label:  Coverage
Definition: The spatial or temporal topic of the resource, the spatial applicability of the resource, or the jurisdiction under which the resource is relevant.
Comment:  Spatial topic and spatial applicability may be a named place or a location specified by its geographic coordinates. Temporal topic may be a named period, date, or date range. A jurisdiction may be a named administrative entity or a geographic place to which the resource applies. Recommended best practice is to use a controlled vocabulary such as the Thesaurus of Geographic Names [TGN]. Where appropriate, named places or time periods can be used in preference to numeric identifiers such as sets of coordinates or date ranges.
References: [TGN] http://www.getty.edu/research/tools/vocabulary/tgn/index.html

https://de.wikipedia.org/wiki/Dublin_Core

British Library als Akteur*in, die Standarts setzt

  • Zur Aufbewahrung von digitalem Material
  • Aufnahmesystem
  • Metadatenverwaltungskomponente (kann für verschiedene Inhaltstypen variieren)
  • Archivspeicher (für alle Inhaltstypen freigegeben)
  • Mit dem bestehenden integrierten Bibliothekssystem (ILS) verknüpft
  • Architektur wurde entwickelt um Langzeitarchivierungsaktivitäten wie Formatmigration zu unterstützen

Beispiele Metadatenstandards MODS und MADS der British Library

  • MODS(Metadata Object Description Schema)
    • Zwischen der Komplexität von MARC21 und Dublin Core
    • Kann nicht alle Felder von MARC21 wiedergeben
    • Normalisiert Metadaten
  • MADS (Metadata Authority Description Schema)
    • Erweiterung zu MODS
    • Zusammen mit MODS verwendet
    • Für Übertragung von Metadaten zu Personen, Einrichtungen, Ereignissen, Begriffen

PREMIS

  • Möglichkeit zur Beschreibung von Objekten und Prozessen, die für digitale Langzeitarchivierung unerlässlich sind
  • Inhaltsunabhängig
  • Gemeinsame Nutzungsrichtlinien für die verschiedenen Inhaltstypen definieren
  • Von der British Library
  • Normalisiert Metadaten

Standard CF

  • CF ( Klima und Prognose) Metadatenkonventionen
  • Für modellgenerierte Klimaprognosen
  • Für Beobachtungsdatensätze
  • Kann zur Beschreibung anderer Formate verwendet werden
  • Mengen( physische, Beschreibung,Einheiten, vorherige Verarbeitung),Daten, Zeitraum abgrenzen

Seite zum finden von Standarts:

Software Metadaten

  • Hängt von Anwendungsfall ab
  • Akademische Software: Zitationsmetadaten
  • Analyse replizieren: Versionen, Abhängigkeiten
  • Software entdecken: Keywords, Beschreibungen
  • Verscheidene Software-Repositories, Softwaresprachen, wissenschaftliche Domänen kennzeichnen Informationen unterschiedlich Informationen gehen beim Wechseln von Quellen verloren
  • Beispiel, was gut funktioniert:
    • GitHUb und figshare
    • Software auf dem ersteren in das persistente Archiv des letzteren zu importieren
    • Dabei eine permanente Kennung(DOI) zu erhalten
    • DOI zuweisen braucht figshare Metadaten über das Objekt und übergibt an DataCite (zentralen DOI-Provider für alle Repositories)
    • Dies macht DataCite zwar zu einem leistungsfähigen Aggregator
    • Aber das Fehlen einer Crosswalk-Tabelle bedeutet, dass auf dem Weg viele wertvolle Metadaten verloren gehen (die ursprüngliche Softwarelizenz, die Plattform...)
  • Jedes Werkzeug oder jeder Ansatz, der über Software-Repositories hinweg arbeitet, sieht sich ähnlichen Herausforderungen gegenüber, ohne dass zwischen ihnen eine Zebrastreifen-Tabelle ausgetauscht werden muss

CodeMeta-Datei

  • Bei Software-Repositorys,Software-Registrys, Archiven
  • CodeMeta-Instanzdatei
  • Beschreibt die Metadaten, die mit einem Softwareobjekt verknüpft sind
  • Das Softwareobjekt verwendet die JSON-Datenverknüpfungsdaten
  • Jedes CodeMeta-Dokumenr muss sich auf die codemeta.jsonld beziehen
  • Alle begriffe sollen im Kontext von CodeMEta interpretiert werden
  • Kontextdatei kann geändert und aktualisiert werden ( Bei Änderung der JSON-Eigenschaften)
  •  Beispiel einer CodeMeta-Datei  https://github.com/codemeta/codemeta/blob/master/examples/codemeta.json 
    
  • @cboettig

DataCite

  • Internationales Konsortium mit Ziel einen einfachen Zugang zu wissenschaftlichen Forschungsdaten zu ermöglichen
  • Akzeptanz von Forschnugsdaten erhöhen
  • Zitierfähige Beiträge erhöhen
  • Archivierung unterstützen
  • Transparenz und nachhaltige Nutzung fördern
  • Gemeinsame Datennutzung
  • Zugang zu Forschnungsdaten
  • Verbesserter Schutz von Forschnungsinvestitionen
  • Weltweit
  • 2009 als Verein von Einrichtungen aus 6 Ländern gegründet(British Lybrary,Technical Information Center of Denmark, Bibliothek der TU Delft, national Research Council, Canada Institude for Scientific and Techniccal Information, CalifornialDigital Library, Purdue University, technische Informationsbibliothek Hannover
  • Viel Zulauf
  • Betreibt auch re3data

Technik von DataCiete

  • Mitglieder bekommen DOI
  • In kooperation mit datenzentren(Qualitätssicherung, Pflege, Speicherung der Inhalte)
  • Dachverband der DOI-vergabestelle
  • Metadatenschema ist eine Liste von Metadaten-kernelementen mit Nutzungsempfehlungen
  • Kernelemente ermöglichen eine korrekte und einheitliche Identifikation der daten für: Zitierung und Abfragezweck
  • Pflichtelemente, die man bei der Registrierung für ein DOI
  • Optionale Metadatenelemente zur genauen Identifikation
  • Empfehlung eines Standartformats für zitation
  • Bereitstellung einer Basis für Interoperabilität mit anderen Datenbankmanagement schemata
  • Unterstützung beim Auffinden von Daten mit optionalen Elementen, die die flexible Beschreibungen einer Quelle zulassen, und deren Beziehungen zu anderen Objekt herausstellen kann
  • Die Grundsteinlegung für zukünftige Services (z.B. Auffinden von Daten) durch die Nutzung von kontrollierten Vokabularen aus dem DataCite Schema oder externen Schemata
  • Die kontrollierten Vokubulare werden durch den DataCite Metadata Supervisor verwaltet
  • Nutzer können Anmerkungen machen
  • Die Metadata Working Group erarbeitete außerdem noch zwei Maßnahmen zur Erhöhung der Kompatibilität und Ausbaufähigkeit des Schemas in der Zukunft. Die Erste ist eine zweite Version des Schemas im Dublin Core Format. Zweitens findet die Datenpflege der Pflichtelemente in vom Gesamtschema getrennten Dateien statt. Diese Vorgehensweise erhöht nicht nur die Benutzerfreundlichkeit, sondern verbessert auch den Austausch mit der Wissenschaftsgemeinschaft  

Was ist beim Teilen von Daten zu beachten?

  • Passt das Repositorium oder das Datenjournal zur Fachdisziplin?
  • Sind die Daten langfristig verfügbar?
  • Wie sieht es mit den Datenformaten aus?
  • Was gibt es für Metadatenstandarts?
  • Wie sieht es mit dem Datenschutz aus?
  • Wie mit dem Urheberrecht?
  • Sind Forschungsdaten durch fachspezifische Suchdienste dort auffindbar?

Was die Uni Münster benutzt:

Erklärung von Begriffen

Open Access

  • Ermöglicht größere Sichtbarkeit
  • Verbreitung kostenlos
  • Über eine einfache Internetverbindung
  • Open Archive Initiative (OAI)
  • Open Access durch die Entwicklung von Interoperabilitätsstandarts fördern
  • Austausch zwischen Repositories erleichtern
  • Alle Dienstleider, die ermöglichen gesammelte Metadate zu nutzen(GoogleScholar,soziale Netzwerke...)
  • DOJAR,ROAR sind Verzeichnisse, die diese Open-Access-Repositories auflisten
  • Kostenloser und möglichst barrierefreier Zugang zu digitalen wissenschaftlichen Inhalten
  • Umfangreiche Nutzungsrechte und einfache Zugangswege ermöglicht
  • Die Urheberschaft verbleibt dabei in der Hand des Urhebers
  •  Wissenschaftliche Informationen maximal verbreitet, genutzt und weiterverarbeitet werden

Open Data

  • Gewinnt an Dynamik
  • Ändert die Forschungsweise
  • Forschung über gleiche Daten durchführen
  • Implementierung kollaborativer Arbeiten
  • Zugang zu wissenschaftlichen Daten wird vereinfacht
  • Transparenz im wissenschaftlichen Forschnungsprozess wird stark gefördert

Semantic Web

  • Bemühungen das World Wide Web zu systematisieren, damit der maschinelle Austausch von Computern leichter und einfacher verwertbar wird. Mit
  • Mit Metadaten, kontextualisiert (sodass dadurch bspw. klar wird, ob es sich bei ‚Berlin‘ um die Hauptstadt Deutschlands, eine andere Stadt oder einen Namen handelt)
  • Stellt die Praktiken und Standarts dar, deren Zweck es ist die Ausgangsdten mit semantischen Metadaten anzureichern, um Daten zu erzeugen, die für neue Anwendungen besser geeignet sind

re3data

  • Diziplinübergreifendes, internationales Verzeichnis von Forschnungsdaten-Repositorien

Mapping

  • Prozeß der Überführung von Daten(elementen) von einem Datenmodell in ein Anderes
  • Erste Schritt zur Integration von fremden Informationen in ein eigenes Informationssystem
  • Es umfaßt die Datentransformation während eines elektronischen Datenaustauschs, für den sehr häufig die Auszeichnungssprache XML und das Datenformat JSON verwendet werden

Best Practice

  • Bereits erprobte und bewährte Methode zum Ablauf eines Arbeitsprozesses
  • Durch Erfahrung und Forschung als zuverlässig erwiesen
  • Verwendung von jeglichem verfügbaren Wissen und Technologien, um eine erfolgreiche Durchführung zu garantieren.
  • Im Bereich des Forschungsdatenmanagement werden mit diesem Begriff die Standards bezeichnet, durch die qualitativ hochwertige Aufzeichungen geschaffen werden können. Hierbei handelt es sich meist um Metadatenstandarts

 Digital object identifier (DOI)

  • Systeme zur persistente Identifikation digitaler Dokumente
  • Bleibt über die gesamte Lebensdauer eines bezeichneten Objekts gleich
  • Von der International DOI Foundation gemanaget
  • Ein weiteres bekanntes System zur persistenten Identifikation ist der Uniform Resource Name (URN)

Persistent Identifer

Dauerhafter (persistenter), digitaler Identifikator,

  • Bestehd aus Ziffern und/oder alphanumerischen Zeichen, welcher einem Datensatz (oder einem anderen digitalen Objekt) zugeordnet wird und direkt auf diesen verweist
  • Häufig verwendete Identifikator-Systeme sind DOI (Digital Object Identifiers) und URN (Uniform Resource Names).
  • Verweist auf das Objekt selbst und nicht auf seinen Standort im Internet
  • Ändert sich der Standort bleibt der Identifikator derselbe
  • Muss lediglich in der Identifikator-Datenbank der URL-Standort geändert oder ergänzt werden
  • So wird sichergestellt, dass ein Datensatz dauerhaft auffindbar, abrufbar und zitierbar bleibt

Quellen

Allgemeines über Metadaten

Metadaten Themen: Zweck, Unterscheidung, Beispiele für Standards

Metadaten Themen: Was sind Metadaten?, Wer braucht Metadaten, Worüber informieren Metadaten?, Wer erstellt Metadaten?

Metadaten Themen: Unterschied Daten zu Metadaten,Anwendungsgebiete, Speicherung

Metadaten Themen: Nutzung von Metadaten, Wie helfen Metadaten der Wissenschaft

Metadaten Themen: typen von Metadaten, Rechte,Klassifikationen

Informationen zum Dublin Core, Wer, Was

Informationen über METS,MOTS und PREMIS

🍒

@cherry13579

Dieses Dokument enthält mehr Informationen, als später im Vortrag vorgestellt werden.