You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Zweckbestimmung hilft bei der Unterscheidung zwischen Daten und Metadaten
Hier: Daten, die digitale oder physische Objekte beschreiben
Sind selber Informationsobjekt und werden in der Wissenschaft gebraucht
Sind nicht für den direkten Gebrauch durch den Menschen bestimmt
Für den Benutzer nicht immer sichtbar
Hilft dem Entwickler
Müssen von Maschinen verstanden und ausgewertet werden können (XML...)
Warum sind Metadaten so wichtig?
Es gibt eine immer größer werdende Menge an Daten, die geordnet werden muss
* Schneller Überblick über den Inhalt
* Geben Daten eine Struktur
Beschreiben hilft verstehen und vereinfacht die Auswahl
Klassifikation und zur Identifizierung
Ermöglichen eine gemeinsame Nutzung von Daten
Erhöhen die Wiederverwendbarkeit der Daten, bessere Nachnutzung, Zitierbarkeit, Reproduzierbarkeit. Zietierbarkeit
* Verbesserung der Suche nach Internetressourcen
Publikation von Forschnungsdaten ist nur sinnvoll, wenn die Daten in interpretierbarer Form vorliegen
Analysefehler beseitigen
Macht die Entstehung eines Datensatzes nachvollziehbar
Ohne sie oft nicht auf Validität überprüft(Hyperlinks, die nicht mehr funktionieren etc.)
Wo spielen sie eine Rolle + Beispiele
Suchen nach Internetressourcen
Archiven
Universitäten
Bibliotheken
Regierungsstellen
Unternehmen
Forschung, e-commerce
Öffentliche Verwaltung
Semantisches Web
Erzeugung von Dateien, die für neue Anwendungen besser geeignet sind
Datum,Version,URL,Verlinkung zu anderen Ressourcen,Herkunft, Geschichte,Beziehung zu anderen Ressourcen,Urheberrecht...
Im headbereich von HTML-dateien oder in gesonderten Dateien
Wo werden Metadaten gespeichert?
Im Dokument selbst: Buch Autor, HTML-Dokument:
Im zugeordneten Nachschlagwerk
Bei Computern in Dateiattributen
Zur Speicherung und Übertragung von Datenformaten und Datenmodellen werden z.B. Dublin Core... genutzt
Wie werden Metadaten veröffentlicht?
Datenjournale
Nachnutzung, Anerkennung und Veröffentlichung von Forschnungsdaten als wissenschaftliche Leistung
Transparenz von wissenschaftlichen Methoden und Ergebnissen verbessern
Gute Datenmanagementpraktiken unterstützen
Dauerhafter Zugang zum Datensatz
Archivieren
Es gibt ein Data-Curation-Profile zusätzlich
Keine wissenschaftliche Entdeckung muss zu Grunde liegen
Online
Restricted oder open Access
Hauptziel: Datensätze veröffentlichen
Repositorien
Spezielle Form des Archivs
Als verwalteter Speicherort für digitale Objekte verstanden**
meistens öffentlich oder einem eingeschränkten Nutzerkreis zugänglich
Mit Open Access verknüpft.
Wissenschaftliche Fachzeitschriften
Digital und analog
Qualitätssicherung durch Reviewverfahren
Forschnungsdaten meist nicht mit abgedruckt
Wer sind die Akteur*innen?
Informatikerinnen und Programmiererinnen, die Web-Standarts vorschlagen und Suchmaschinen entwickeln (w3c...)
Allgemein Internet-Gemeinschaft: zunächst eher wenig Google nutzt Metadaten zum Ranking Missbrauch heute nutzt so gut wie keine allgemeine Suchmaschine inhaltserschließende Metadaten
Verschieden IPR(Recht am geistigen Eigentum)-Systeme
Metadaten ermöglichen den Abruf von Informationen und sind deshalb selber Handelsobjekte
Metadaten haben einen eigenen IPR
Eindeutige Autoren ID?
Sobald man Namen einführt führt man auch die Mehrdeutigkeit ein
Beispiele
Keyword Systeme
System, welches über Schlagworte sucht
Thesauri
Dokumentationssprache zum Indexieren, Speichern und Finden von Dokumenten
Geeignetes Hilfsmittel zur Sacherschließung und zum Auffinden von Dokumenten
Relationen zwischen den einzelnen Begriffen zum Auffinden bei der Indexierung (Vergabe von Schlagworten) und bei der Recherche
Kontrolliertes Vokabular ( eindeutige Benennungen für jeden Begriff. Unterschiedliche Schreibweisen, Synonyme bzw. als gleichbedeutend behandelte Quasi-Synonyme, Abkürzungen
Übersetzungen etc. werden durch Äquivalenzrelationen miteinander in Beziehung gesetzt
Begriffe werden außerdem durch Assoziationen und hierarchische Relationen vernetzt
Die Relationen ermöglichen es, bei der Indexierung und Recherche passende Benennungen für gesuchte Begriffe zu finden. Bei der Suche können Thesauri durch die automatische Erweiterung der Suchanfrage auf Synonyme und Unterbegriffe hilfreich sein
Zur Begriffsklärung dienen
hat im besten Fall die Funktion einer Normdatei inne
Im Gegensatz zu einer monohierarchischen Tabelle oder Datenbank kann der Thesaurus eine polyhierarchische Struktur besitzen (d. h. ein Unterbegriff kann mehrere Oberbegriffe haben).
Die Thesaurusnormen DIN 1463-1 bzw. das internationale Äquivalent ISO 2788 sehen folgende Relationsarten und dazugehörige Abkürzungen vor
Welche Typen von Metadaten gibt es?
Bibliographische
Administrative
Inhaltsbeschreibende
Fachlich
Informationen zur Verwaltung von Daten
Einzelne Aspekte
Informationen zur Entstehung der Gesamtheit der Daten
Beschreiben den Datensatz genauer
Allgemeine Natur und oft kombiniert
Zusätzliche Informationen zum Datensatz
Unterstützen alle eine YML-Kodierung
Sehr verschieden aufgebaut
Sicht auf Informationswachstum und Bedeutung für die Metadaten
Informationswachstum kann nicht gezähmt werden
Bezeichnung von Informationen hilft
Statistische Informationsgewinnung
Jede relevante Information wird um Daten erweitert, die das Informationsobjekt beschreiben, sogenannte Metadaten
In diesen IR-Techniken wird der Kontext aus Mustern abgeleitet, die die Abfragewörter enthalten. Im Extremfall werden nicht einmal Wörter wie in der mächtigen N-Gram-Technik verwendet
Als Filter (verteilen Infos als Klassen)
.
Meist von hand hinzugefügt
Minus :Mangel an semantischem Wissen, Unfähigkeit, Ironie oder zufällige Verweise zu interpretieren)
Minus:vollständige Vorcodierung durch den Autor einerseits unmöglich zu erreichen ist und andererseits den suchenden Leser davon abhält über unerwartete Beziehungen oder übergreifende Ähnlichkeiten zu stolpern
systematischer Stichwortsysteme versuchen, das Dokument in eine bestimmte Domäne zu kontextualisieren
inhaltliche Aussage,Unklarheiten vor der Veröffentlichung der Arbeit vorweggenommen werden,viel anspruchsvoller, stellt aber sicher, dass der Kontext der Arbeit fundiert ist
Wie schaffe ich es denn, dass die Metadaten gleich sind und auch gleich eingetragen werden?
Standards
Viele verschiedene, weil das Feld sehr breit gefächert ist
Immer den zum eigenen Projekt passenden Standard wählen
Um den Maschinen den Kontext eines Begriffes zu vermitteln, wird auf maschinenlesbare Metadatenstandarts zurückgegriffen
Beispiele Metadatenstandards (bibliographisch)
RDF
Resource Description Framework
Metasprache zur Beschreibung von beliebigen Dingen durch logische Aussagen
Starkes abstraktes Niveau
Grundlegender Baustein: Semantic web
Aufgebaut: Subjekt-Prädikat-Objekt
Stellt SKOS(Kodierung von Dokumentationssprache wie Thesauri)
Mapping von strukturell gelichförmigen Metadaten von einem Standard in einen Anderen
Leicht durchführbar
Beschreibung von Büchern und vergleichbaren anderen medien, Datnesätzen
Wichtig beim Austausch
MARC21
Machine-Readable Cataloging
Weltweit verwendet, um bibliographische Daten zwischen verschiedenen Einrichtungen auszutauschen
Fußt auf Zahlencodes, die für Menschen kaum verständlich sind
METS
Metadate&Ecoding&Transmissio Standard
XML Format zur Beschreibung von digitalen Objekten mit strukturellen und bibliographischen bzw. administrativen Metadaten
Teil der MARC21 Standards
Umfasst 7 Bereiche, in denen die Metadaten strukturiert abgelegt werden:
Kopfteil, Erschließungsangaben, Verwaltungsangaben, Dateiabschnitt, Strukturverknüpfung, Verhalten (Anleitung, wie man konkret abspeichert)
Format kann in verschiedenen Bereichen verschieden sein, deshalb können unterschiedliche Formate, wie Dublin Core, MARC,MODS Verwendung finden
Robuste und flexible Möglichkeit digitale Objekte zu definieren
Von der British Library
Normalisiert Metadaten
Dublin Core, als Akteur*in die Standarts setzt
Beschreibt jede Ressource anhand der Folgender 15 Felder
The spatial or temporal topic of the resource, the spatial applicability of the resource, or the jurisdiction under which the resource is relevant.
Comment:
Spatial topic and spatial applicability may be a named place or a location specified by its geographic coordinates. Temporal topic may be a named period, date, or date range. A jurisdiction may be a named administrative entity or a geographic place to which the resource applies. Recommended best practice is to use a controlled vocabulary such as the Thesaurus of Geographic Names [TGN]. Where appropriate, named places or time periods can be used in preference to numeric identifiers such as sets of coordinates or date ranges.
Verscheidene Software-Repositories, Softwaresprachen, wissenschaftliche Domänen kennzeichnen Informationen unterschiedlich Informationen gehen beim Wechseln von Quellen verloren
Beispiel, was gut funktioniert:
GitHUb und figshare
Software auf dem ersteren in das persistente Archiv des letzteren zu importieren
Dabei eine permanente Kennung(DOI) zu erhalten
DOI zuweisen braucht figshare Metadaten über das Objekt und übergibt an DataCite (zentralen DOI-Provider für alle Repositories)
Dies macht DataCite zwar zu einem leistungsfähigen Aggregator
Aber das Fehlen einer Crosswalk-Tabelle bedeutet, dass auf dem Weg viele wertvolle Metadaten verloren gehen (die ursprüngliche Softwarelizenz, die Plattform...)
Jedes Werkzeug oder jeder Ansatz, der über Software-Repositories hinweg arbeitet, sieht sich ähnlichen Herausforderungen gegenüber, ohne dass zwischen ihnen eine Zebrastreifen-Tabelle ausgetauscht werden muss
CodeMeta-Datei
Bei Software-Repositorys,Software-Registrys, Archiven
CodeMeta-Instanzdatei
Beschreibt die Metadaten, die mit einem Softwareobjekt verknüpft sind
Das Softwareobjekt verwendet die JSON-Datenverknüpfungsdaten
Jedes CodeMeta-Dokumenr muss sich auf die codemeta.jsonld beziehen
Alle begriffe sollen im Kontext von CodeMEta interpretiert werden
Kontextdatei kann geändert und aktualisiert werden ( Bei Änderung der JSON-Eigenschaften)
Beispiel einer CodeMeta-Datei https://github.com/codemeta/codemeta/blob/master/examples/codemeta.json
@cboettig
DataCite
Internationales Konsortium mit Ziel einen einfachen Zugang zu wissenschaftlichen Forschungsdaten zu ermöglichen
Akzeptanz von Forschnugsdaten erhöhen
Zitierfähige Beiträge erhöhen
Archivierung unterstützen
Transparenz und nachhaltige Nutzung fördern
Gemeinsame Datennutzung
Zugang zu Forschnungsdaten
Verbesserter Schutz von Forschnungsinvestitionen
Weltweit
2009 als Verein von Einrichtungen aus 6 Ländern gegründet(British Lybrary,Technical Information Center of Denmark, Bibliothek der TU Delft, national Research Council, Canada Institude for Scientific and Techniccal Information, CalifornialDigital Library, Purdue University, technische Informationsbibliothek Hannover
Viel Zulauf
Betreibt auch re3data
Technik von DataCiete
Mitglieder bekommen DOI
In kooperation mit datenzentren(Qualitätssicherung, Pflege, Speicherung der Inhalte)
Dachverband der DOI-vergabestelle
Metadatenschema ist eine Liste von Metadaten-kernelementen mit Nutzungsempfehlungen
Kernelemente ermöglichen eine korrekte und einheitliche Identifikation der daten für: Zitierung und Abfragezweck
Pflichtelemente, die man bei der Registrierung für ein DOI
Optionale Metadatenelemente zur genauen Identifikation
Empfehlung eines Standartformats für zitation
Bereitstellung einer Basis für Interoperabilität mit anderen Datenbankmanagement schemata
Unterstützung beim Auffinden von Daten mit optionalen Elementen, die die flexible Beschreibungen einer Quelle zulassen, und deren Beziehungen zu anderen Objekt herausstellen kann
Die Grundsteinlegung für zukünftige Services (z.B. Auffinden von Daten) durch die Nutzung von kontrollierten Vokabularen aus dem DataCite Schema oder externen Schemata
Die kontrollierten Vokubulare werden durch den DataCite Metadata Supervisor verwaltet
Nutzer können Anmerkungen machen
Die Metadata Working Group erarbeitete außerdem noch zwei Maßnahmen zur Erhöhung der Kompatibilität und Ausbaufähigkeit des Schemas in der Zukunft. Die Erste ist eine zweite Version des Schemas im Dublin Core Format. Zweitens findet die Datenpflege der Pflichtelemente in vom Gesamtschema getrennten Dateien statt. Diese Vorgehensweise erhöht nicht nur die Benutzerfreundlichkeit, sondern verbessert auch den Austausch mit der Wissenschaftsgemeinschaft
Was ist beim Teilen von Daten zu beachten?
Passt das Repositorium oder das Datenjournal zur Fachdisziplin?
Sind die Daten langfristig verfügbar?
Wie sieht es mit den Datenformaten aus?
Was gibt es für Metadatenstandarts?
Wie sieht es mit dem Datenschutz aus?
Wie mit dem Urheberrecht?
Sind Forschungsdaten durch fachspezifische Suchdienste dort auffindbar?
Open Access durch die Entwicklung von Interoperabilitätsstandarts fördern
Austausch zwischen Repositories erleichtern
Alle Dienstleider, die ermöglichen gesammelte Metadate zu nutzen(GoogleScholar,soziale Netzwerke...)
DOJAR,ROAR sind Verzeichnisse, die diese Open-Access-Repositories auflisten
Kostenloser und möglichst barrierefreier Zugang zu digitalen wissenschaftlichen Inhalten
Umfangreiche Nutzungsrechte und einfache Zugangswege ermöglicht
Die Urheberschaft verbleibt dabei in der Hand des Urhebers
Wissenschaftliche Informationen maximal verbreitet, genutzt und weiterverarbeitet werden
Open Data
Gewinnt an Dynamik
Ändert die Forschungsweise
Forschung über gleiche Daten durchführen
Implementierung kollaborativer Arbeiten
Zugang zu wissenschaftlichen Daten wird vereinfacht
Transparenz im wissenschaftlichen Forschnungsprozess wird stark gefördert
Semantic Web
Bemühungen das World Wide Web zu systematisieren, damit der maschinelle Austausch von Computern leichter und einfacher verwertbar wird. Mit
Mit Metadaten, kontextualisiert (sodass dadurch bspw. klar wird, ob es sich bei ‚Berlin‘ um die Hauptstadt Deutschlands, eine andere Stadt oder einen Namen handelt)
Stellt die Praktiken und Standarts dar, deren Zweck es ist die Ausgangsdten mit semantischen Metadaten anzureichern, um Daten zu erzeugen, die für neue Anwendungen besser geeignet sind
re3data
Diziplinübergreifendes, internationales Verzeichnis von Forschnungsdaten-Repositorien
Mapping
Prozeß der Überführung von Daten(elementen) von einem Datenmodell in ein Anderes
Erste Schritt zur Integration von fremden Informationen in ein eigenes Informationssystem
Es umfaßt die Datentransformation während eines elektronischen Datenaustauschs, für den sehr häufig die Auszeichnungssprache XML und das Datenformat JSON verwendet werden
Best Practice
Bereits erprobte und bewährte Methode zum Ablauf eines Arbeitsprozesses
Durch Erfahrung und Forschung als zuverlässig erwiesen
Verwendung von jeglichem verfügbaren Wissen und Technologien, um eine erfolgreiche Durchführung zu garantieren.
Im Bereich des Forschungsdatenmanagement werden mit diesem Begriff die Standards bezeichnet, durch die qualitativ hochwertige Aufzeichungen geschaffen werden können. Hierbei handelt es sich meist um Metadatenstandarts
Digital object identifier (DOI)
Systeme zur persistente Identifikation digitaler Dokumente
Bleibt über die gesamte Lebensdauer eines bezeichneten Objekts gleich
Von der International DOI Foundation gemanaget
Ein weiteres bekanntes System zur persistenten Identifikation ist der Uniform Resource Name (URN)
Bestehd aus Ziffern und/oder alphanumerischen Zeichen, welcher einem Datensatz (oder einem anderen digitalen Objekt) zugeordnet wird und direkt auf diesen verweist
Häufig verwendete Identifikator-Systeme sind DOI (Digital Object Identifiers) und URN (Uniform Resource Names).
Verweist auf das Objekt selbst und nicht auf seinen Standort im Internet
Ändert sich der Standort bleibt der Identifikator derselbe
Muss lediglich in der Identifikator-Datenbank der URL-Standort geändert oder ergänzt werden
So wird sichergestellt, dass ein Datensatz dauerhaft auffindbar, abrufbar und zitierbar bleibt
Quellen
Allgemeines über Metadaten
Metadaten Themen: Zweck, Unterscheidung, Beispiele für Standards