Skip to content

Geo-Daten für Texte des Deutschen Textarchivs (DTA)

Notifications You must be signed in to change notification settings

AndreasBlombach/dta_geo

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 

Repository files navigation

Geo-Daten für Texte des Deutschen Textarchivs (DTA)

Die vorliegende Excel-Tabelle wurde von Bettina Lindner-Bornemann und mir erstellt; sie enthält Geoinformationen und weitere Metadaten zu den im DTA (samt DTA-Erweiterungen) gesammelten Werken. Ursprünglich angelegt wurde sie für unser Projekt zum possessiven Dativ, kann jedoch für beliebige diatopische Untersuchungen auf DTA-Basis verwendet werden.

Datenquellen

Die Basisdaten stammen aus einer DTA-Abfrage über die Kaskade-Oberfläche:

count(* #sep) #by[basename, dtaid, textClass, collection, flags, firstDate, author, title]

Weitere Spalten wurden von uns hinzugefügt. Nach der Extraktion der IDs der Gemeinsamen Normdatei (GND) konnten wir über die Culturegraph-API weitere Autorenmetadaten sammeln, insbesondere Geburtsorte und deren Längen- und Breitengrade. Fehlende Informationen wurden in einem langwierigen Prozess manuell ergänzt (mit Informationen aus Wikipedia, Pfarrbüchern, Adelsstammbüchern, Universitätsmatrikeln usw.). Einige Informationen, die automatisch gewonnen wurden, haben wir zudem korrigiert.

Spalten-Übersicht

Aus dem DTA übernommene Daten

  • tokens: Anzahl der Tokens im Dokument
  • basename: Name des Dokuments (eindeutiger Identifikator) im DTA (wird auch in URLs der DTA-Website verwendet -- so ist bei https://www.deutschestextarchiv.de/book/show/bohse_helicon01_1703 der Dokumentname bohse_helicon01_1703)
  • dtaid: alternative eindeutige ID im DTA
  • textClass: Textklassifikation; Unterklassen folgen auf doppelte Doppelpunkte, z.B. Gebrauchsliteratur::Leichenpredigt
  • collection: Angabe, ob das Dokument im DTA-Kernkorpus (dtak) oder im Erweiterungskorpus (dtae) enthalten ist
  • subcorpus: Angabe zum Subkorpus, aus dem das Dokument stammt, z.B. ready::blumenbach für "Johann Friedrich Blumenbach – online"; vgl. Übersicht beim DTA
  • year: Jahr des ersten Erscheinens
  • author: Autorenangabe im DTA
  • title: Titel des Werks

Weitere Spalten

  • author_id: GND-ID laut DTA (für Korrekturen unsererseits siehe Spalte dnb_id)
  • name: vollständiger Name
  • surname: Nachname
  • forename: Vorname
  • gender: Geschlecht
  • place_of_birth: Geburtsort (primär); in einigen Fällen ist hier auch bloß ein Wirkungsort angegeben, was dann aber in einem Kommentar vermerkt ist; im Falle von Zeitungen u.ä. der Erscheinungsort
  • translation: nur im Falle alter Übersetzungen: Erscheinungsort der Übersetzung (nur wenn keine Informationen zum Übersetzer vorliegen)
  • longitude: Längengrad unserer Ortszuordnung (WGS 84)
  • latitude: Breitengrad (WGS 84)
  • dnb_id: korrekte GND-ID (nur wenn author_id nicht stimmt oder obsolet geworden ist)
  • comment: Kommentar zu unserer Recherche
  • coords_birth: Wahrheitswert: beziehen sich die eingetragenen Koordinaten auf einen tatsächlichen Geburtsort des angegebenen Autors oder nicht (im Falle von Wirkungsorten, Erscheinungsorten, Übersetzungen oder Geburtsorten von Übersetzern) -- als Filtermöglichkeit intendiert

About

Geo-Daten für Texte des Deutschen Textarchivs (DTA)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published