Singular input in DH Antonio Zampolli Prize
Collaboration clef dans tout ce que nous faisons, et particulièrement TEI communié. 30e anniversaire du 1er meeting au Vassar College. Zampolli lui-même un early adopter. Vibrante communauté d’humanistes, de codeurs, etc.
Arrivé à un moment jonction dans les DH. Première reconnaissance du fait que ce que nous faisons est fondamentalement différent de ce que nous faisions dans nos disciplines d’origines. Que besoins différents. TEI reconnaissance de ces besoins.
Représentants de la communauté. Ide, McQueen original editor, Lou Burnard premier éditeur européen.
Une communication en trois partie. Essayer de réponde à la question de savoir d‘pù vient et pourquoi encore ici.
Ma partie context et rationnel. Toujours au Vassar College. Why the TEI started, comment et quels problèmes essayait de résoudre. 30 ans très différents, partie non négligeable de cette audience probablement pas encore née. Mais vous donner un sens de ce que pouvait être à l’époque.
Vocabulary, authorship, stylistic studies...
Plusieurs logiciels pour aider les humanistes, concordances, outils pour créer des listes de fréquence, et autres traitement statistique des mots dans les textes.
Encoding practices : Ces morceaux de logiciels parfois nécessitait ajout information sur le texte. Mais nombreux problèmes pour représentation de certains caractères et pb de représentation des choses que voulaient traiter les chercheurs. Multiples manières de faire cela.
Formats de citation, inclure forme abrégée au début de chaque ligne.
Exemple format COCOA qui encode référence dans des balises embarquées dans le texte. Alors très fortement influencé par les capacités des logiciels et des ordinateurs de l’époque.
Input/output formats ont variés considérablement depuis. Le problème souvent c‘est qu’avec conversion perdait information. Les gens perdaient beaucoup de temps à chercher à résoudre ce genre de choses. Le travail d’édition nécessitait opérations fastidieuses. Un chaos.
Earcly attempts pour stardiner
1967 Martin Kay argumente en faveur d’un "standard code in which any text received from an outside source can be assumed to be"
Autre meeting 70 et 80 mais rien arrivé, San Diego 1977, Pisa 1980.
Pas de consensus sur la possibilité et la manière dont serait possible de parvenir à un standard.
1986-87 discussions encore en cours. Lors d’une ICCH 1987 International Conference of Computing and Humanities (Univ South Carolina). Nancy Ile et Michael Spergerg-McQueen, financement fonds urgence pour organiser un workshop pour discuter de la question.
32 personnes du monde entier venus, représentant des archives textuelles de l’époque, chercheurs du humanities computing centers mais aussi linguistique, et aussi romanisations professionnelleS.
- organisation ACH, ALLC originally
- etc.
Glitch in the Plan, huge Snowstorm in NY on 11 nov 1987. Voyages depuis aéroport pour Poughkeepsie très difficile. Zampolli convaincu alors un conducteur de bus de conduire tout le monde.
Voici la Photo.
Workshop de deux jours de discussions intenses pour parvenir à un consensus commun sur
-
besoin s de pratique commune
-
ensemble de principes pour guider le développement des guidelines
les principes de Poughkeepie
Motivating background. Hardware constrains avaient beaucoup d‘impact sur les choix d’encodage.
Les logiciels existants pouvaient être difficile pour les non spécialiste à utiliser et installer.
Documentation et métadonnées le plus souvent inexistant.
Notion de séparation prescriptive/descriptive
Principes résultant
- provide descriptive rather than prescriptive markup
- means for in-document metadoat
- representing the requiered/desired information, appart of software
Pensait que le schéma devait être à la fois clair, et facile à employer pour les personnes sans besoin d’un logiciel particulier.
mais dans le même temps permettre une définition rigoureuse d’en quoi consiste le processing d’un texte.
Les principes de Poughkeepsie reflète les inquiétudes de représentations des archives.
Une des principales décisions que suggéreraient seulement des encodages mais recommandation et non pas un standard.
Fournir un std pour échange de données dans la recherche en science humaines et que ne requiert pas conformance localement. TEI schéma servirait comme format pivot.
Autre chose que les guidelines devrait recommander syntaxe pour le format sans décision in Poughkeepsie sur la syntaxe exacte. À l’époque pas évident SGML même si beaucoup recommandait.
Nota Bene ! par une recommandation de syntaxe signifie un format physique mais aussi une sémantique (la signification des étiquette)
SGML fournissait seulement des règles syntactiques.
Principes résultants guidelines incluerait seulement ensemble de requirements et conventions pour encodage de nouveaux textes dans le format.
Polytheoricity peu d’unaminité sur les aspects à encoder pour un phénomène donné. Préserver autonomie intellectuelle des chercheurs tout en fournissant indication pour éviter trop de variation. Recommandation DTD.
Un principe pas rempli, définir un métalangage pour la description de schèmes d’encodage (incluant la sémantique) et décrire le nouveau format et les schémas représentants existants dans ce métalangue.
- Pas arrivé car anxiété autre schéma
- ...
- pas encore eu besoin de le faire
Steering committee composé de deux représentants de chaque organisations ACH ALLC ACL
2000 consortium.
Pourquoi succédé ce temps.
- meilleure connaissance sur les pb encodage et principes de base que dans le passé
- workshop incluait une représentation des organisation clefs
- SGML au fournissait le bon outil, pour un scheme encodage simple flexible.
Zampiolli champion the TEI !! Sans doute un élément clef dans ce succès.
Réflexion : rétrospectivement intéressant et surprise de la manière dont nb questions fondamentales adressées par la TEI
- TEI comme pivot interfrange format
- attempt to handle polytehoreticity
- inclusion des info biblio et description
La tentative la plus étendue de fournir une sémantique pour des formats d’encodage. Toujours un obstacle majeur pour encodage.
La taille la portée et l’influence de la TEI excède tout ce que tous les participants du meeting Poughkeepsie jamais imaginé.
How did we attempted to solve this pb. Essayer de comprendre rétrospectivement ce que signifiait pour moi d’être partie prenante des choix de conception du début.
Choix utiliser descriptive markup suppose que les documents ont une structure et qu’elle mérite d’être extraite pour être professée de cette manière. Rendre cette structure disponible pour le logiciel. Ne pas se demander ce que le programme peut faire avec mais ce que c’est.
Fournir des grammaires des données qui peuvent contraindre et valider les documents. Suffisamment d’expérience de documents vérolé que utile. Et possibilité de parser la structure qui fournit un arbre et que puisse adresser une partie spécifique de cet arbre.
Choix de SGML un std international, définit un format de données, pas lié à un programme donné. Indépendant des vendeurs, pas fermé. SGML définit la syntaxe des markup mais la responsabilité des utilisateurs de définir la disponibilité des éléments et leur signification. La plupart des documents manquaient de ça. Pas de compétiteur, et formellement jusqu’aujourd’hui pas dépassé.
pourquoi par métadonnées externe ? car souvent perdu, toujours perdues. Pour des raisons pratiques. Expérience Oxfeort text archive and on help desks. LEaron from Osirir et ICPSR ! apprendre des incunables ou les métadonnées dans le livre.
Over-generate in preference to undergenerating
grammaires deux manière err
- ne réussissent pas à inclure ce que devrait inclure (undergeneration)
- ou trop restrictive ou trop lâches overgeneration
Si overgeneration affaiblit la validation et l’assurance de qualité. Undergeneration requiert victimes pour étendre les schema.
Allow modification, require documentation
dès le départ construit possibilité de modification dans la TEI. Prémises de SGML/XML pas un seul langage de balisage suffisant pour tout le monde. Les usagers qui définissent leur propre règles.
La même chose peut être appliquée avec le travail académique pour la TEI et ses utilisateurs.
Dès le début accepté impossibilité de notre objectif de fournir un langage qui fonctionnerait pour tout le monde. Bien sur une dimension politique ici. Une manière de contrer les préoccupations des archives qui avaient passé des années à construire des collections des données.
P4 première version complète. Conçue de sorte que garantisse rien, tout pouvait être redéfini. Seule contrainte avoir un header, avec un titre par forcément renseigné car besoin rétroconversion. Mais vous rendre déçu de ne pas l’avoir renseigné.
Tous les changements devant être documentés avec un Tag Set Déclaration de sorte que les personnalisations aient le même niveau de documentation que la TEI nature.
En cour cherche maximiser interllectual self-determination, reusability / compréhensibilité pour utilisateurs plus tardifs, ne pas faire de l’interopérabilité plug and play.
Frustrant bien sur mais la responsabilité de l’encodage de dire la vérité comme vous l’entendez.
TEI peut être compris comme un gouvernement secrets.
Structure des guidelines comme un noyau et des modules optionnels.
Base plus mix-in, choice of basic, etc. pizza
Utilisation de Open-standard quand possible. SGML, puis XML, puis Unicode, URI
inventé beaucoup de choses ensuite retiré car ensuite servi au dev de nombreux choses par exemple extended pointer notation maintenant XPointer, writing system declaration aujourd’hui g element en unicode.
TEI blind interchange format pour rendre parsing plus simple que parsing SGML, aujourd’hui remplacé par XML.
Tag sed documentation aujourd’hui dans le folder into TEI proper
Aussi ouverture du mode de travail. Nouveau à l’époque.
Exploiter la structure des documents
Afin de réduire le nombre de distinctions pour les subdivisions. En TEI une seule div, un seul titre. Utilisation de la structure du document. Peut déterminer les chapitres, les titre ste sstitres en examinant la structure des documents. XML facilité pour traitement des fichiers avec XSLT explique facile à traiter.
Fournir un format de données et non pas un logiciel.
Si avait définit un logiciel au lieu d’un format, n’aurait pas été accepté comme un format générique pour les données. Les formats vivent plus longtemps que les logiciels.
Aujourd’hui ferait sans doute les même choix de la même manière. Peut-être que ne paraissent pas tous aussi beaux aujourd’hui mais pas les mêmes coûts bénéfices à l’époque.
Revenir sur l’histoire et répondre aux questions que pourriez vous poser vous même.
Une longue histoire, résumer les événement clefs sur cette slide
1988 90 déev cycle 1, financement minimum mais fortement supporté. Alors diffusion comme une maladie à travers les institutions.
90-92 plus de financement pour développement cycle 2 p2. Encore plus argent P3, etc.
P5 2003
Une question qui doit être posée. TEI créée il y a très longtemps. En 1987 ! plus vieux que le web, le DVD le téléphone mobile, etc. Technologies qui survivent si longtemps relativement rares. Pourquoi.
Texts’r us
quelque soit votre définition des dh , texte dans son sens complet est complètement significatif. Lorsque encode des textes encode nos lectures. Le boulot de base de la TEI, raison pour laquelle important pour nous.
Scholarly communities, arrive d’une coincidence inhabituelle d’intérêts parmi
- les académiques insterstés dans la stylistiques, théorie des ensembles, etc.
- pourquoi mis ensemble. Sans doute car le moment du digital turn, conversion ensemble des données numériques et mis ces personnes ensembles.
Le digital demotic
difficile de se souvenir à quel point les choses étaient fragmentées et sous-estimer risques incompréhension.
TEI sans doute premier majeur grand effort interdisciplinaire de cette époque. Les membres des comités venaitent de nombreuses spécialisations ayant peu en commun. Explique certain trait de dev.
La rasoir d’Hockam : ne doit pas multiplier les entités au-delà de la nécessité. Ce qui suppose de savoir ce que la nécessité signifie. Quelqu'un qui réclame bleu, rouge. Dire que une couleur
En réduisant le nombre de concept dans la TEI, choix de concepts génériques plutôt que spécifiques et dans le même temps des variations distinctes pour la spécialisation.
Deuxième aspect la personnalité. TEI vous donne un code logo pour la construction. Mais doit rester compréhensible par d’autres ou d’autres systèmes.
from ICAME Journal, 1992, première représentation de la TEI comme architecture.
Le web n‘existait pas. Mais disait rien des bdd, des logiciels, etc. La mise en page scribe et tex, etc.
Text and data, en dépit de son nom, pas seulement conçu pour le texte. Informations bibliographiques, transcription du texte oral, linguistique abstraite des objets et événements (terrain bdd).
TEI se focalise sur les métadonnées , le texte structuré, le texte et son analyse dans un paradigme linguistique et littéraire.
Donnait une fondation solide pour ce qui suit.
P3 première version définitive.
P4 première version XML
Et P5 ! sur du papier plus fin. 15% plus
n'imprime plus serait stupide, pas viable économique.
Pourquoi toujours important de s’occuper de la TEI
pourquoi toujours important
Emy Thomson talks sur les stds, deux raisons pour lesquelles échouent
- soit basés sur des théories non matures
- soit toutes les caractéristiques mais les personnes pas intéressées (not invented here)
Longitivité de la TEI que a adressé ces concepts. La raison fondamentale à cela que la TEI est adaptable. Elle répond à l’environnement dans lequel est utilisée.
Comment la TEI se présentait, comment se voit elle même. Projet vs communauté. Politiquement comme si une organisation centralisée avec ensemble des inputs, etc. nourrir boite. Sans doute manière dont construit projet de recherche.
Mais pas le modèle que vous voyez à droite, une grande chose nébuleuse dont les frontières pas claire. La communauté de la TEI, les gens qui font des choses. Liste des membres du Consortium, mais aussi les autres eux qui produisent le travail.
Dans le consortium gens qui fournissent support institutionnel pour activité du TEI council et le Board. Le Council en position de répondre à des RFP qui proviennent de l’ensemble de la communauté. En conséquence régulières mises à jour des guidelines.
Passer d’un projet financé à une infrastructure maintenue par la communauté. Un des changements les plus importants qui soit survenu et explique pourquoi survécu.
Personnalisation pas seulement une question de choix. Peut ajouter des choses nouvelles, modifier l’existant de manière étendue.
Comme risque not invented here, essayer d’accomoder manière de penser le monde. Un environnement XML donc ouvert à d’autres vocabulaires.
Les TEI commandments
- Thou … plutôt rendre claire et explicite ce qui est TEI et ce qui n’en est pas.
- Honorer le consensus qui réside sur ce territoire
- ...
Le TEI ethos, qu’est-ce que signifie être conforme à la TEI. Si la TEI permet changer ce que voulez, etc. Comment dire que c’est un document TEI. Documented tagging praxis, respect lexique idées et concepts sur le texte. En même temps, respect pour encodage indépendant et autonomie.
Standardisation ne signifie pas fait ce que je dit, mais plutôt dit moi ce que tu fais. Une grande différence.
Aujourd’hui un document well formed. Peut-être un jour autrement. Comme tel un document XML conforme, aussi validé, selon sous-ensemble de la TEI ou une extension. Si utilise ses éléments de l’espace de nom TEI alors respecte définition des guidelines. Son utilisation doit être documentée.
Darwinian evolution works… if you participate
faire ses modifications, les documenter correctement, discuter les propositions, faire des feature request, proposer des corrections quand nécessaire, nouvelles versions de la TEI trois fois par an.
Besoin un peu argent.
Quelle est la vraie raison pourquoi toujours là, car vous voulez en être. Dès lors qu’utilie pour ce que vous voulez faire. Dès lors le produit d‘une communauté.
NEH
Trois organisations cosponsors de la TEI. ACL un meeting la semaine dernière au Canada. Sans doute quitté nous donner des perspectives. Dan Waker une personne très inclusive, engagé la ACL, mais franchement la communauté linguistique comme un tout jamais vraiment embarqué. Membre de ACL community, mais aujourd’hui là-bas rien qui ne reflète la TEI. Mais beaucoup de choses très lourdement influencée par la TEI.
Zampolli membre des deux groupes; Raison pour laquelle deux prix Zampolli dans les deux communautés. Alors dans les deux camps. Peu de gens aussi fortement que lui.
Lou I don’t know, it’s up to you guys come on !
Quelques années argument sur le fait d’inclure ou pas informations sur les personnes etc. Car un text encoding initiative. Mais parler que du texte. Mais en pratique besoin des deux. Idem avec MEI magnifique et limité à la musique. Moyen de mettre le texte et la musique ensemble.
Souvent dit que TEI aidé à construire XML. Est-ce vrai ? est-ce utile ?
Vrai de plusieurs façons, sans la TEI n’aurait pas été invité à parler à la conférence lors de laquelle connu par John Bosniak qui m’a fait entrer au comité. Nombre fixe de 11 personnes. Or déjà 11 personnes. Quelqu’un renoncé et entré dans le groupe.
Bien sûr l’expérience de digital humanist marchait bien. Pb encodages, etc. Savoir si utile.
Question de la relation à la sémantique. Ontologie. Comment s’engager dans la pensée ontologique. Pensez-vous qu’il y a des barrières conceptuelles ou que possible de rejoindre cela dans le futur.
Pense que pas le cas mais que devrait l’être. Beaucoup de choses dans la TEI et nb de personnes définissant choses et ne regardent pas la TEI, sans doute beaucoup de choses que pourraient prendre. Il faudrait que quelqu’un d’un de ces côtés là passe de l’autre.
McQueen pense que pas de barrières de l’ordre de celles que vous mentionnez. Parfois pourrait penser, et facteurs compliquant qui rendent difficile de voir la continuité. Un des facteurs, tellement de travail sur le web sémantique a fonctionné avec le fait que… la TEI à propos de texte et allé vers encoder des personnes et pas que des noms de personnes. Gens du W3C intéressés par les entités dans le monde réel et appréciations sur les structures textuelles. Peu d’espace dans leur notion de ce que veulent faire pour garder trace des variations textuelles ou les variations formelles. Et ce genre de pb. Si veut encode l’information disons d’un sonnet en RDF, auriez un énorme document qui ne serait pas gérable. Je suis sûr que gens du web sémantique dirait, qu’est-ce que ces informations, qu’est-ce que l’on s’en fout ?
En raison de la multithéoricity, TEI a essayé de dire vous utilisez la TEI quand vous pensez que c’est un paragraphe. Mais la TEI ne vous dit pas ce que devrait être un paragraphe. Fondamentalement fonctionne chez gens qui s’entendent sur ce qu’est un paragraphe mais plus difficile pour les approches constructivistes !
Lou, sous-estime que tout cela a à voir avec les gens, les groupes, la production académique construction sociales. Bien sûr des écarts et une barrière. Mais des organisation.