Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Accès et les licences utilisées #18

Open
Thesauruv opened this issue Nov 16, 2023 · 17 comments
Open

Accès et les licences utilisées #18

Thesauruv opened this issue Nov 16, 2023 · 17 comments
Assignees

Comments

@Thesauruv
Copy link
Collaborator

Thesauruv commented Nov 16, 2023

User story

Je suis
Un gestionnaire de catalogue.
Un administrateur ministériel des données.

Je veux
En tant que gestionnaire, j'ai un rôle de coordination. Je souhaite apprécier mon patrimoine de l'ouverture des données et conditions de réutilisations. Je souhaite pouvoir évaluer la qualité de mon patrimoine et en promouvoir l'amélioration :

  • à partir d'indicateurs et/ou de visualisations basés sur les métadonnées,
  • en identifiant les jeux de données dont les métadonnées gagneraient à être complétées, actualisées, consolidées, etc.

Je peux
[Distinguer mes jeux de données]
Connaître le nombre de jeux de données en accès ouverts et ceux en accès ouverts.

Besoins associés (du plus au moins évident)

33- Identifier les données ouvertes
12- Connaître le nombre de jeux de données ouvertes sur une thématique

Implémentation

[À discuter dans le ticket]

Ce ticket donnera surement lieu à plusieurs visualisations ou indicateurs. Voici quelques propositions :

  • un histogramme à deux barres : Données ouvertes et données restreintes
  • un histogramme par licences attribuées aux jeux de données
  • une table de jeux de données filtrables, avec le statut ouvert ou restreint

Métadonnées utilisées

[À discuter dans le ticket]

Remarques

Après première production de l'indicateur

Comment l'indicateur en l'état répond aux besoins ?

L’indicateur permet d’identifier la proportion de données ouvertes sur un périmètre (le catalogue Ecosphères dans son ensemble ou filtré). Aussi, il permet de comprendre la répartition des licences.

La répartition des licences est une information très importante pour les gestionnaires de catalogue.

Comment pourrait-il être amélioré ? (préconisations)

Aujourd'hui, Ecosphères contient peu de métadonnées sur des jeux de données à accès restreints. Néanmoins, il sera permis d’ajouter des URL vers des catalogues de données non ouverts dans les bouquets de données. L’indicateur est donc pertinent à maintenir et pourra être enrichi à ce titre.

Les licences sont indispensables pour assurer les réutilisateurs et favoriser la circulation des données. Les jeux de données ouverts, mais sans licence, sont des cibles de choix pour améliorer le remplissage de la métadonnée “licence”. À terme, l’ensemble des jeux de données publiques ouvertes ont vocation à l’être sous une licence homologuée par la loi pour une République Numérique (voir l’explication sur le site data.gouv.fr).

@clementmandron
Copy link
Collaborator

@qloridant feu vert aussi ! Le ticket laisse le choix, on peut en discuter si tu veux

@qloridant
Copy link
Collaborator

qloridant commented Nov 27, 2023

@clementmandron si t'as un moment demain matin, on peut, sinon je le fais seul.
La donnée license est désormais visible dans le tableau brut

@qloridant
Copy link
Collaborator

@Thesauruv @johanricher @clementmandron
J'ai groupé les jeux de données par licenses. Le résultat est visible ici.
Au vu du résultat, je n'ai pas l'impression que cette méta-donnée soit intéressante.
Est-ce que je rate qqchose ?

@clementmandron
Copy link
Collaborator

@qloridant merci !
Effectivement, je ne comprends pas tout, arrives-tu à voir à quoi correspondent ces identifiants par exemple "N047c2a2d64f94b5ea6e3a638ccf6cb62" ?

Je n'ai pas pu en voir dans le json test de l'exposition DCAT dans le github

Si c'est un identifiant vers une autre licence, je pense on devrait faire un histogramme avec trois ou quatres barres :

  1. Licence ouverte 2.0
  2. Licence ODBL
  3. Licence non-resnseignée
  4. Autre (les ids)

Si les ids ne sont pas d'autres licences, mettre les ids dans "licence non-reseignée"

@clementmandron
Copy link
Collaborator

Le but final serait de différencier les jeux de données en open data et ceux en accès restreints, mais je ne sais pas sur quelle métadonnée on pourrait se baser, une idée @Thesauruv peut-être ?

Dans tous les cas, l'histogramme de répartition par licences (ci-dessus) est une première base de discussion

@qloridant
Copy link
Collaborator

Je vais creuser pour les identifiants, mais dans tous les cas ils représentent une portion très très négligeable.
Vu la distribution, L'histogramme ne va pas faire apparaître grand chose...

@clementmandron
Copy link
Collaborator

Merci !
Attendons la réponse de Vincent sur le sujet ouvert/restreint alors

Oui pas faux, mais même si l'histogramme ne dit pas grand-chose il pourra faire régir lors des entretiens usagers et nous aidera pour les recommandations

@qloridant
Copy link
Collaborator

L'autre champ a exploré est la liste dcat "Access Rights" qui renvoie vers des objets RightsStatements.

C'est ce champ qui va remplir le champ 'Contraintes Légales' visible par ex sur cette page

@Thesauruv
Copy link
Collaborator Author

@qloridant merci pour le première implémentation sur la licence !

Concernant la prépondérance de la licence etalab-2.0, effectivement c'est une information peu discriminante sur ces deux catalogues, mais on peut s'attendre à une diversification des licences utilisées avec la diversification des catalogues en entrée, comme on peut le voir dans les données sur data.gouv.

@Thesauruv
Copy link
Collaborator Author

Thesauruv commented Nov 28, 2023

Je note dans le schéma de Leslie que la propriété licence apparaît "hors champs DCAT" (voir schéma). Il nous faut être prudent sur ces propriétés, cela signifie qu'elles ne seront très certainement pas exposées de la même manière dans une autre exposition DCAT.

Je reviens sur la nécessité pour chaque graphe de documenter la métadonnées utilisée et un lien vers la définition, ce qui permettrait notamment d'identifier des écarts par rapport à GeoDCAT-AP.

@Thesauruv
Copy link
Collaborator Author

Thesauruv commented Nov 28, 2023

Pour ce qui est de l'identification des données à accès restreint, la métadonnée descriptive dct:accessRights -> dct:RightsStatement me semble la plus adaptée. A ce stade, il est très probable que la métadonnée ne soit pas discriminante : sur les ~25000 jeux de données moissonnés, j'en avais relevé moins d'une 50aines en accès restreint à partir des patterns référencés dans la liste pattern_restricted_access, dans le notebook 08_access_rights.ipynb

Bien que peu discriminante à ce jour, cette information reste pertinente à présenter.

@Thesauruv
Copy link
Collaborator Author

@clementmandron attention, les IDs du type "N047c2a2d64f94b5ea6e3a638ccf6cb62" que tu trouves dans le fichier .json sont des nœuds anonymes qui renvoient vers des sous propriétés.

@Thesauruv
Copy link
Collaborator Author

Sur cette fiche métadonnée du catalogue GeoIDE, le caractère ouvert de la donnée apparaît notamment dans les mots clés.

@clementmandron
Copy link
Collaborator

@qloridant même souci apparemment ici

Image

@qloridant
Copy link
Collaborator

Corrigé

@clementmandron
Copy link
Collaborator

Retirer l'histogramme licence et ajouter 4 big numbers.
Pourcentage de :

  • licences Etalab
  • licences Odbl
  • licences autres
  • par de licence renseignée

@qloridant

@qloridant
Copy link
Collaborator

qloridant commented Dec 8, 2023

Done.

L'indicateur : autre licenses affiche "Pas de données" car il n'y a pas d'autres licenses.
Est-ce que vous préférez le garder pour anticiper la suite ou le supprimer pour la lisibilité ?

@clementmandron clementmandron changed the title Conditions de réutilisations : licences, caractère ouvert/restreint Accès et les licences utilisées Dec 12, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants