Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Profil du catalogue Ecosphères #13

Closed
johanricher opened this issue Nov 2, 2023 · 2 comments
Closed

Profil du catalogue Ecosphères #13

johanricher opened this issue Nov 2, 2023 · 2 comments
Assignees

Comments

@johanricher
Copy link
Collaborator

johanricher commented Nov 2, 2023

Description

L'objectif est d'établir un profil, une analyse exploratoire (EDA) des métadonnées du catalogue Ecosphères afin de synthétiser ses principales caractéristiques, par exemple :

  • Champs (dataset, title, themes...) les plus utilisés
  • Distribution des valeurs pour chaque champ
  • Pourcentage de valeurs manquantes pour chaque champ

Ce profil permettra notamment de mieux comprendre le catalogue et ses métadonnées, notamment pour sélectionner les champs les plus utilisés et afin de construire des indicateurs de qualité pertinents.

Il devrait être mise à jour automatiquement pour suivre les évolutions du catalogue.

Implémentation

La librairie ydata-profiling (anciennement pandas-profiling) permet de produire un rapport qui correspond aux besoins.

Le profil (export HTML du rapport) apporte une analyse du catalogue générique, au-dessus des univers #4 qui portent sur des sujets métiers spécifiques. En cela il n'a pas vocation à être intégré nativement dans l'outil de visualisation (Superset) ou dans un univers en particulier. Il pourrait cependant être rendu accessible aux utilisateurs de l'outil au moyen d'un lien.

L'automatisation de la mise à jour et de la publication pourraient être implémentés dans un second temps grâce à Github Actions et Github Pages.

@Thesauruv
Copy link
Collaborator

Thesauruv commented Nov 6, 2023

Super pour l'utilisation de ydata-profiling ! Cette librairie permettra d'aller plus loin que le seul graphe sur le taux de remplissage. Comme discuté avec Clément ce matin, concernant le taux de remplissage, c'est une information importante pour la lecture de chaque graphe ; l'utilisateur doit être conscient que les résultats présentés ne couvrent qu'une partie des datasets à cause d'un manque de métadonnées.

@qloridant
Copy link
Collaborator

Pour le moment, les infos sont disponibles ici
Il serait possible de passer sur ydata-profiling pour avoir une vizu plus sympa, mais les informations seront les mêmes.

Je ne suis pas encore sur si nous proposerons ydata-profiling aux utilisateurs ou si nous ferons nous mêmes quelques graphiques (qu'il faut choisir)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants