Profil du catalogue Ecosphères #13

johanricher · 2023-11-02T18:55:41Z

Description

L'objectif est d'établir un profil, une analyse exploratoire (EDA) des métadonnées du catalogue Ecosphères afin de synthétiser ses principales caractéristiques, par exemple :

Champs (dataset, title, themes...) les plus utilisés
Distribution des valeurs pour chaque champ
Pourcentage de valeurs manquantes pour chaque champ

Ce profil permettra notamment de mieux comprendre le catalogue et ses métadonnées, notamment pour sélectionner les champs les plus utilisés et afin de construire des indicateurs de qualité pertinents.

Il devrait être mise à jour automatiquement pour suivre les évolutions du catalogue.

Implémentation

La librairie ydata-profiling (anciennement pandas-profiling) permet de produire un rapport qui correspond aux besoins.

Le profil (export HTML du rapport) apporte une analyse du catalogue générique, au-dessus des univers #4 qui portent sur des sujets métiers spécifiques. En cela il n'a pas vocation à être intégré nativement dans l'outil de visualisation (Superset) ou dans un univers en particulier. Il pourrait cependant être rendu accessible aux utilisateurs de l'outil au moyen d'un lien.

L'automatisation de la mise à jour et de la publication pourraient être implémentés dans un second temps grâce à Github Actions et Github Pages.

The text was updated successfully, but these errors were encountered:

Thesauruv · 2023-11-06T09:37:22Z

Super pour l'utilisation de ydata-profiling ! Cette librairie permettra d'aller plus loin que le seul graphe sur le taux de remplissage. Comme discuté avec Clément ce matin, concernant le taux de remplissage, c'est une information importante pour la lecture de chaque graphe ; l'utilisateur doit être conscient que les résultats présentés ne couvrent qu'une partie des datasets à cause d'un manque de métadonnées.

qloridant · 2023-11-17T13:55:35Z

Pour le moment, les infos sont disponibles ici
Il serait possible de passer sur ydata-profiling pour avoir une vizu plus sympa, mais les informations seront les mêmes.

Je ne suis pas encore sur si nous proposerons ydata-profiling aux utilisateurs ou si nous ferons nous mêmes quelques graphiques (qu'il faut choisir)

johanricher assigned qloridant Nov 2, 2023

johanricher closed this as completed Dec 11, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Profil du catalogue Ecosphères #13

Profil du catalogue Ecosphères #13

johanricher commented Nov 2, 2023 •

edited by clementmandron

Loading

Thesauruv commented Nov 6, 2023 •

edited

Loading

qloridant commented Nov 17, 2023

Profil du catalogue Ecosphères #13

Profil du catalogue Ecosphères #13

Comments

johanricher commented Nov 2, 2023 • edited by clementmandron Loading

Description

Implémentation

Thesauruv commented Nov 6, 2023 • edited Loading

qloridant commented Nov 17, 2023

johanricher commented Nov 2, 2023 •

edited by clementmandron

Loading

Thesauruv commented Nov 6, 2023 •

edited

Loading