You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
L'objectif est d'établir un profil, une analyse exploratoire (EDA) des métadonnées du catalogue Ecosphères afin de synthétiser ses principales caractéristiques, par exemple :
Champs (dataset, title, themes...) les plus utilisés
Distribution des valeurs pour chaque champ
Pourcentage de valeurs manquantes pour chaque champ
Ce profil permettra notamment de mieux comprendre le catalogue et ses métadonnées, notamment pour sélectionner les champs les plus utilisés et afin de construire des indicateurs de qualité pertinents.
Il devrait être mise à jour automatiquement pour suivre les évolutions du catalogue.
Implémentation
La librairie ydata-profiling (anciennement pandas-profiling) permet de produire un rapport qui correspond aux besoins.
Le profil (export HTML du rapport) apporte une analyse du catalogue générique, au-dessus des univers #4 qui portent sur des sujets métiers spécifiques. En cela il n'a pas vocation à être intégré nativement dans l'outil de visualisation (Superset) ou dans un univers en particulier. Il pourrait cependant être rendu accessible aux utilisateurs de l'outil au moyen d'un lien.
L'automatisation de la mise à jour et de la publication pourraient être implémentés dans un second temps grâce à Github Actions et Github Pages.
The text was updated successfully, but these errors were encountered:
Super pour l'utilisation de ydata-profiling ! Cette librairie permettra d'aller plus loin que le seul graphe sur le taux de remplissage. Comme discuté avec Clément ce matin, concernant le taux de remplissage, c'est une information importante pour la lecture de chaque graphe ; l'utilisateur doit être conscient que les résultats présentés ne couvrent qu'une partie des datasets à cause d'un manque de métadonnées.
Pour le moment, les infos sont disponibles ici
Il serait possible de passer sur ydata-profiling pour avoir une vizu plus sympa, mais les informations seront les mêmes.
Je ne suis pas encore sur si nous proposerons ydata-profiling aux utilisateurs ou si nous ferons nous mêmes quelques graphiques (qu'il faut choisir)
Description
L'objectif est d'établir un profil, une analyse exploratoire (EDA) des métadonnées du catalogue Ecosphères afin de synthétiser ses principales caractéristiques, par exemple :
dataset
,title
,themes
...) les plus utilisésCe profil permettra notamment de mieux comprendre le catalogue et ses métadonnées, notamment pour sélectionner les champs les plus utilisés et afin de construire des indicateurs de qualité pertinents.
Il devrait être mise à jour automatiquement pour suivre les évolutions du catalogue.
Implémentation
La librairie
ydata-profiling
(anciennementpandas-profiling
) permet de produire un rapport qui correspond aux besoins.Le profil (export HTML du rapport) apporte une analyse du catalogue générique, au-dessus des univers #4 qui portent sur des sujets métiers spécifiques. En cela il n'a pas vocation à être intégré nativement dans l'outil de visualisation (Superset) ou dans un univers en particulier. Il pourrait cependant être rendu accessible aux utilisateurs de l'outil au moyen d'un lien.
L'automatisation de la mise à jour et de la publication pourraient être implémentés dans un second temps grâce à Github Actions et Github Pages.
The text was updated successfully, but these errors were encountered: