Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Quelles sources de données ajouter ? #15

Open
acazaubiel opened this issue Jul 8, 2020 · 13 comments
Open

Quelles sources de données ajouter ? #15

acazaubiel opened this issue Jul 8, 2020 · 13 comments

Comments

@acazaubiel
Copy link

Comme promis dans le projet UtilitR, j'ouvre cette issue pour discuter de la manière dont nous pourrions contribuer à l'enrichissement des bases de données disponibles dans doremifasol.

Côté entreprises (que je suis sensé représenter), je verrai bien des tableaux issus d'ESANE comme par exemple :

@py-b
Copy link
Member

py-b commented Oct 7, 2020

Le champ qui a servi a constituer liste_donnees est celui-ci ?
https://www.insee.fr/fr/statistiques?taille=200&debut=0&categorie=3

Ou bien tu as restreint le filtre aux "fichiers détails", @pierre-lamarche ? (je me perds un peu sur insee.fr :-|)
https://www.insee.fr/fr/statistiques?debut=0&categorie=3&collection=4

Le lien que mentionne @acazaubiel renvoie à un "Insee Résultats" qui apparaît dans la recherche quand on clique "Chiffres détaillés". Une question est donc de savoir si on inclut les Insee Résultats (sans distinction ou selon leur "pertinence"), sachant qu'ils peuvent être publiés à des dates variées. Donc potentiellement un travail de romain de mise à jour de liste_donnees.

@pierre-lamarche
Copy link
Contributor

Ni l'un ni l'autre à vrai dire. Disons que mon idée est de me baser sur le besoin des utilisateurs, qui voudrait voir telle ou telle source intégrée ; mais sans l'avoir vraiment formalisé, je cible effectivement les fichiers détails et essentiellement tout ce qui est taggué Base de données sur le site. De ce point de vue, les données Esane ne faisaient pas vraiment mon affaire ; c'est pour cette raison que j'ai intégré l'API Sirene.

@jdlom
Copy link

jdlom commented Apr 13, 2021

A ce jour, voici l'ensemble des données qu'on peut télécharger en suivant le premier lien indiqué par @py-b. Je mets le fichier (qui est loin d'être parfait) en PJ si des contributeurs veulent ajouter une donnée.
data_insee.csv

@py-b
Copy link
Member

py-b commented Apr 13, 2021

Impressionnant, merci !
Il va falloir maintenant qu'on regarde ce qu'on a déjà dans le json et ce qu'il est possible/intéressant d'intégrer au package.

J'imagine que tu as webscrappé insee.fr pour obtenir ces données. Si c'est le cas, le top serait qu'on conserve le code afin de pouvoir suivre les mises à jour du site.

@jdlom
Copy link

jdlom commented Apr 13, 2021

@py-b

Oui, effet j'ai webscrappé le site avec RSelenium, mais n'étant pas un spécialiste de R et de tout son écosystème, mon code n'est probablement pas optimal. Je le mets à peu près en forme et je vous le partagerai. Il est possible de partager des snippets privés sous github ? C'est peut-être pas forcément bien que ce code se trouve public. Qu'en penses-tu ?

@py-b
Copy link
Member

py-b commented Apr 13, 2021

Je n'ai pas trouvé comment créer de snippet privé (ou interne au repo). On peut aussi le "cacher" le script quelque part dans le code source (par exemple dans le dossier data_raw), de sorte qu'il sera disponible sur github, mais pas dans les versions publiées du package.

@jdlom
Copy link

jdlom commented Apr 17, 2021

Bonsoir,
J'ai mis le code sur ce dépôt : https://gitlab.com/jdlom/data_insee

J'ai fait un ptit job qui devrait tourner toutes les semaines.

La dernière version du fichier sera disponible ici :
https://gitlab.com/jdlom/data_insee/-/jobs/artifacts/master/raw/data_insee.csv?job=insee_scrap

@pierre-lamarche
Copy link
Contributor

Merci beaucoup @jdlom ! J'y ai réfléchi de nouveau, effectivement ça vaudrait le coup de développer un robot doremifasol-bot qui pourrait venir enrichir de manière automatique le fichier liste_donnees.json. Mais du coup, je pense que la façon "propre" de la faire serait d'aller taper sur les flux RSS (du type https://www.insee.fr/fr/flux/5). La question ça reste de déterminer comment on procède ; on peut imaginer de balancer un job récurrent pour enrichir la liste. Mais du coup ça a plusieurs implications :

  • il faut du coup ajouter une procédure de mise à jour en ligne de la liste ld du package (et vérifier qu'on peut modifier des données internes sur un package R). Cette procédure se ferait au moment du chargement de la librairie ;
  • la mise à disposition de la liste à jour pourrait se faire via un fichier json sur le minio du SSP Cloud (mais il faut donner au robot les droits d'écriture qui vont bien) OU le robot alimente une base de données et on génère un json on-the-fly façon API. Je ne sais pas trop ce qui est le plus propre (@RLesur @olevitt @fcomte si vous avez une opinion là-dessus je suis preneur).

@jdlom
Copy link

jdlom commented Apr 24, 2021

Mais du coup, je pense que la façon "propre" de la faire serait d'aller taper sur les flux RSS (du type https://www.insee.fr/fr/flux/5).

J'apprends à l'instant l'existence de ce flux RSS 😭

Vos supers admins vous mettent à disposition des runners sur l'instance gitlab du ssp cloud (j'imagine que oui vu qu'ils sont tops) ?

J'ai commencé à réfléchir de mon côté à la génération de ce json mais je vais peut-être attendre de voir l'orientation que vous prenez .

@pierre-lamarche
Copy link
Contributor

@jdlom je te confirme à la fois pour la mise à disposition de runners sur le SSP Cloud et le fait que nos admins sont au top ;-)
N'hésite pas à participer à la discussion en tout cas, je suis preneur des points de vue des utilisateurs aussi sur ce sujet.

@ddotta
Copy link
Contributor

ddotta commented Mar 25, 2022

Quelques réflexions en vrac d'un néophyte sur le projet suite à la lecture de ce thread :

  1. Je partage l'idée qu'utiliser des flux RSS plutôt qu'une liste issue du web scraping me paraît plus robuste dans le temps. Ceci dit le script de @jdlom est très inspirant !
    J'ai déjà expérimenté dans un autre contexte et il y a moyen de demander à la MOA d'Insee.fr la création d'un flux RSS personnalisé c'est-à-dire à partir de critères de requêtes précis sur insee.fr (dans mon cas, il s'agissait de certaines collections de publications qui appartenaient à certains thèmes).

  2. Du coup, ça pose la question de ce qui est retenu dans doremifasol. Je comprends l'idée de départ de de se baser sur le besoin des utilisateurs mais cela veut dire que potentiellement le contenu du package grandira dans le temps au fur et à mesure des demandes (on sait tous que les utilisateurs d'un service ont naturellement tendance à en demander plus 😄) en même temps c'est peut-être compliqué de définir un contour précis et figé de doremifasol.

  3. Concernant l'utilisation de l'API Sirene en remplacement des bases de données d'Esane, je trouve que c'est très malin !
    Dans la même veine, peut-être que ça vaudrait le coup d'intégrer l'API DonneesLocales qui reprend la rubrique "Chiffres détaillés" d'Insee.fr ? Par contre, j'ai pas testé si on pouvait récupérer les tableaux dont parle @acazaubiel

  4. Je ne connais pas assez les enjeux techniques sous-jacents à l'idée de @pierre-lamarche de créer un robot doremifasol-bot pour aller enrichir automatiquement le fichier json de doremifasol mais si c'est faisable techniquement, ça me paraît être très utile pour éviter la lourdeur dans la maintenance du projet. D'autant plus quand je vois à ma petite échelle que les données mises à disposition sur insee.fr peuvent se présenter de manière variable dans le temps, je me dis qu'un robot qui fait le travail à votre place, ce serait une super plus-value !

@py-b
Copy link
Member

py-b commented Apr 3, 2022

Dans la même veine, peut-être que ça vaudrait le coup d'intégrer l'API DonneesLocales qui reprend la rubrique "Chiffres détaillés" d'Insee.fr ?

https://github.com/InseeFrLab/inseeLocalData

@ddotta
Copy link
Contributor

ddotta commented Apr 4, 2022

Après m'être renseigné, le contenu de l'API DonneesLocales correspond aux données diffusées par le pôle ODL. Et cela ne concerne pas par exemple les tableaux issus d'ESANE.

Et autre info que je n'avais pas en tête : il n'est pas prévu d'augmenter l'offre actuelle de cette API qui pourrait être remplacée par Mélodi d'ici 2025

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants