Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Ajouter des données à doremifasol #81

Closed
linogaliana opened this issue Dec 8, 2020 · 8 comments
Closed

Ajouter des données à doremifasol #81

linogaliana opened this issue Dec 8, 2020 · 8 comments

Comments

@linogaliana
Copy link
Contributor

In GitLab by @acazaubiel on Jul 8, 2020, 16:15

Bonjour à tous,

J'ai ouvert sur le site concurrent et dans le package ami doremifasol une issue sur les tables que vous penseriez adaptées : InseeFrLab/DoReMIFaSol#15

Dans un premier temps, on pourrait lister les contraintes techniques :

  • des tables petites
  • des tables représentatives des données que nous manipulons au quotidien
  • des tables avec des pbs dedans (pour être réalistes et avoir des manipulations à faire)
  • des tables disponibles librement sur insee.fr
@linogaliana
Copy link
Contributor Author

In GitLab by @acazaubiel on Jul 8, 2020, 16:17

J'ai proposé qu'on mette un exemple issu du dispositif le plus complexe jamais créé dans le monde :flag_fr: (ESANE) : https://www.insee.fr/fr/statistiques/4226019?sommaire=4226092

@linogaliana
Copy link
Contributor Author

In GitLab by @acazaubiel on Jul 9, 2020, 08:11

On pourrait également mettre un petit jeu de données issus de SIRENE, que l'on récupererait via l'API. Par exemple les SIRET des établissements actifs dans le 47.1 dans la commune de Vierzon (depcom 18279) [ et oui, c'est assez limité là ?].

Un troisième jeu de données, ce serait un jeu de données issues d'un tableau d'une enquête thématique, comme TIC : https://www.insee.fr/fr/statistiques/4464229?sommaire=4464231

Un dernier jeu de données, les indicateurs CA3 : https://www.insee.fr/fr/statistiques/serie/010545327

Avec ces trois sources, il me semble qu'on balaie les 3 départements de la DSE, avec des thématiques assez variées et des possibilités d'applications riches.

@linogaliana
Copy link
Contributor Author

In GitLab by @acazaubiel on Jul 9, 2020, 08:11

changed title from Ajouter des données {-entreprises -}à doremifasol to Ajouter des données à doremifasol

@linogaliana
Copy link
Contributor Author

In GitLab by @pierre-lamarche on Jul 10, 2020, 20:44

C'est noté, merci beaucoup @acazaubiel je vais intégrer ces données dans les téléchargements possibles de doremifaso. Pour information, concernant les contraintes techniques, le package permet désormais de sélectionner les colonnes qu'on veut charger en mémoire. Testé avec les données du RP (25 millions de lignes tout de même pour la table logement par exemple), on arrive à faire des traitements sans problème de mémoire (et comme on gère le cache, on n'est pas obligé de re-télécharger les données à chaque requête). Cela ne va pas forcément exactement dans le sens qu'on voudrait (privilégier les BDD) mais c'est un workaround acceptable je pense.

@linogaliana
Copy link
Contributor Author

In GitLab by @oliviermeslin on Jul 10, 2020, 22:38

Je voudrais ajouter une table à doremifasol pour illustrer la fiche sur les graphiques (qui à ce stade utilise les tables built-in de R comme iris).

Je suis à la recherche d'une table en format long disponible sur Insee.fr, qui contiendrait deux variables quantitatives et une variable de groupe, pour faire des nuages de points par groupe (comme la table diamonds). L'objectif de cette table est de présenter l'intérêt du format long pour faire des graphiques avec ggplot2. Le problème est que toutes les tables que j'ai trouvées sur Insee.fr, sont en format wide, et je voudrais éviter d'alourdir la fiche graphiques avec une étape reshape long.

@pierre-lamarche, @acazaubiel, @linogaliana: vous avez des idées?

@linogaliana
Copy link
Contributor Author

In GitLab by @pierre-lamarche on Jul 11, 2020, 05:54

Les données d'estimations localisées d'emploi sont en format long depuis 2018 (tu peux les récupérer via doremifasol en faisant telechargerDonnees("ESTEL_T201", date = "2018")) ; cf. également la branche estel de doremifasol qui vise à proposer une fonction pour mettre les données antérieures dans le même format). Je projette de faire la même chose avec les données Filosofi.

@linogaliana
Copy link
Contributor Author

In GitLab by @oliviermeslin on Jul 11, 2020, 16:53

Merci beaucoup @pierre-lamarche! C'est exactement ce qu'il me fallait pour la fiche graphiques! Je vais la doremifasoliser dare-dare demain.

@linogaliana
Copy link
Contributor Author

In GitLab by @linogaliana on Nov 6, 2020, 18:32

Je ferme cette issue car ce type de requêtes a plutôt vocation à être sur le dépôt Github de doremifasol

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant