Skip to content

Commit

Permalink
Présentation des notebooks
Browse files Browse the repository at this point in the history
  • Loading branch information
mhillion committed Nov 29, 2024
1 parent 89927cc commit 12e85bb
Show file tree
Hide file tree
Showing 2 changed files with 37 additions and 0 deletions.
36 changes: 36 additions & 0 deletions Liste_notebooks.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,36 @@
# Liste des notebooks envisagés

## Objectifs généraux des notebooks

Les notebooks devront être conçus pour être indépendants, reproductibles et pédagogiques, en offrant une transition progressive des bases aux approches plus avancées.

- **Illustration des méthodes**: Illustrer concrètement les méthodes ensemblistes présentées dans le document méthodologique, en mettant en lumière les étapes clés, de la préparation des données à l'entraînement des modèles, en passant par l'optimisation des performance et l’interprétation des résultats.

- **Reproductibilité et accessibilité**: Fournir un accompagnement pas-à-pas complet, en utilisant des données publiques et des librairies maintenues activement pour une reproductibilité optimale. Les utilisateurs doivent pouvoir exécuter les notebooks sans difficulté.

- **Diffusion des bonnes pratiques**: Promouvoir les bonnes pratiques en data science : utilisation de pipelines scikit-learn, choix de librairies performantes et robustes (ranger, scikit-learn), gestion rigoureuse de l'environnement, des données.

- **Applications concrètes**: Illustrer l'application des méthodes sur des cas d'usage simples basés sur les données individuelles du recensement de la population diffusées au format parquet (prédiction de l'âge et du niveau de diplôme).
Un exemple avec une tâche de régression (prédire l’âge) et une tâche de classification (prédire le niveau de diplôme).


## Liste des notebooks

2 applications très simples sont envisagées: prédire l'âge (régression) et prédire le niveau de diplôme (classification) à partir des données individuelles du recensement de la population.

- 2 notebooks en R :
- régression et classification par **forêt aléatoire** avec la librairie `Ranger`
- 4 notebooks en Python :
- régression et classification par **forêt aléatoire** avec la librairie `Scikit-learn`
- régression et classification par **gradient boosting** avec la librairie `Scikit-learn`











1 change: 1 addition & 0 deletions Question_reunion_cadrage.md
Original file line number Diff line number Diff line change
Expand Up @@ -7,6 +7,7 @@
- Que pensez-vous l'approche à trois niveaux de lecture : aperçu intuitif (Section 1), puis présentation plus formalisée (Section 2), puis guide d'entraînement pratique (Section 3) ?
- Que pensez-vous de séparer la présentation des méthodes elles-mêmes, et leur usage?
- Un autre plan possible: aperçu intuitif (Section 1) puis présentation des random forests (fonctionnement et guide pratique, Section 2), puis présentation du gradient boosting (fonctionnement et guide pratique, Section 3)
- Faut-il dédier une section spécialement à l'interprétabilité ?

### Présentation des algorithmes

Expand Down

0 comments on commit 12e85bb

Please sign in to comment.