Cours « science des données » à Mines ParisTech (2020–2021).
Organisation de ce repo
environment.yml
permet de charger l'environnement conda pour les notebooks via l'interface graphique d'Anaconda ou
conda env create -f environment.yml -n sdd2021
conda activate sdd2021
Notez que cet environnement vous fait utiliser JupyterLab et non pas Jupyter Notebook. JupyterLab est plus moderne et plus agréable d'utilisation (voir la documentation). En particulier, JupyterLab permet de copier des cellules entre notebooks, et l'extension "Table of contents" qui facilite la navigation dans un notebook y est native.
poly/
contient tous les fichiers permettant de compiler le poly. La dernière version compilée à jour s'intitulesdd_2021_poly.pdf
pc/
contient un répertoire par PCprojet/
contient les données et instructions relatives au projet numérique.
Équipe pédagogique
- Responsable de cours : Chloé-Agathe Azencott
- Chargé·e·s d'enseignement : Nicolas Desassis, Arthur Imbert, Tristan Lazard, Thibaud Martinez, et Lucia Clarotto.
Emploi du temps
-
lundi 31/05 :
- 13h45-15h15 : cours 1 — Introduction et statistique descriptive (Chapitres 1 & 2)
- 15h30-17h00 : cours 2 — Estimation et propriétés d'un estimateur (Chapitre 3, sections 3.1 à 3.4)
-
jeudi 3/06 :
- 13h45-15h15 : cours 3 — Techniques d'estimation (Chapitre 3, sections 3.5 & 3.6)
- 15h30-17h00 : cours 4 — Tests statistiques (Chapitre 4)
-
lundi 7/06 :
- 13h45-15h15 : PC 1 — Statistique inférentielle (TD)
- 15h30-17h00 : cours 5 — Réduction de dimension (Chapitre 5)
-
jeudi 10/06 :
- 13h45-15h15 : PC 2 — Réduction de dimension (TP)
- 15h30-17h00 : cours 6 — Introduction à l'apprentissage supervisé (Chapitre 7)
-
lundi 14/06 :
- 13h45-15h15 : PC 3 — Pré-traitement & introduction à scikit-learn pour l'apprentissage supervisé
- 15h30-17h00 : Mini-projet numérique (1)
-
jeudi 17/06 :
- 13h45-15h15 : cours 7 — Bonnes pratiques (Chapitre 6)
- 15h30-17h00 : cours 8 — Régularisation (Chapitre 8)
-
lundi 21/06 :
- 13h45-15h15 : PC 4 — Sélection de modèles (TP)
- 15h30-17h00 : PC 5 — Modèles linéaires pour la classification (TD)
-
jeudi 24/06 :
- 15h30-17h00 : cours 9 — Modèles d'apprentissage supervisé non-linéaires (Chapitre 9)
- 16h-17h30 : Mini-projet numérique (2)
-
jeudi 1/07 9h-12h : examen écrit et rendu de projet numérique.
Modalités d'évaluation
- mini-projet numérique à réaliser en binôme. Deux séances de PC y sont dévouées (le 14/06 et le 24/06). À rendre le 1er juillet (30%).
- examen sur table avec documents autorisés le 1er juillet (70%).
Pour contribuer à ce repo
Ce repo contient un script pre-commit.sh
qui permet de le nettoyer (supprimer les fichiers auxiliaires de latex, nettoyer les notebooks avec nbstripout
).
Il est possible de lancer automatiquement ce script lors d'un git commit
grâce à un hook
. Pour cela, il suffit de le copier dans le fichier .git/hooks/pre-commit
ou d'utiliser un lien symbolique (pour conserver le contrôle de version) :
cd .git/hooks/
ln -s ../../pre-commit.sh pre-commit