Skip to content

Commit

Permalink
Enlever mitex
Browse files Browse the repository at this point in the history
  • Loading branch information
oliviermeslin committed Nov 13, 2024
1 parent 5f3c5b0 commit 331d50a
Show file tree
Hide file tree
Showing 4 changed files with 57 additions and 113 deletions.
2 changes: 1 addition & 1 deletion chapters/chapter1/survol.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -28,7 +28,7 @@ Les méthodes ensemblistes sont particulièrement bien adaptées à de nombreux

Les méthodes ensemblistes présentent trois avantages par rapport aux méthodes économétriques traditionnelles (régression linéaire et régression logistique):

- Elles ont une __puissance prédictive supérieure__: alors que les méthodes traditionnelles supposent fréquemment l'existence d'une relation linéaire ou log-linéaire entre $y$ et `#mi("$\mathbf{X}$")`{=typst}, les méthodes ensemblistes ne font quasiment aucune hypothèse sur la relation entre $y$ et `#mi("$\mathbf{X}$")`{=typst}, et se contentent d'approximer le mieux possible cette relation à partir des données disponibles. En particulier, les modèles ensemblistes peuvent facilement modéliser des __non-linéarités__ de la relation entre $y$ et `#mi("$\mathbf{X}$")`{=typst} et des __interactions__ entre variables explicatives _sans avoir à les spécifier explicitement_ au préalable, alors que les méthodes traditionnelles supposent fréquemment l'existence d'une relation linéaire ou log-linéaire entre $y$ et `#mi("$\mathbf{X}$")`{=typst}.
- Elles ont une __puissance prédictive supérieure__: alors que les méthodes traditionnelles supposent fréquemment l'existence d'une relation linéaire ou log-linéaire entre $y$ et $\mathbf{X}$, les méthodes ensemblistes ne font quasiment aucune hypothèse sur la relation entre $y$ et $\mathbf{X}$, et se contentent d'approximer le mieux possible cette relation à partir des données disponibles. En particulier, les modèles ensemblistes peuvent facilement modéliser des __non-linéarités__ de la relation entre $y$ et $\mathbf{X}$ et des __interactions__ entre variables explicatives _sans avoir à les spécifier explicitement_ au préalable, alors que les méthodes traditionnelles supposent fréquemment l'existence d'une relation linéaire ou log-linéaire entre $y$ et $\mathbf{X}$.

- Elles nécessitent __moins de préparation des données__: elles ne requièrent pas de normalisation des variables explicatives et peuvent s'accommoder des valeurs manquantes (selon des techniques variables selon les algorithmes).

Expand Down
18 changes: 5 additions & 13 deletions chapters/chapter2/bagging.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -35,7 +35,7 @@ Dans le contexte de la **régression**, l'objectif est de prédire une valeur nu

Dans le cas de la régression, le **prédicteur agrégé** est défini comme suit :

$$\phi_A(x) = E_L[\phi(x, L)]$$
$ \phi_A(x) = E_L[\phi(x, L)] $

où $\phi_A(x)$ représente la prédiction agrégée, $E_L[.]$ correspond à l'espérance prise sur tous les échantillons d'apprentissage possibles $L$, chacun étant tiré selon la même distribution que le jeu de données initial, et $\phi(x, L)$ correspond à la prédiction du modèle construit sur l'échantillon d'apprentissage $L$.

Expand All @@ -44,32 +44,24 @@ où $\phi_A(x)$ représente la prédiction agrégée, $E_L[.]$ correspond à l'e

Pour mieux comprendre comment l'agrégation améliore la performance globale d'un modèle individuel $\phi(x, L)$, revenons à la **décomposition biais-variance** de l'erreur quadratique moyenne (il s'agit de la mesure de performance classiquement considérée dans un problème de régression):

```{=typst}
#mitex(`
$E_L[\left(Y - \phi(x, L)\right)^2] = \underbrace{
\left(E_L\left[\phi(x, L) - Y\right]\right)^2}_{\text{Biais}^2} + \underbrace{E_L[\left(\phi(x, L) - E_L[\phi(x, L)]\right)^2]}_{\text{Variance}}$
`) <decompo_biais_variance>
```
$$E_L[\left(Y - \phi(x, L)\right)^2] = \underbrace{\left(E_L\left[\phi(x, L) - Y\right]\right)^2}_{\text{Biais}^2} + \underbrace{E_L[\left(\phi(x, L) - E_L[\phi(x, L)]\right)^2]}_{\text{Variance}}$$ {#eq-decompo-biais-variance}


- Le **biais** est la différence entre la valeur observée $Y$ que l'on souhaite prédire et la prédiction moyenne $E_L[\phi(x, L)]$. Si le modèle est sous-ajusté, le biais sera élevé.

- La **variance** est la variabilité des prédictions ($\phi(x, L)$) autour de leur moyenne ($E_L[\phi(x, L)]$). Un modèle avec une variance élevée est très sensible aux fluctuations au sein des données d'entraînement: ses prédictions varient beaucoup lorsque les données d'entraînement se modifient.


L'équation `@decompo_biais_variance`{=typst} illustre l'__arbitrage biais-variance__ qui est omniprésent en _machine learning_: plus la complexité d'un modèle s'accroît (exemple: la profondeur d'un arbre), plus son biais sera plus faible (car ses prédictions seront de plus en plus proches des données d'entraînement), et plus sa variance sera élevée (car ses prédictions, étant très proches des données d'entraînement, auront tendance à varier fortement d'un jeu d'entraînement à l'autre).
L'équation @eq-decompo-biais-variance illustre l'__arbitrage biais-variance__ qui est omniprésent en _machine learning_: plus la complexité d'un modèle s'accroît (exemple: la profondeur d'un arbre), plus son biais sera plus faible (car ses prédictions seront de plus en plus proches des données d'entraînement), et plus sa variance sera élevée (car ses prédictions, étant très proches des données d'entraînement, auront tendance à varier fortement d'un jeu d'entraînement à l'autre).

#### L'inégalité de Breiman (1996)

@breiman1996bagging compare l'erreur quadratique moyenne d'un modèle individuel avec celle du modèle agrégé et démontre l'inégalité suivante :

<!-- La démonstration s'appuie sur l'inégalité de Jensen appliquée au modèle agrégé: $E_L[\phi(x,L)^2]≥(E_L[\phi(x,L)])^2$.-->

```{=typst}
#mitex(`
$(Y - \phi_A(x))^2 \leq E_L[(Y - \phi(x, L))^2]$
`) <inegalite_breiman1996>
```

$$ (Y - \phi_A(x))^2 \leq E_L[(Y - \phi(x, L))^2]$$ {#eq-inegalite-breiman1996}

- Le terme $(Y - \phi_A(x))^2$ représente l'erreur quadratique du **prédicteur agrégé** $\phi_A(x)$;

Expand Down
Loading

0 comments on commit 331d50a

Please sign in to comment.