Skip to content

Commit

Permalink
Modifs survol
Browse files Browse the repository at this point in the history
  • Loading branch information
oliviermeslin committed Oct 8, 2024
1 parent c44f38a commit a47a46d
Showing 1 changed file with 2 additions and 2 deletions.
4 changes: 2 additions & 2 deletions chapters/chapter1/survol.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -40,12 +40,12 @@ Inconvénients rapport à la régression linéaire/régression logistique

- Moins interprétables : L'une des principales limites des méthodes ensemblistes à base d'arbres est leur manque d'interprétabilité. Contrairement à une régression linéaire où les coefficients peuvent être facilement interprétés comme des contributions directes des variables explicatives, les modèles ensemblistes sont plus difficiles à interpréter. Bien que de multiples approches permettent d'interpétrer partiellement les modèles, leur explicabilité reste globalement plus faible que celle des méthodes traditionnelles.

- Nécessité d'une optimisation plus complexe : Les modèles ensemblistes ont souvent de nombreux hyperparamètres à ajuster (nombre d'arbres, profondeur maximale, nombre de caractéristiques à sélectionner, etc.). Cela nécessite généralement une validation croisée et des méthodes d'optimisation avancées, ce qui peut être plus complexe que pour des modèles plus paramétriques dont l'estimation est plus rapide.
- Nécessité d'une optimisation plus complexe : Les modèles ensemblistes sont plus complexes que les approches traditionnelles, et leurs hyperparamètres doivent faire l'objet d'une optimisation, par exemple au travers d'une validation croisée. Ce processus d'optimisation s'avère généralement plus complexe que pour des modèles plus paramétriques dont l'estimation est plus rapide.

##### Par rapport au _deep learning_


Alors que les approches de _deep learning_ sans conteste très performantes pour le traitement du langage naturel et le traitement d'image, leur supériorité n'est pas établie pour les problèmes mobilisant des données tabulaires. Les comparaisons disponibles dans la littérature concluent en effet que les méthodes ensemblistes à base d'arbres sont soit plus performantes que le _deep learning_ (@grinsztajn2022tree, @shwartz2022tabular), soit font jeu égal avec lui (@mcelfresh2024neural). Ces études ont identifié trois avantages des méthodes ensemblistes: elles sont peu sensibles aux variables explicatives non pertinentes, robustes aux valeurs extrêmes des variables explicatives, et capables d'approximer des fonctions très irrégulières. De plus, dans la pratique les méthodes ensemblistes s'avèrent souvent plus rapides à entraîner et moins exigeantes en ressources informatiques, et le choix des hyperparamètres s'avère souvent moins complexe (@shwartz2022tabular).
Alors que les approches de _deep learning_ sont sans conteste très performantes pour le traitement du langage naturel et le traitement d'image, leur supériorité n'est pas établie pour les problèmes mobilisant des données tabulaires. Les comparaisons disponibles dans la littérature concluent en effet que les méthodes ensemblistes à base d'arbres sont soit plus performantes que les approches de _deep learning_ (@grinsztajn2022tree, @shwartz2022tabular), soit font jeu égal avec elles (@mcelfresh2024neural). Ces études ont identifié trois avantages des méthodes ensemblistes: elles sont peu sensibles aux variables explicatives non pertinentes, robustes aux valeurs extrêmes des variables explicatives, et capables d'approximer des fonctions très irrégulières. De plus, dans la pratique les méthodes ensemblistes sont souvent plus rapides à entraîner et moins gourmandes en ressources informatiques, et l'optimisation des hyperparamètres s'avère souvent moins complexe (@shwartz2022tabular).


### L'union fait la force
Expand Down

0 comments on commit a47a46d

Please sign in to comment.