From 42eb7889cefe8b499a8f91948808c13080f25916 Mon Sep 17 00:00:00 2001 From: oliviermeslin Date: Thu, 14 Nov 2024 16:11:03 +0000 Subject: [PATCH] Bricole --- chapters/chapter3/guide_usage_RF.qmd | 13 ++++++++++--- 1 file changed, 10 insertions(+), 3 deletions(-) diff --git a/chapters/chapter3/guide_usage_RF.qmd b/chapters/chapter3/guide_usage_RF.qmd index 452f2ff..2c18bf0 100644 --- a/chapters/chapter3/guide_usage_RF.qmd +++ b/chapters/chapter3/guide_usage_RF.qmd @@ -28,6 +28,8 @@ Il existe de multiples implémentations des forêts aléatoires. Le présent doc Cette section décrit en détail les principaux hyperparamètres des forêts aléatoires listés dans le tableau `@tbl-hyp-rf`{=typst}. Les noms des hyperparamètres utilisés sont ceux figurant dans le _package_ `R` `ranger`, et dans le _package_ `Python` `scikit-learn`. Il arrive qu'ils portent un nom différent dans d'autres implémentations des _random forests_, mais il est généralement facile de s'y retrouver en lisant attentivement la documentation. +::: {.content-visible unless-format="html"} + ```{=typst} #figure( @@ -37,7 +39,7 @@ Cette section décrit en détail les principaux hyperparamètres des forêts al table.header( table.cell(colspan: 2)[ Hyperparamètre \ - #text(box(image("./icons/logo-R.svg", height:2.4em))) #h(2.7cm) #text(box(image("./icons/logo-python.svg", height:2em))) \ + #text(box(image("/icons/logo-R.svg", height:2.4em))) #h(2.7cm) #text(box(image("/icons/logo-python.svg", height:2em))) \ #h(0.8cm) #text(weight: "regular")[`ranger`] #h(1.8cm) #text(weight: "regular")[`scikit-learn`] ], [Description] @@ -54,8 +56,11 @@ Cette section décrit en détail les principaux hyperparamètres des forêts al caption: [ Les principaux hyperparamètres des forêts aléatoires], ) ``` +::: + +::: {.content-visible when-format="html"} + - + + +::: - Le __nombre de variables candidates à chaque noeud__ contrôle l'échantillonnage des variables lors de l'entraînement. La valeur par défaut est fréquemment $\sqrt p$ pour la classification et $p/3$ pour la régression. C'est l'hyperparamètre qui a le plus fort effet sur la performance de la forêt aléatoire. Une valeur plus basse aboutit à des arbres plus différents, donc moins corrélés (car ils reposent sur des variables différentes), mais ces arbres peuvent être moins performants car ils reposent parfois sur des variables peu pertinentes. Inversement, une valeur plus élevée du nombre de variables candidates aboutit à des arbres plus performants, mais plus corrélés. C'est en particulier le cas si seulement certaines variables sont très prédictives, car ce sont ces variables qui apparaitront dans la plupart des arbres.