From ab61a3b54d13e0e65cc85f1b189caa03ac426013 Mon Sep 17 00:00:00 2001 From: Victor Perron Date: Fri, 1 Nov 2024 12:07:52 +0100 Subject: [PATCH] improve REDAME --- deduplication/README.md | 12 ++++++------ 1 file changed, 6 insertions(+), 6 deletions(-) diff --git a/deduplication/README.md b/deduplication/README.md index 6ea10f9b..683a9782 100644 --- a/deduplication/README.md +++ b/deduplication/README.md @@ -75,13 +75,12 @@ L'apprentissage génère deux fichiers, qui sont commités avec le code: - un fichier binaire `.deduper.settings` qui contient le modèle entraîné final; - un fichier JSON `.deduper.training.json` qui contient les choix de doublons de l'utilisateur. -Actuellement, la seule chose possible est de supprimer les fichiers `.dedupe.*` pour -reprendre l'entraînement de zéro. - -Mais le jour où nous pensons que cela améliore notre apprentissage nous pourrons passer -à une stratégie mixte qui utilise l'entraînement actuel + les nouveaux inputs. +Le fichier JSON est éditable et est repris à chaque entraînement pour l'enrichir de nouveaux cas, +proposés par `dedupe`. Ce dernier s'efforce de trouver des cas "complexes" qui nous mettent +en difficulté. -Pour cela, voir `deduper.prepare_training` dans `interactive_train.py`. +Il est aussi possible est de supprimer les fichiers `.dedupe.*` pour +reprendre l'entraînement de zéro. ### Clustering @@ -129,3 +128,4 @@ A FAIRE: - lib ? pour avoir un constants.py partagé. di_dup - faire un bon vrai training complet - trouver un taux à suivre +- rendre le JSON readable pour mieux retrouver les choix passés (tri + indent)