improve REDAME

gip-inclusion · Nov 1, 2024 · ab61a3b · ab61a3b
1 parent 241321a
commit ab61a3b
Showing 1 changed file with 6 additions and 6 deletions.
diff --git a/deduplication/README.md b/deduplication/README.md
@@ -75,13 +75,12 @@ L'apprentissage génère deux fichiers, qui sont commités avec le code:
 - un fichier binaire `.deduper.settings` qui contient le modèle entraîné final;
 - un fichier JSON `.deduper.training.json` qui contient les choix de doublons de l'utilisateur.
 
-Actuellement, la seule chose possible est de supprimer les fichiers `.dedupe.*` pour
-reprendre l'entraînement de zéro.
-
-Mais le jour où nous pensons que cela améliore notre apprentissage nous pourrons passer
-à une stratégie mixte qui utilise l'entraînement actuel + les nouveaux inputs.
+Le fichier JSON est éditable et est repris à chaque entraînement pour l'enrichir de nouveaux cas,
+proposés par `dedupe`. Ce dernier s'efforce de trouver des cas "complexes" qui nous mettent
+en difficulté.
 
-Pour cela, voir `deduper.prepare_training` dans `interactive_train.py`.
+Il est aussi possible est de supprimer les fichiers `.dedupe.*` pour
+reprendre l'entraînement de zéro.
 
 
 ### Clustering
@@ -129,3 +128,4 @@ A FAIRE:
 - lib ? pour avoir un constants.py partagé. di_dup
 - faire un bon vrai training complet
 - trouver un taux à suivre
+- rendre le JSON readable pour mieux retrouver les choix passés (tri + indent)