Skip to content

Commit

Permalink
improve REDAME
Browse files Browse the repository at this point in the history
  • Loading branch information
vperron committed Nov 1, 2024
1 parent 241321a commit ab61a3b
Showing 1 changed file with 6 additions and 6 deletions.
12 changes: 6 additions & 6 deletions deduplication/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -75,13 +75,12 @@ L'apprentissage génère deux fichiers, qui sont commités avec le code:
- un fichier binaire `.deduper.settings` qui contient le modèle entraîné final;
- un fichier JSON `.deduper.training.json` qui contient les choix de doublons de l'utilisateur.

Actuellement, la seule chose possible est de supprimer les fichiers `.dedupe.*` pour
reprendre l'entraînement de zéro.

Mais le jour où nous pensons que cela améliore notre apprentissage nous pourrons passer
à une stratégie mixte qui utilise l'entraînement actuel + les nouveaux inputs.
Le fichier JSON est éditable et est repris à chaque entraînement pour l'enrichir de nouveaux cas,
proposés par `dedupe`. Ce dernier s'efforce de trouver des cas "complexes" qui nous mettent
en difficulté.

Pour cela, voir `deduper.prepare_training` dans `interactive_train.py`.
Il est aussi possible est de supprimer les fichiers `.dedupe.*` pour
reprendre l'entraînement de zéro.


### Clustering
Expand Down Expand Up @@ -129,3 +128,4 @@ A FAIRE:
- lib ? pour avoir un constants.py partagé. di_dup
- faire un bon vrai training complet
- trouver un taux à suivre
- rendre le JSON readable pour mieux retrouver les choix passés (tri + indent)

0 comments on commit ab61a3b

Please sign in to comment.