feat(pipeline) : Lancer et snapshotter le modèle de monitoring #267

vperron · 2024-08-06T09:22:35Z

Tout est dans le titre :)

vperron · 2024-08-06T11:18:38Z

@vmttn je me demande si:

je ne devrais pas merger celle-ci avant celle sur le geocodage Améliorer le géocodage de nos adresses #266
au passage y mettre un score supplémentaire sur le nombre de lignes de marts avec un score supérieur à 0.8 ? ou autre ?

Ca permettra de voir l'évolution, sachant que la première sera trompeuse: aujourd'hui on a beaucoup de scores au-delà de 0.8 pour des matchs foncièrement erronés (cf commentaire du second commit de cette PR)

pipeline/dags/import_data_inclusion_api.py

pipeline/dbt/snapshots/quality/snps_quality__stats.sql

pipeline/dags/import_data_inclusion_api.py

vmttn · 2024-08-09T10:48:00Z

je ne devrais pas merger celle-ci avant celle sur le geocodage
au passage y mettre un score supplémentaire sur le nombre de lignes de marts avec un score supérieur à 0.8 ? ou autre ?

Ca permettra de voir l'évolution, sachant que la première sera trompeuse: aujourd'hui on a beaucoup de scores au-delà de 0.8 pour des matchs foncièrement erronés (cf commentaire du second commit de cette PR)

spontanément je serais plutot d'avis de ne pas ajouter cette info. On peut merger et en reparler ensuite si ça te va ? Ca fait déja beaucoup

vperron · 2024-08-12T08:24:22Z

OK pour ton dernier commentaire, ça me simplifie la vie ^^

vmttn · 2024-08-12T12:57:14Z

pipeline/dags/import_data_inclusion_api.py

+        # Don't snapshot though if the initial API import failed, which
+        # would result in `build_source_stats` to be skipped.
+        # In that case there is nothing to be snapshotted.


Hmm pas certain d'avoir bien compris, mais si import_data_inclusion_api fail, alors build_source_stats et snapshot_source_stats seront dans l'état upstream_failed non ?

et finalement all_done suffirait ici ?

bref je te laisse voir si il faut changer qqchose

Non, je l'ai testé. Quand import_data_inclusion_api fail:

build_source_stats passe en SKIPPED

et donc on veut savoir si on lance le snapshot ou pas
Mon idée est que dans ce cas précis, non; les stats n'auront donc pas été créées et lancer le snapshot est inutile ou dangereux, si la manière de le créer change par exemple.

Par contre si les tests des stats ont échoué (par exemple, une source entière est vide) on veut quand meme snapshotter.

Au final, ça donne "tout sauf si le précédent a skipped".

Mais on peut décider ALL_DONE et snapshotter en permanence.
Meme question pour les stats : est-ce qu'on les build indépendamment de l'import ? Mon avis est "plutot non" parce que ça peut donner une image fausse de la donnée, mais peut etre que du point de vue d'Antoine c'est mieux d'avoir toujours "quelque chose".

ok clair

Attention je pars loin :

Actuellement il n'y a pas de tests sur le model de qualité pour vérifier qu'une source entière n'est pas vide, correct ?

Je m'interroge sur la nature des data_tests qu'on souhaiterait définir. On souhaite que ce tableau nous permette de suivre l'état des sources et donc éventuellement de mettre en évidence des problèmes. Par exemple le fait d'avoir une source vide. Donc finalement le fait d'avoir une source vide est valide au regard du rôle de ce tableau.

Si on veut alerter sur un pb type source vide / valeur en deça d'un seuil, il faudrait "presque" un deuxième model qui dépend du premier, matérialisée comme une vue, sur lesquels on défini ces tests spécifiquement. (Je fais l'hypothese qu'on veut utiliser ce mecanisme test_dbt x callback airflow pour alerter, mais il reste l'option metabase qui donne une certaine indépendance à l'équipe produit)

Aujourd'hui, j'ai défini des tests très basiques qui vérifient que on ne "perd" pas une source quelque part.

cf. ici : https://github.com/gip-inclusion/data-inclusion/blob/main/pipeline/dbt/models/intermediate/quality/_quality_models.yml#L51-L79

(d'ailleurs, ils vont trop loin car je ne voulais pas tester le count_contact et count_adresses, on a des sources qui n'en ont pas et c'est "normal".

Du coup ce que j'en comprends pour l'instant:

je retire tous les data tests actuels, on verra plus tard dans metabase ou dans un second model spécialisé

je mets les triggers en ALL_DONE pour le nuild et le snapshot de stats pour qu'on ait toujours des données, meme si parfois elles peuvent etre difficiles à interpréter ?

J'ai mis un dernier commit qui reflète cela

vperron · 2024-08-12T15:24:36Z

cf. ici, apparemment on lance quand meme déjà les stats 🤷 or, rien ne sélectionne explicitement le modèle en question et il n'est pas une dépendance des marts. Ou j'ai mal vu un truc ?

To mimic the behavior found with all the models.

The table and its snapshots are ran after every API import. It's "overkill" but very simple and will keep the data up-to-date if we ever have more hourly changes in the future. Example output: data-inclusion=# SELECT id,date_day,source,stream,count_raw,count_stg,count_int,count_api,dbt_updated_at FROM snapshots.snps_quality__stats ORDER BY id, date_day; id | date_day | source | stream | count_raw | count_stg | count_int | count_api | dbt_updated_at -------------------------------------+------------+-----------------------+------------------------+-----------+-----------+-----------+-----------+---------------- action_logement-services | 2024-08-06 | action_logement | services | 26 | 23 | 2760 | 2760 | 2024-08-06 action_logement-services | 2024-08-07 | action_logement | services | 26 | 23 | 2760 | 2760 | 2024-08-07 action_logement-structures | 2024-08-06 | action_logement | structures | 123 | 120 | 120 | 120 | 2024-08-06 action_logement-structures | 2024-08-07 | action_logement | structures | 123 | 120 | 120 | 120 | 2024-08-07 agefiph-services | 2024-08-06 | agefiph | services | 31 | 31 | 27 | 27 | 2024-08-06 agefiph-services | 2024-08-07 | agefiph | services | 31 | 31 | 27 | 27 | 2024-08-07 cd35-organisations | 2024-08-06 | cd35 | organisations | 3545 | 3545 | 3545 | 3540 | 2024-08-06 cd35-organisations | 2024-08-07 | cd35 | organisations | 3545 | 3545 | 3545 | 3540 | 2024-08-07 cd72-services | 2024-08-06 | cd72 | services | 474 | 463 | 463 | 0 | 2024-08-06 cd72-services | 2024-08-07 | cd72 | services | 474 | 463 | 463 | 0 | 2024-08-07 cd72-structures | 2024-08-06 | cd72 | structures | 217 | 217 | 217 | 457 | 2024-08-06 cd72-structures | 2024-08-07 | cd72 | structures | 217 | 217 | 217 | 457 | 2024-08-07 data_inclusion-services | 2024-08-06 | data_inclusion | services | 47 | 44 | 44 | 44 | 2024-08-06 data_inclusion-services | 2024-08-07 | data_inclusion | services | 47 | 44 | 44 | 44 | 2024-08-07 data_inclusion-structures | 2024-08-06 | data_inclusion | structures | 22 | 19 | 19 | 19 | 2024-08-06 data_inclusion-structures | 2024-08-07 | data_inclusion | structures | 22 | 19 | 19 | 19 | 2024-08-07 dora-services | 2024-08-06 | dora | services | 17717 | 11707 | 11707 | 11034 | 2024-08-06 dora-services | 2024-08-07 | dora | services | 17717 | 11707 | 11707 | 11034 | 2024-08-07 dora-structures | 2024-08-06 | dora | structures | 8554 | 8554 | 8554 | 8538 | 2024-08-06 dora-structures | 2024-08-07 | dora | structures | 8554 | 8554 | 8554 | 8538 | 2024-08-07 No day-over-day change here as I'm using the same database between 2 runs.

We'll test and get notified about the data quality another time.

It's going to all change after Valentin's geocoding revamp anyway. Still I don't get why they get run.

vperron self-assigned this Aug 6, 2024

vperron requested a review from vmttn as a code owner August 6, 2024 09:22

vperron temporarily deployed to staging August 6, 2024 09:30 — with GitHub Actions Inactive

vperron had a problem deploying to prod August 6, 2024 09:30 — with GitHub Actions Failure

vperron changed the title ~~feat(pipeline) : Lancer et snapshotter le modèle de monotoring~~ feat(pipeline) : Lancer et snapshotter le modèle de monitoring Aug 6, 2024

vmttn requested changes Aug 9, 2024

View reviewed changes

vperron force-pushed the vperron/snapshot-monitoring branch from e0d3d92 to 6796c47 Compare August 12, 2024 08:25

vperron temporarily deployed to staging August 12, 2024 08:31 — with GitHub Actions Inactive

vperron had a problem deploying to prod August 12, 2024 08:31 — with GitHub Actions Failure

vperron force-pushed the vperron/snapshot-monitoring branch from 6796c47 to 07635cd Compare August 12, 2024 12:22

vperron temporarily deployed to staging August 12, 2024 12:26 — with GitHub Actions Inactive

vperron had a problem deploying to prod August 12, 2024 12:26 — with GitHub Actions Failure

vmttn approved these changes Aug 12, 2024

View reviewed changes

vperron temporarily deployed to staging August 12, 2024 15:10 — with GitHub Actions Inactive

vperron had a problem deploying to prod August 12, 2024 15:10 — with GitHub Actions Failure

vperron added 4 commits August 12, 2024 17:28

chore(pipeline) : Move the snapshots to a sources folder

66c9496

To mimic the behavior found with all the models.

feat(monitoring) : Add a snapshot of the quality stats

bc611b9

feat(pipeline) : Run stats & snapshots all the time

5e7e2ba

We'll test and get notified about the data quality another time.

vperron force-pushed the vperron/snapshot-monitoring branch from e577719 to 5e7e2ba Compare August 12, 2024 15:29

vperron temporarily deployed to staging August 12, 2024 15:33 — with GitHub Actions Inactive

vperron had a problem deploying to prod August 12, 2024 15:33 — with GitHub Actions Failure

chore(pipeline) : Ensure quality models are not run after geocoding

a315cbf

It's going to all change after Valentin's geocoding revamp anyway. Still I don't get why they get run.

vperron temporarily deployed to staging August 12, 2024 16:23 — with GitHub Actions Inactive

vperron had a problem deploying to prod August 12, 2024 16:23 — with GitHub Actions Failure

vmttn approved these changes Aug 13, 2024

View reviewed changes

vmttn merged commit 41ed26a into main Aug 13, 2024
8 of 9 checks passed

vmttn deleted the vperron/snapshot-monitoring branch August 13, 2024 07:23

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat(pipeline) : Lancer et snapshotter le modèle de monitoring #267

feat(pipeline) : Lancer et snapshotter le modèle de monitoring #267

vperron commented Aug 6, 2024

vperron commented Aug 6, 2024

vmttn commented Aug 9, 2024

vperron commented Aug 12, 2024

vmttn Aug 12, 2024

vmttn Aug 12, 2024

vmttn Aug 12, 2024

vperron Aug 12, 2024

vmttn Aug 12, 2024

vperron Aug 12, 2024

vperron Aug 12, 2024

vperron commented Aug 12, 2024

feat(pipeline) : Lancer et snapshotter le modèle de monitoring #267

feat(pipeline) : Lancer et snapshotter le modèle de monitoring #267

Conversation

vperron commented Aug 6, 2024

vperron commented Aug 6, 2024

vmttn commented Aug 9, 2024

vperron commented Aug 12, 2024

vmttn Aug 12, 2024

Choose a reason for hiding this comment

vmttn Aug 12, 2024

Choose a reason for hiding this comment

vmttn Aug 12, 2024

Choose a reason for hiding this comment

vperron Aug 12, 2024

Choose a reason for hiding this comment

vmttn Aug 12, 2024

Choose a reason for hiding this comment

vperron Aug 12, 2024

Choose a reason for hiding this comment

vperron Aug 12, 2024

Choose a reason for hiding this comment

vperron commented Aug 12, 2024