add MimirContinuousTestFailingOnWrites and MimirContinuousTestFailing… #1355

QuantumEnigmaa · 2024-09-10T09:46:35Z

As discussed in the above issue, this PR adds 2 alerts based on the mimir's continous-test component's metrics so that we get alerted when something is wrong in the read or write path.

Those 2 alerts are directly taken from upstream mixins as explained in the comments.

Before merging this PR, I still need to add UTs as well as create a dedicated dashboard for the continous-test component.

Checklist

Update CHANGELOG.md
Add Unit tests
Follow Alert structure
Consider creating a dashboard (guidelines) (if it does not exist already) to help oncallers monitor the status of the issue.
Request review from oncall area, as well as team (e.g: oncall-kaas-cloud GitHub group).

…OnReads alerts

helm/prometheus-rules/templates/platform/atlas/alerting-rules/mimir.rules.yml

…mimir.rules.yml

helm/prometheus-rules/templates/platform/atlas/alerting-rules/mimir.rules.yml

…mimir.rules.yml

helm/prometheus-rules/templates/platform/atlas/alerting-rules/mimir.rules.yml

…mimir.rules.yml

helm/prometheus-rules/templates/platform/atlas/alerting-rules/mimir.rules.yml

…mimir.rules.yml

QuentinBisson · 2024-11-12T14:15:59Z

This is not a draft anymore, I repeat, this is not a draft anymore

hervenicol

So, we're testing the rate of fails, which is fine.
But the continuous tests also provide a counter of reads and writes. Should we test those as well?

For instance, if we can't write data, we won't get any fails increase. But we also won't get any count of new "continuous test writes", which should probably raise an alert?

hervenicol

LGTM.

Note (to self): I'm not happy about the duplicate tests for CAPI. CAPI should now be the default target for tests, and vintage/aws the exception.

QuantumEnigmaa self-assigned this Sep 10, 2024

add MimirContinuousTestFailingOnWrites and MimirContinuousTestFailing…

c375c42

…OnReads alerts

QuantumEnigmaa force-pushed the add-mimir-continoustest-alerts branch from 9d39c58 to c375c42 Compare September 10, 2024 09:52

QuantumEnigmaa mentioned this pull request Sep 10, 2024

add mimir continous test dashboard giantswarm/dashboards#624

Merged

1 task

QuentinBisson added 4 commits November 5, 2024 10:32

Merge branch 'main' into add-mimir-continoustest-alerts

d6b4ace

Merge branch 'main' into add-mimir-continoustest-alerts

13df703

Update CHANGELOG.md

36a8c3f

Update CHANGELOG.md

360c3ee

QuentinBisson reviewed Nov 12, 2024

View reviewed changes

helm/prometheus-rules/templates/platform/atlas/alerting-rules/mimir.rules.yml Outdated Show resolved Hide resolved

Update helm/prometheus-rules/templates/platform/atlas/alerting-rules/…

70ca988

…mimir.rules.yml

QuentinBisson reviewed Nov 12, 2024

View reviewed changes

helm/prometheus-rules/templates/platform/atlas/alerting-rules/mimir.rules.yml Outdated Show resolved Hide resolved

Update helm/prometheus-rules/templates/platform/atlas/alerting-rules/…

be82d78

…mimir.rules.yml

QuentinBisson reviewed Nov 12, 2024

View reviewed changes

helm/prometheus-rules/templates/platform/atlas/alerting-rules/mimir.rules.yml Outdated Show resolved Hide resolved

Update helm/prometheus-rules/templates/platform/atlas/alerting-rules/…

dc61d6d

…mimir.rules.yml

QuentinBisson reviewed Nov 12, 2024

View reviewed changes

helm/prometheus-rules/templates/platform/atlas/alerting-rules/mimir.rules.yml Outdated Show resolved Hide resolved

Update helm/prometheus-rules/templates/platform/atlas/alerting-rules/…

1d2797a

…mimir.rules.yml

QuentinBisson marked this pull request as ready for review November 12, 2024 14:15

QuentinBisson requested a review from a team as a code owner November 12, 2024 14:15

add tests for rules

5d3aa9e

QuentinBisson force-pushed the add-mimir-continoustest-alerts branch from 7837d81 to 5d3aa9e Compare November 12, 2024 14:23

hervenicol reviewed Nov 12, 2024

View reviewed changes

fix tests

4963d56

QuentinBisson force-pushed the add-mimir-continoustest-alerts branch from 8799704 to 4963d56 Compare November 12, 2024 16:21

QuentinBisson added 4 commits November 12, 2024 17:22

Update CHANGELOG.md

9f1b29e

add mimir continuous test missing alert

d42aeec

add new test

a3e3bc3

fix tests

5b82acd

QuentinBisson mentioned this pull request Nov 14, 2024

Mimir testing giantswarm/roadmap#3578

Closed

4 tasks

QuentinBisson enabled auto-merge (squash) November 14, 2024 17:28

hervenicol approved these changes Nov 15, 2024

View reviewed changes

QuentinBisson merged commit 9b485cd into main Nov 15, 2024
7 checks passed

QuentinBisson deleted the add-mimir-continoustest-alerts branch November 15, 2024 10:49

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

add MimirContinuousTestFailingOnWrites and MimirContinuousTestFailing… #1355

add MimirContinuousTestFailingOnWrites and MimirContinuousTestFailing… #1355

QuantumEnigmaa commented Sep 10, 2024

QuentinBisson commented Nov 12, 2024

hervenicol left a comment

hervenicol left a comment

add MimirContinuousTestFailingOnWrites and MimirContinuousTestFailing… #1355

add MimirContinuousTestFailingOnWrites and MimirContinuousTestFailing… #1355

Conversation

QuantumEnigmaa commented Sep 10, 2024

Checklist

QuentinBisson commented Nov 12, 2024

hervenicol left a comment

Choose a reason for hiding this comment

hervenicol left a comment

Choose a reason for hiding this comment