Fix some shared alert ownership

Signed-off-by: QuentinBisson <[email protected]>
giantswarm · Jun 10, 2024 · d48f106 · d48f106
1 parent 90fb609
commit d48f106
Show file tree

Hide file tree

Showing 10 changed files with 83 additions and 80 deletions.
diff --git a/helm/prometheus-rules/templates/kaas/phoenix/alerting-rules/aws.job.rules.yml b/helm/prometheus-rules/templates/kaas/phoenix/alerting-rules/aws.job.rules.yml
@@ -1,4 +1,4 @@
-## TODO Remove with vintage
+## TODO Remove when all vintage installations are gone
 # This rule applies to vintage aws management clusters
 {{- if eq .Values.managementCluster.provider.flavor "vintage" }}
 apiVersion: monitoring.coreos.com/v1

diff --git a/helm/prometheus-rules/templates/kaas/phoenix/alerting-rules/aws.node.workload-cluster.yml b/helm/prometheus-rules/templates/kaas/phoenix/alerting-rules/aws.node.workload-cluster.yml
@@ -0,0 +1,42 @@
+{{- if eq .Values.managementCluster.provider.flavor "vintage" }}
+## TODO Remove when all vintage installations are gone
+apiVersion: monitoring.coreos.com/v1
+kind: PrometheusRule
+metadata:
+  creationTimestamp: null
+  labels:
+    {{- include "labels.common" . | nindent 4 }}
+    # No need for .Values.mimir.enabled condition - will be gone with Vintage
+    cluster_type: "workload_cluster"
+  name: aws.node.workload-cluster.rules
+  namespace: {{ .Values.namespace  }}
+spec:
+  groups:
+  - name: aws.node
+    rules:
+    - alert: AWSWorkloadClusterNodeTooManyAutoTermination
+      annotations:
+        description: '{{`Cluster {{ $labels.cluster_id }} has too many nodes terminated by node auto termination feature in a short time.`}}'
+        opsrecipe: node-too-many-auto-termination-aws/
+      expr: increase(aws_operator_unhealthy_node_termination_count[60m]) > 10
+      for: 15m
+      labels:
+        area: kaas
+        cancel_if_cluster_status_creating: "true"
+        cancel_if_cluster_status_deleting: "true"
+        cancel_if_cluster_status_updating: "true"
+        severity: page
+        team: phoenix
+        topic: kubernetes
+    - alert: WorkloadClusterNodeUnexpectedTaintNodeWithImpairedVolumes
+      annotations:
+        description: '{{`Node {{ $labels.node }} has unexpected taint NodeWithImpairedVolumes`}}'
+        opsrecipe: aws-node-taint-NodeWithImpairedVolumes/
+      expr: kube_node_spec_taint{key="NodeWithImpairedVolumes"}
+      for: 30m
+      labels:
+        area: kaas
+        severity: notify
+        team: {{ include "providerTeam" . }}
+        topic: kubernetes
+{{- end }}
diff --git a/.../shared/alerting-rules/bastions.rules.yml → ...turtles/alerting-rules/bastions.rules.yml b/.../shared/alerting-rules/bastions.rules.yml → ...turtles/alerting-rules/bastions.rules.yml
diff --git a/...lates/shared/alerting-rules/job.rules.yml → ...kaas/turtles/alerting-rules/job.rules.yml b/...lates/shared/alerting-rules/job.rules.yml → ...kaas/turtles/alerting-rules/job.rules.yml
diff --git a/helm/prometheus-rules/templates/kaas/turtles/alerting-rules/kubelet.rules.yml b/helm/prometheus-rules/templates/kaas/turtles/alerting-rules/kubelet.rules.yml
@@ -8,6 +8,25 @@ metadata:
   namespace: {{ .Values.namespace  }}
 spec:
   groups:
+  - name: cadvisor
+    rules:
+      - alert: CadvisorDown
+        annotations:
+          description: '{{`Cadvisor ({{ $labels.instance }}) is down.`}}'
+          opsrecipe: kubelet-is-down/
+        expr: label_replace(up{app="cadvisor"}, "ip", "$1", "instance", "(.+):\\d+") == 0
+        for: 1h
+        labels:
+          area: kaas
+          cancel_if_cluster_status_creating: "true"
+          cancel_if_cluster_status_deleting: "true"
+          cancel_if_kubelet_down: "true"
+          cancel_if_cluster_has_no_workers: "true"
+          cancel_if_outside_working_hours: "true"
+          cancel_if_prometheus_agent_down: "true"
+          severity: page
+          team: {{ include "providerTeam" . }}
+          topic: kubernetes
   - name: kubelet
     rules:
     - alert: KubeletConditionBad

diff --git a/...g-rules/node.management_cluster.rules.yml → ...g-rules/node.management-cluster.rules.yml b/...g-rules/node.management_cluster.rules.yml → ...g-rules/node.management-cluster.rules.yml
diff --git a/...ing-rules/node.workload_cluster.rules.yml → ...ing-rules/node.workload-cluster.rules.yml b/...ing-rules/node.workload_cluster.rules.yml → ...ing-rules/node.workload-cluster.rules.yml
@@ -7,7 +7,7 @@ metadata:
 {{- if not .Values.mimir.enabled }}
     cluster_type: "workload_cluster"
 {{- end }}
-  name: node.rules
+  name: node.workload-cluster.rules
   namespace: {{ .Values.namespace  }}
 spec:
   groups:
@@ -27,22 +27,6 @@ spec:
         severity: notify
         team: {{ include "providerTeam" . }}
         topic: kubernetes
-    {{- if eq .Values.managementCluster.provider.kind "aws" }}
-    - alert: AWSWorkloadClusterNodeTooManyAutoTermination
-      annotations:
-        description: '{{`Cluster {{ $labels.cluster_id }} has too many nodes terminated by node auto termination feature in a short time.`}}'
-        opsrecipe: node-too-many-auto-termination-aws/
-      expr: increase(aws_operator_unhealthy_node_termination_count[60m]) > 10
-      for: 15m
-      labels:
-        area: kaas
-        cancel_if_cluster_status_creating: "true"
-        cancel_if_cluster_status_deleting: "true"
-        cancel_if_cluster_status_updating: "true"
-        severity: page
-        team: phoenix
-        topic: kubernetes
-    {{- end }}
     - alert: NodeStateFlappingUnderLoad
       # Check if the kubelet status is flapping, unless the node is under load.
       # It helps to read this rule from the bottom upwards.
@@ -126,19 +110,6 @@ spec:
         severity: notify
         team: {{ include "providerTeam" . }}
         topic: infrastructure
-    {{- if eq .Values.managementCluster.provider.kind "aws" }}
-    - alert: WorkloadClusterNodeUnexpectedTaintNodeWithImpairedVolumes
-      annotations:
-        description: '{{`Node {{ $labels.node }} has unexpected taint NodeWithImpairedVolumes`}}'
-        opsrecipe: aws-node-taint-NodeWithImpairedVolumes/
-      expr: kube_node_spec_taint{key="NodeWithImpairedVolumes"}
-      for: 30m
-      labels:
-        area: kaas
-        severity: notify
-        team: {{ include "providerTeam" . }}
-        topic: kubernetes
-    {{- end }}
     - alert: WorkloadClusterMasterMemoryUsageTooHigh
       annotations:
         description: '{{`Machine {{ $labels.instance }} memory usage is too high (less than 10% and 2G of allocatable memory).`}}'

diff --git a/helm/prometheus-rules/templates/platform/honeybadger/alerting-rules/chart.rules.yml b/helm/prometheus-rules/templates/platform/honeybadger/alerting-rules/chart.rules.yml
@@ -10,6 +10,25 @@ spec:
   groups:
   - name: chart
     rules:
+    - alert: ChartOperatorDown
+      annotations:
+        description: '{{`ChartOperator ({{ $labels.instance }}) is down.`}}'
+        opsrecipe: chart-operator-down/
+      expr: label_replace(up{app=~"chart-operator.*"}, "ip", "$1.$2.$3.$4", "node", "ip-(\\d+)-(\\d+)-(\\d+)-(\\d+).*") == 0
+      for: 15m
+      labels:
+        area: platform
+        cancel_if_cluster_control_plane_unhealthy: "true"
+        cancel_if_cluster_status_creating: "true"
+        cancel_if_cluster_status_deleting: "true"
+        cancel_if_cluster_status_updating: "true"
+        cancel_if_kubelet_down: "true"
+        cancel_if_cluster_has_no_workers: "true"
+        cancel_if_outside_working_hours: {{ include "workingHoursOnly" . }}
+        cancel_if_prometheus_agent_down: "true"
+        severity: notify
+        team: honeybadger
+        topic: releng
     - alert: ChartOrphanConfigMap
       annotations:
         description: '{{`Chart configmaps have not been deleted.`}}'

diff --git a/helm/prometheus-rules/templates/shared/alerting-rules/up.rules.yml b/helm/prometheus-rules/templates/shared/alerting-rules/up.rules.yml
diff --git a/...alerting-rules/kyverno.all.rules.test.yml → ...eld/alerting-rules/kyverno.rules.test.yml b/...alerting-rules/kyverno.all.rules.test.yml → ...eld/alerting-rules/kyverno.rules.test.yml
@@ -1,6 +1,6 @@
 ---
 rule_files:
-  - kyverno.all.rules.yml
+  - kyverno.rules.yml
 tests:
   - interval: 1m
     input_series: