Monitoring: Fehler-Schwelle X Errors/30 Min → Alert #30

Closed
opened 2026-03-11 14:13:54 +00:00 by orbitalo · 1 comment
Owner

Feature: Error-Rate-Alert

Wenn ein Host mehr als X Fehler-Zeilen innerhalb von 30 Minuten produziert → sofortiger Hausmeister-Alert.

Implementierung

  • In loki_client.py: neue Funktion check_error_rate(threshold=20, minutes=30)
  • Für jeden bekannten Host: count_over_time({host="X"} |~ "(?i)error" [30m]) abfragen
  • Wenn Zähler > threshold → Alert
  • In monitor.py: in check_all() aufrufen
  • Cooldown: 1800s (30 Min)

Warum nötig

Bei der WordPress 401-Welle (März 2026) produzierte der RSS-Manager >50 Fehler in 30 Minuten, ohne dass ein Alert ausgelöst wurde, weil der panic/fatal-Filter die HTTP-Fehler nicht erfasste.

Schwellenwert-Vorschlag

  • rss-manager: > 15 Errors/30 Min
  • wordpress-v2: > 10 Errors/30 Min
  • Alle anderen: > 25 Errors/30 Min
## Feature: Error-Rate-Alert Wenn ein Host mehr als X Fehler-Zeilen innerhalb von 30 Minuten produziert → sofortiger Hausmeister-Alert. ### Implementierung - In `loki_client.py`: neue Funktion `check_error_rate(threshold=20, minutes=30)` - Für jeden bekannten Host: `count_over_time({host="X"} |~ "(?i)error" [30m])` abfragen - Wenn Zähler > threshold → Alert - In `monitor.py`: in `check_all()` aufrufen - Cooldown: 1800s (30 Min) ### Warum nötig Bei der WordPress 401-Welle (März 2026) produzierte der RSS-Manager >50 Fehler in 30 Minuten, ohne dass ein Alert ausgelöst wurde, weil der panic/fatal-Filter die HTTP-Fehler nicht erfasste. ### Schwellenwert-Vorschlag - rss-manager: > 15 Errors/30 Min - wordpress-v2: > 10 Errors/30 Min - Alle anderen: > 25 Errors/30 Min
Author
Owner

Implementiert in Commit 43ee006f:

  • core/loki_client.py: Neue Funktion check_error_rate(minutes=30) mit host-spezifischen Schwellen (rss-manager: 15, wordpress-v2: 10, default: 25)
  • monitor.py: Error-Rate-Check in check_all() eingebaut, neue Cooldown-Kategorie error_rate (1800s)
  • telegram_bot.py: Periodischer Monitor-Loop alle 10 Min (statt nur manuell per /check)

Nutzt Loki count_over_time instant query pro Host — effizient und zuverlässig.

Implementiert in Commit `43ee006f`: - `core/loki_client.py`: Neue Funktion `check_error_rate(minutes=30)` mit host-spezifischen Schwellen (rss-manager: 15, wordpress-v2: 10, default: 25) - `monitor.py`: Error-Rate-Check in `check_all()` eingebaut, neue Cooldown-Kategorie `error_rate` (1800s) - `telegram_bot.py`: Periodischer Monitor-Loop alle 10 Min (statt nur manuell per `/check`) Nutzt Loki `count_over_time` instant query pro Host — effizient und zuverlässig.
Sign in to join this conversation.
No milestone
No project
No assignees
1 participant
Notifications
Due date
The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference: orbitalo/homelab-brain#30
No description provided.