Homelab KI-Bot — ALLE PHASEN ERLEDIGT #12

Closed
opened 2026-03-08 05:29:34 +00:00 by orbitalo · 1 comment
Owner

Status: KOMPLETT (08.03.2026)

Alle 8 Phasen abgeschlossen.

Phasen

  • Phase 0: Telegram Bot via @BotFather erstellt → @Orbitalo_Hausmeister_bot
  • Phase 1: LXC Container CT 116 auf pve-hetzner (Debian 12, Python 3.11, Tailscale)
  • Phase 2: Prometheus + Node-Exporter auf pve-hetzner (Port 9090/9100)
  • Phase 3: Core-Module + MCP-Server auf pve-hetzner Host
  • Phase 4: sync-state.sh Vollausbau (Python, Core-Module) + .cursorrules reiner Router
  • Phase 5: Telegram Bot (CT 116) — /status, /errors, /ct, /health, /logs, /silence, /report, /check + Freitext via OpenRouter
  • Phase 6: systemd Service + Cron (monitor.py alle 15 Min)
  • Phase 7: Gesamttest bestanden — alle Komponenten aktiv

Architektur

homelab.conf (Wahrheit)
     ↓
Core-Module (config, loki, proxmox)
     ↓
┌──────────┬──────────┬──────────┐
│ MCP      │ TG Bot   │ Sync     │
│ Server   │ CT 116   │ State    │
└──────────┴──────────┴──────────┘

Komponenten

Komponente Ort Status
Telegram Bot CT 116 (systemd) active
Monitoring Cron CT 116 (*/15 min) active
Prometheus pve-hetzner :9090 active
Node-Exporter pve-hetzner :9100 active
sync_state.py pve-hetzner (cron */15) active
Core-Module /root/homelab-mcp/core/ OK
MCP-Server Cursor IDE OK
homelab.conf Forgejo committed OK
## Status: KOMPLETT (08.03.2026) Alle 8 Phasen abgeschlossen. ### Phasen - [x] **Phase 0**: Telegram Bot via @BotFather erstellt → @Orbitalo_Hausmeister_bot - [x] **Phase 1**: LXC Container CT 116 auf pve-hetzner (Debian 12, Python 3.11, Tailscale) - [x] **Phase 2**: Prometheus + Node-Exporter auf pve-hetzner (Port 9090/9100) - [x] **Phase 3**: Core-Module + MCP-Server auf pve-hetzner Host - [x] **Phase 4**: sync-state.sh Vollausbau (Python, Core-Module) + .cursorrules reiner Router - [x] **Phase 5**: Telegram Bot (CT 116) — /status, /errors, /ct, /health, /logs, /silence, /report, /check + Freitext via OpenRouter - [x] **Phase 6**: systemd Service + Cron (monitor.py alle 15 Min) - [x] **Phase 7**: Gesamttest bestanden — alle Komponenten aktiv ### Architektur ``` homelab.conf (Wahrheit) ↓ Core-Module (config, loki, proxmox) ↓ ┌──────────┬──────────┬──────────┐ │ MCP │ TG Bot │ Sync │ │ Server │ CT 116 │ State │ └──────────┴──────────┴──────────┘ ``` ### Komponenten | Komponente | Ort | Status | |---|---|---| | Telegram Bot | CT 116 (systemd) | active | | Monitoring Cron | CT 116 (*/15 min) | active | | Prometheus | pve-hetzner :9090 | active | | Node-Exporter | pve-hetzner :9100 | active | | sync_state.py | pve-hetzner (cron */15) | active | | Core-Module | /root/homelab-mcp/core/ | OK | | MCP-Server | Cursor IDE | OK | | homelab.conf | Forgejo committed | OK |
orbitalo added the
prio-1
infrastruktur
ki-tower
labels 2026-03-08 05:29:34 +00:00
Author
Owner

Watchdog-Fehlalarme (08.03.2026 12:15 + 12:30)

CT 101 (WordPress) und CT 109 (RSS Manager) werden alle 15 Min als DOWN gemeldet — beide laufen aber einwandfrei.

Ursache

sync-state.sh Watchdog hat ein Timing-Problem:

  1. RSS Manager (CT 109): check_service prueft systemctl is-active rss-manager via pct exec. Bei hoher Last oder langsamer Antwort kommt unknown zurueck → Fehlalarm. Kurz danach ist er wieder da → "wieder online" Meldung.

  2. WordPress (CT 101): docker inspect via pct exec liefert unknown wenn der Befehl zu langsam ist oder Docker noch nicht antwortet → Fehlalarm.

Beide Services laufen nachweislich (Docker: Up 2 days, rss-manager: active since 07.03.).

Fix (in Phase 4 mit erledigen)

  • pct exec Timeout erhoehen oder Retry-Logik einbauen
  • Fehlalarm erst nach 2 aufeinanderfolgenden Checks senden (nicht sofort)
  • Besser: Watchdog ueber Loki-Stille statt pct exec Healthchecks (wenn Host >35 Min keine Logs sendet = wirklich down)
  • Der neue KI-Bot (Phase 5) ersetzt diesen simplen Watchdog komplett

Aktuelle Workaround

Kein Handlungsbedarf — die Services laufen. Die Fehlalarme sind nervig aber harmlos.

## Watchdog-Fehlalarme (08.03.2026 12:15 + 12:30) CT 101 (WordPress) und CT 109 (RSS Manager) werden alle 15 Min als DOWN gemeldet — beide laufen aber einwandfrei. ### Ursache `sync-state.sh` Watchdog hat ein Timing-Problem: 1. **RSS Manager (CT 109)**: `check_service` prueft `systemctl is-active rss-manager` via `pct exec`. Bei hoher Last oder langsamer Antwort kommt `unknown` zurueck → Fehlalarm. Kurz danach ist er wieder da → "wieder online" Meldung. 2. **WordPress (CT 101)**: `docker inspect` via `pct exec` liefert `unknown` wenn der Befehl zu langsam ist oder Docker noch nicht antwortet → Fehlalarm. Beide Services laufen nachweislich (Docker: `Up 2 days`, rss-manager: `active since 07.03.`). ### Fix (in Phase 4 mit erledigen) - `pct exec` Timeout erhoehen oder Retry-Logik einbauen - Fehlalarm erst nach 2 aufeinanderfolgenden Checks senden (nicht sofort) - Besser: Watchdog ueber Loki-Stille statt `pct exec` Healthchecks (wenn Host >35 Min keine Logs sendet = wirklich down) - Der neue KI-Bot (Phase 5) ersetzt diesen simplen Watchdog komplett ### Aktuelle Workaround Kein Handlungsbedarf — die Services laufen. Die Fehlalarme sind nervig aber harmlos.
orbitalo changed title from Homelab KI-Bot — Phase 3 (MCP) erledigt, Phasen 0-2 + 4-7 offen to Homelab KI-Bot — ALLE PHASEN ERLEDIGT 2026-03-08 07:43:04 +00:00
Sign in to join this conversation.
No milestone
No project
No assignees
1 participant
Notifications
Due date
The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference: orbitalo/homelab-brain#12
No description provided.