Homelab KI-Bot — ALLE PHASEN ERLEDIGT ✅ #12

New issue

Closed

opened 2026-03-08 05:29:34 +00:00 by orbitalo · 1 comment

orbitalo commented

2026-03-08 05:29:34 +00:00

Owner

Status: KOMPLETT (08.03.2026)

Alle 8 Phasen abgeschlossen.

Phasen

Phase 0: Telegram Bot via @BotFather erstellt → @Orbitalo_Hausmeister_bot
Phase 1: LXC Container CT 116 auf pve-hetzner (Debian 12, Python 3.11, Tailscale)
Phase 2: Prometheus + Node-Exporter auf pve-hetzner (Port 9090/9100)
Phase 3: Core-Module + MCP-Server auf pve-hetzner Host
Phase 4: sync-state.sh Vollausbau (Python, Core-Module) + .cursorrules reiner Router
Phase 5: Telegram Bot (CT 116) — /status, /errors, /ct, /health, /logs, /silence, /report, /check + Freitext via OpenRouter
Phase 6: systemd Service + Cron (monitor.py alle 15 Min)
Phase 7: Gesamttest bestanden — alle Komponenten aktiv

Architektur

homelab.conf (Wahrheit)
     ↓
Core-Module (config, loki, proxmox)
     ↓
┌──────────┬──────────┬──────────┐
│ MCP      │ TG Bot   │ Sync     │
│ Server   │ CT 116   │ State    │
└──────────┴──────────┴──────────┘

Komponenten

Komponente	Ort	Status
Telegram Bot	CT 116 (systemd)	active
Monitoring Cron	CT 116 (*/15 min)	active
Prometheus	pve-hetzner :9090	active
Node-Exporter	pve-hetzner :9100	active
sync_state.py	pve-hetzner (cron */15)	active
Core-Module	/root/homelab-mcp/core/	OK
MCP-Server	Cursor IDE	OK
homelab.conf	Forgejo committed	OK

## Status: KOMPLETT (08.03.2026) Alle 8 Phasen abgeschlossen. ### Phasen - [x] **Phase 0**: Telegram Bot via @BotFather erstellt → @Orbitalo_Hausmeister_bot - [x] **Phase 1**: LXC Container CT 116 auf pve-hetzner (Debian 12, Python 3.11, Tailscale) - [x] **Phase 2**: Prometheus + Node-Exporter auf pve-hetzner (Port 9090/9100) - [x] **Phase 3**: Core-Module + MCP-Server auf pve-hetzner Host - [x] **Phase 4**: sync-state.sh Vollausbau (Python, Core-Module) + .cursorrules reiner Router - [x] **Phase 5**: Telegram Bot (CT 116) — /status, /errors, /ct, /health, /logs, /silence, /report, /check + Freitext via OpenRouter - [x] **Phase 6**: systemd Service + Cron (monitor.py alle 15 Min) - [x] **Phase 7**: Gesamttest bestanden — alle Komponenten aktiv ### Architektur ``` homelab.conf (Wahrheit) ↓ Core-Module (config, loki, proxmox) ↓ ┌──────────┬──────────┬──────────┐ │ MCP │ TG Bot │ Sync │ │ Server │ CT 116 │ State │ └──────────┴──────────┴──────────┘ ``` ### Komponenten | Komponente | Ort | Status | |---|---|---| | Telegram Bot | CT 116 (systemd) | active | | Monitoring Cron | CT 116 (*/15 min) | active | | Prometheus | pve-hetzner :9090 | active | | Node-Exporter | pve-hetzner :9100 | active | | sync_state.py | pve-hetzner (cron */15) | active | | Core-Module | /root/homelab-mcp/core/ | OK | | MCP-Server | Cursor IDE | OK | | homelab.conf | Forgejo committed | OK |

orbitalo added the

prio-1

infrastruktur

ki-tower

labels 2026-03-08 05:29:34 +00:00

orbitalo commented

2026-03-08 05:32:19 +00:00

Author

Owner

Watchdog-Fehlalarme (08.03.2026 12:15 + 12:30)

CT 101 (WordPress) und CT 109 (RSS Manager) werden alle 15 Min als DOWN gemeldet — beide laufen aber einwandfrei.

Ursache

sync-state.sh Watchdog hat ein Timing-Problem:

RSS Manager (CT 109): check_service prueft systemctl is-active rss-manager via pct exec. Bei hoher Last oder langsamer Antwort kommt unknown zurueck → Fehlalarm. Kurz danach ist er wieder da → "wieder online" Meldung.
WordPress (CT 101): docker inspect via pct exec liefert unknown wenn der Befehl zu langsam ist oder Docker noch nicht antwortet → Fehlalarm.

Beide Services laufen nachweislich (Docker: Up 2 days, rss-manager: active since 07.03.).

Fix (in Phase 4 mit erledigen)

pct exec Timeout erhoehen oder Retry-Logik einbauen
Fehlalarm erst nach 2 aufeinanderfolgenden Checks senden (nicht sofort)
Besser: Watchdog ueber Loki-Stille statt pct exec Healthchecks (wenn Host >35 Min keine Logs sendet = wirklich down)
Der neue KI-Bot (Phase 5) ersetzt diesen simplen Watchdog komplett

Aktuelle Workaround

Kein Handlungsbedarf — die Services laufen. Die Fehlalarme sind nervig aber harmlos.

## Watchdog-Fehlalarme (08.03.2026 12:15 + 12:30) CT 101 (WordPress) und CT 109 (RSS Manager) werden alle 15 Min als DOWN gemeldet — beide laufen aber einwandfrei. ### Ursache `sync-state.sh` Watchdog hat ein Timing-Problem: 1. **RSS Manager (CT 109)**: `check_service` prueft `systemctl is-active rss-manager` via `pct exec`. Bei hoher Last oder langsamer Antwort kommt `unknown` zurueck → Fehlalarm. Kurz danach ist er wieder da → "wieder online" Meldung. 2. **WordPress (CT 101)**: `docker inspect` via `pct exec` liefert `unknown` wenn der Befehl zu langsam ist oder Docker noch nicht antwortet → Fehlalarm. Beide Services laufen nachweislich (Docker: `Up 2 days`, rss-manager: `active since 07.03.`). ### Fix (in Phase 4 mit erledigen) - `pct exec` Timeout erhoehen oder Retry-Logik einbauen - Fehlalarm erst nach 2 aufeinanderfolgenden Checks senden (nicht sofort) - Besser: Watchdog ueber Loki-Stille statt `pct exec` Healthchecks (wenn Host >35 Min keine Logs sendet = wirklich down) - Der neue KI-Bot (Phase 5) ersetzt diesen simplen Watchdog komplett ### Aktuelle Workaround Kein Handlungsbedarf — die Services laufen. Die Fehlalarme sind nervig aber harmlos.

orbitalo changed title from ~~Homelab KI-Bot — Phase 3 (MCP) erledigt, Phasen 0-2 + 4-7 offen~~ to Homelab KI-Bot — ALLE PHASEN ERLEDIGT ✅

2026-03-08 07:43:04 +00:00

orbitalo closed this issue

2026-03-08 07:43:06 +00:00