diff --git a/homelab-ai-bot/STATE.md b/homelab-ai-bot/STATE.md
index 33a4eabc..87d8cd32 100644
--- a/homelab-ai-bot/STATE.md
+++ b/homelab-ai-bot/STATE.md
@@ -1,6 +1,6 @@
 # Hausmeister Bot - STATE
-**Stand:** 21.03.2026
-**Status:** Produktiv, sauber, Local-First Architektur
+**Stand:** 25.03.2026
+**Status:** Produktiv — Hybrid-Architektur (GPU Text + Cloud Vision)
 
 ---
 
@@ -54,13 +54,20 @@ liefert in 75s strukturierte Reports mit Quellen.
 
 ---
 
-## KI-Server (RTX 3090, Muldenstein, 100.84.255.83)
+## KI-Server (RTX 3090, ki-server Windows, 100.84.255.83)
 
-| Modell | Typ | Groesse | Zweck |
-|--------|-----|---------|-------|
-| qwen3:30b-a3b | Text, MoE | 18.5 GB | Standard + Tools |
-| qwen3-vl:32b | Vision+Text | 20.9 GB | Bilder, OCR, Dokumente |
-| qwen2.5:14b | Text | 9 GB | Timeout-Fallback |
+GPU-Architektur: Text + Embeddings permanent im VRAM, Vision ueber Cloud.
+Warmup bei Bot-Start via warmup_ollama() mit keep_alive=-1.
+
+| Modell | Typ | VRAM | Status | Zweck |
+|--------|-----|------|--------|-------|
+| qwen3:30b-a3b | Text, MoE | 22.0 GB | PERMANENT | Standard + Tools, alle Dienste |
+| nomic-embed-text | Embedding | 0.6 GB | PERMANENT | RAGFlow, Vektorsuche |
+| qwen2.5:14b | Text | 17.8 GB | on-demand | Timeout-Fallback (verdraengt Hauptmodell!) |
+| Total | | 22.6 / 24 GB | | |
+
+Frueher: qwen3-vl:32b (Vision) lief lokal, konkurrierte mit Text um GPU.
+Jetzt: Vision via openai/gpt-4o-mini (OpenRouter Cloud).
 
 ---
 
diff --git a/infrastructure/RAGFLOW.md b/infrastructure/RAGFLOW.md
index 41bb3287..e6924334 100644
--- a/infrastructure/RAGFLOW.md
+++ b/infrastructure/RAGFLOW.md
@@ -30,7 +30,9 @@
 
 - **Docker Compose** in `/opt/ragflow/docker/`
 - **Elasticsearch** (Vector-DB), MySQL, MinIO, Redis
-- **Ollama** (KI-Server 100.84.255.83): nomic-embed-text (Embeddings), qwen2.5:14b (Chat)
+- **Ollama** (KI-Server 100.84.255.83): nomic-embed-text (Embeddings, PERMANENT im VRAM), qwen2.5:14b (Chat)
+- **WICHTIG**: qwen3:30b-a3b + nomic-embed-text sind permanent geladen (keep_alive=-1).
+  RAGFlow-Chat mit qwen2.5:14b verdraengt das Hauptmodell! Empfehlung: Chat-Modell auf qwen3:30b-a3b umstellen.
 - **Synology SMB** gemountet: `/mnt/synology/Seafile/Nextcloud-Migration/` (~13k PDFs)
 
 ## Wichtige Befehle