From d4c8e49f5128908c1eea2daaea30a9286440dcb3 Mon Sep 17 00:00:00 2001
From: root <root@pve1.takeo.lan>
Date: Mon, 16 Mar 2026 12:07:42 +0700
Subject: [PATCH] PLAN.md: GPT-5.4 fuer Skripte (Cloud), Qwen 14B nur noch
 Szenenplan (lokal), hybride Architektur

---
 ki-video/PLAN.md | 55 ++++++++++++++++++++++++++++++++++++------------
 1 file changed, 41 insertions(+), 14 deletions(-)

diff --git a/ki-video/PLAN.md b/ki-video/PLAN.md
index 35b33f07..35ea1bbf 100644
--- a/ki-video/PLAN.md
+++ b/ki-video/PLAN.md
@@ -69,19 +69,25 @@ Die Lippenbewegung wird aus dem XTTS-Voiceover-Audio abgeleitet.
 
 ## Produktions-Pipeline (5 GPUs parallel)
 
-Kernidee: **Phase 1 ist seriell (Skript), Phase 2 nutzt alle 5 GPUs parallel, Phase 3 ist Assembly.**
-Das macht aus 3-4 Stunden seriellem Rendern ca. 40-60 Minuten Gesamtzeit.
+Kernidee: **Phase 1 = Cloud-LLM (Skript), Phase 2 = alle 5 lokale GPUs parallel, Phase 3 = Assembly.**
+Skriptqualitaet ist der Flaschenhals — deshalb Cloud-LLM fuer Kreativarbeit, lokale GPUs fuer Massenproduktion.
 
 ```
-PHASE 1 — SKRIPT (ki-tower, seriell, ~10-15 Min)
-══════════════════════════════════════════════════
+PHASE 1 — SKRIPT + SZENENPLAN (~15-30 Min, Cloud + lokal)
+═════════════════════════════════════════════════════════
 Thema + Recherche-Notizen (manuell)
   │
   ▼
-Qwen 14B (vLLM, :8401) → Skript (~4000 Woerter, 20 Min Lesezeit)
+GPT-5.4 (OpenAI API) → Skript (~4000 Woerter, 20 Min Lesezeit)
+  │                      Persoenlichkeit, Meinung, Storytelling, Stil
+  │                      Kosten: ~0.10-0.50 EUR pro Skript
   │
   ▼
-Qwen 14B → Szenenplan: 100 Szenen mit je:
+Menschliches Review (~20-30 Min) → Korrektur, Feinschliff, Faktencheck
+  │
+  ▼
+Qwen 14B (lokal, vLLM, :8401) → Szenenplan aus fertigem Skript:
+             100 Szenen mit je:
              - Bildprompt (EN, fuer FLUX/SDXL)
              - Szenentyp (hero / standard / infografik / karte)
              - Text-Overlay (falls noetig)
@@ -90,6 +96,12 @@ Qwen 14B → Szenenplan: 100 Szenen mit je:
   ▼
 Skript + Szenenplan als JSON → Orchestrator
 
+Warum hybrid?
+- GPT-5.4 fuer Skripte: beste Qualitaet, Persoenlichkeit, deutsche Sprache auf Top-Niveau
+- Qwen 14B lokal fuer Szenenplan: strukturierte JSON-Generierung, braucht keine Kreativitaet
+- Kein Vendor-Lock: Skript kann auch mit Claude, Gemini o.ae. generiert werden
+- Kosten pro Video: ~0.10-0.50 EUR (irrelevant vs. Stromkosten der GPUs)
+
 PHASE 2a — TTS-VOICEOVER (3080 #0, ~15 Min, startet sofort)
 ═════════════════════════════════════════════════════════════
   Orchestrator schickt Skript-Text an XTTS v2 Worker.
@@ -199,12 +211,13 @@ INPUT:
   Thema: "Irans neue Hyperschallrakete — geopolitische und wirtschaftliche Folgen"
   Recherche: 3-4 Quellenlinks, eigene Stichpunkte
 
-PHASE 1 — Qwen 14B generiert:
-  ├── Skript: ~4500 Woerter, 24 Min Lesezeit
+PHASE 1 — Skript + Szenenplan:
+  ├── GPT-5.4 (Cloud): Skript ~4500 Woerter, 24 Min Lesezeit
   │   "Was ich euch heute zeige, veraendert die Welt..."
   │   Kapitel: Waffentechnik → Strategie → Oel → Europa → Fazit
+  │   → Mensch reviewt und korrigiert (~20 Min)
   │
-  └── Szenenplan (JSON): 105 Szenen
+  └── Qwen 14B (lokal): Szenenplan (JSON) aus fertigem Skript: 105 Szenen
       Szene 001: { typ: "hero",   prompt: "dramatic missile launch, night sky, photorealistic",
                    overlay: "Mach 15 — Irans Hyperschallwaffe", dauer: 8s }
       Szene 002: { typ: "karte",  prompt: "middle east map, iran highlighted, military bases marked",
@@ -274,17 +287,27 @@ Gesamtzeit: **~75 Minuten** fuer ein 24-Minuten-Video mit sprechendem Avatar. Fe
 
 ## Rollenverteilung — Was laeuft wo
 
+### Cloud — Skript-Generierung
+
+| Aufgabe | Modell | Kosten | Anmerkung |
+|---|---|---|---|
+| **Skripte** | GPT-5.4 (OpenAI API) | ~0.10-0.50 EUR/Skript | Persoenlichkeit, Storytelling, Meinung |
+
+Skriptqualitaet ist der Flaschenhals. Kein lokales Modell kommt an GPT-5.4 ran fuer
+kreatives, meinungsstarkes, deutsches Storytelling. Cloud-Kosten sind vernachlaessigbar.
+
 ### ki-tower (RTX 3090) — Hauptpfad
 
 | Aufgabe | Modell | VRAM | Anmerkung |
 |---|---|---|---|
-| **Skripte** | Qwen 2.5 14B (Q5) | ~12 GB | Default. 32B nur wenn 14B nachweislich nicht reicht. |
+| **Szenenplan** | Qwen 2.5 14B (Q5) | ~12 GB | Strukturiertes JSON aus fertigem Skript. Braucht keine Kreativitaet. |
 | **Hero-Bilder** | FLUX.1-dev | ~12 GB | Hochwertige Key-Visuals (Kapitelwechsel, Titel, Outro) |
 | **Compositing** | FFmpeg | CPU | Ken-Burns + Avatar-PiP + Overlays + Audio-Mix |
 | **Encoding** | FFmpeg + NVENC | ~1 GB | Hardware-beschleunigt |
 | **Orchestrator** | Python | CPU | Steuert alle Schritte, verteilt Jobs an Worker |
 
-Auf der 3090 nur: LLM + FLUX + Assembly. Keine TTS, kein Avatar — das machen die 3080er.
+3090 macht NUR: Szenenplan (Qwen) + Hero-Bilder (FLUX) + Assembly.
+Skripte kommen fertig aus der Cloud. TTS + Avatar machen die 3080er.
 
 ### gpu-worker (4x RTX 3080) — Produktive Worker-Jobs
 
@@ -557,8 +580,9 @@ PHASE 7 — AMD-Rig Entscheidung (optional, spaeter)
 | OS ki-tower | **Debian 12** | Einfacher fuer GPU, Docker, kein Hypervisor-Overhead |
 | OS gpu-worker | **Debian 12** | Identisch mit ki-tower, CUDA-nativ, kein Sonderweg |
 | Worker-Rig | **4x RTX 3080** | CUDA-nativ > 8x RX 6600 XT mit ROCm-Workarounds |
-| LLM-Modell | **Qwen 14B** (Default) | 12 GB VRAM, laesst Platz. 32B nur als Upgrade. |
-| LLM-Server | **vLLM** | Schneller als llama.cpp bei Batch, Model-Unloading |
+| Skript-LLM | **GPT-5.4** (Cloud) | Beste Qualitaet fuer Kreativarbeit. ~0.10-0.50 EUR/Skript. |
+| Szenenplan-LLM | **Qwen 14B** (lokal) | Strukturiertes JSON aus Skript, braucht keine Kreativitaet. |
+| LLM-Server (lokal) | **vLLM** | Schneller als llama.cpp bei Batch, Model-Unloading |
 | Bildgenerierung | **ComfyUI + FLUX.1-dev** | Flexibel, Workflow-basiert, gute Qualitaet |
 | TTS v1 | **Piper TTS** (CPU) | Kein GPU-Verbrauch, sofort einsatzbereit |
 | TTS v2 | **XTTS v2** (3090 oder 3080) | Voice-Cloning, natuerlichere Stimme. 4 GB VRAM, passt auf 3080. |
@@ -586,7 +610,10 @@ PHASE 7 — AMD-Rig Entscheidung (optional, spaeter)
 | gpu-worker Hardware | vorhanden | — |
 | Strom ki-tower (24/7) | — | ~30-40 EUR |
 | Strom gpu-worker (bei Bedarf) | — | ~10-30 EUR (nicht 24/7) |
+| **GPT-5.4 API (Skripte)** | — | **~3-15 EUR** (6-24 Skripte/Monat) |
 | Cloud-APIs (Fallback TTS) | — | ~5-10 EUR |
-| **Gesamt** | 0 EUR | ~45-80 EUR |
+| **Gesamt** | 0 EUR | ~50-95 EUR |
 
 Zum Vergleich: Vollstaendig cloud-basierte Videoproduktion (Runway, ElevenLabs, GPT-4) = 100-300 EUR/Monat.
+Die GPT-5.4-Kosten fuer Skripte sind der beste ROI im ganzen Projekt: ~0.50 EUR fuer
+ein Skript, das ein lokales 14B-Modell qualitativ nie erreichen wuerde.