PLAN.md: GPT-5.4 fuer Skripte (Cloud), Qwen 14B nur noch Szenenplan (lokal), hybride Architektur

2026-03-16 12:07:42 +07:00 · 2026-03-16 12:07:42 +07:00 · d4c8e49f51
commit d4c8e49f51
parent d324f204ed
1 changed files with 41 additions and 14 deletions
--- a/ki-video/PLAN.md
+++ b/ki-video/PLAN.md
@ -69,19 +69,25 @@ Die Lippenbewegung wird aus dem XTTS-Voiceover-Audio abgeleitet.

 ## Produktions-Pipeline (5 GPUs parallel)

-Kernidee: **Phase 1 ist seriell (Skript), Phase 2 nutzt alle 5 GPUs parallel, Phase 3 ist Assembly.**
-Das macht aus 3-4 Stunden seriellem Rendern ca. 40-60 Minuten Gesamtzeit.
+Kernidee: **Phase 1 = Cloud-LLM (Skript), Phase 2 = alle 5 lokale GPUs parallel, Phase 3 = Assembly.**
+Skriptqualitaet ist der Flaschenhals — deshalb Cloud-LLM fuer Kreativarbeit, lokale GPUs fuer Massenproduktion.

 ```
-PHASE 1 — SKRIPT (ki-tower, seriell, ~10-15 Min)
-══════════════════════════════════════════════════
+PHASE 1 — SKRIPT + SZENENPLAN (~15-30 Min, Cloud + lokal)
+═════════════════════════════════════════════════════════
 Thema + Recherche-Notizen (manuell)
  │
  ▼
-Qwen 14B (vLLM, :8401) → Skript (~4000 Woerter, 20 Min Lesezeit)
+GPT-5.4 (OpenAI API) → Skript (~4000 Woerter, 20 Min Lesezeit)
+  │                      Persoenlichkeit, Meinung, Storytelling, Stil
+  │                      Kosten: ~0.10-0.50 EUR pro Skript
  │
  ▼
-Qwen 14B → Szenenplan: 100 Szenen mit je:
+Menschliches Review (~20-30 Min) → Korrektur, Feinschliff, Faktencheck
+  │
+  ▼
+Qwen 14B (lokal, vLLM, :8401) → Szenenplan aus fertigem Skript:
+             100 Szenen mit je:
             - Bildprompt (EN, fuer FLUX/SDXL)
             - Szenentyp (hero / standard / infografik / karte)
             - Text-Overlay (falls noetig)
@ -90,6 +96,12 @@ Qwen 14B → Szenenplan: 100 Szenen mit je:
  ▼
 Skript + Szenenplan als JSON → Orchestrator

+Warum hybrid?
+- GPT-5.4 fuer Skripte: beste Qualitaet, Persoenlichkeit, deutsche Sprache auf Top-Niveau
+- Qwen 14B lokal fuer Szenenplan: strukturierte JSON-Generierung, braucht keine Kreativitaet
+- Kein Vendor-Lock: Skript kann auch mit Claude, Gemini o.ae. generiert werden
+- Kosten pro Video: ~0.10-0.50 EUR (irrelevant vs. Stromkosten der GPUs)
+
 PHASE 2a — TTS-VOICEOVER (3080 #0, ~15 Min, startet sofort)
 ═════════════════════════════════════════════════════════════
  Orchestrator schickt Skript-Text an XTTS v2 Worker.
@ -199,12 +211,13 @@ INPUT:
  Thema: "Irans neue Hyperschallrakete — geopolitische und wirtschaftliche Folgen"
  Recherche: 3-4 Quellenlinks, eigene Stichpunkte

-PHASE 1 — Qwen 14B generiert:
-  ├── Skript: ~4500 Woerter, 24 Min Lesezeit
+PHASE 1 — Skript + Szenenplan:
+  ├── GPT-5.4 (Cloud): Skript ~4500 Woerter, 24 Min Lesezeit
  │   "Was ich euch heute zeige, veraendert die Welt..."
  │   Kapitel: Waffentechnik → Strategie → Oel → Europa → Fazit
+  │   → Mensch reviewt und korrigiert (~20 Min)
  │
-  └── Szenenplan (JSON): 105 Szenen
+  └── Qwen 14B (lokal): Szenenplan (JSON) aus fertigem Skript: 105 Szenen
      Szene 001: { typ: "hero",   prompt: "dramatic missile launch, night sky, photorealistic",
                   overlay: "Mach 15 — Irans Hyperschallwaffe", dauer: 8s }
      Szene 002: { typ: "karte",  prompt: "middle east map, iran highlighted, military bases marked",
@ -274,17 +287,27 @@ Gesamtzeit: **~75 Minuten** fuer ein 24-Minuten-Video mit sprechendem Avatar. Fe

 ## Rollenverteilung — Was laeuft wo

+### Cloud — Skript-Generierung
+
+| Aufgabe | Modell | Kosten | Anmerkung |
+|---|---|---|---|
+| **Skripte** | GPT-5.4 (OpenAI API) | ~0.10-0.50 EUR/Skript | Persoenlichkeit, Storytelling, Meinung |
+
+Skriptqualitaet ist der Flaschenhals. Kein lokales Modell kommt an GPT-5.4 ran fuer
+kreatives, meinungsstarkes, deutsches Storytelling. Cloud-Kosten sind vernachlaessigbar.
+
 ### ki-tower (RTX 3090) — Hauptpfad

 | Aufgabe | Modell | VRAM | Anmerkung |
 |---|---|---|---|
-| **Skripte** | Qwen 2.5 14B (Q5) | ~12 GB | Default. 32B nur wenn 14B nachweislich nicht reicht. |
+| **Szenenplan** | Qwen 2.5 14B (Q5) | ~12 GB | Strukturiertes JSON aus fertigem Skript. Braucht keine Kreativitaet. |
 | **Hero-Bilder** | FLUX.1-dev | ~12 GB | Hochwertige Key-Visuals (Kapitelwechsel, Titel, Outro) |
 | **Compositing** | FFmpeg | CPU | Ken-Burns + Avatar-PiP + Overlays + Audio-Mix |
 | **Encoding** | FFmpeg + NVENC | ~1 GB | Hardware-beschleunigt |
 | **Orchestrator** | Python | CPU | Steuert alle Schritte, verteilt Jobs an Worker |

-Auf der 3090 nur: LLM + FLUX + Assembly. Keine TTS, kein Avatar — das machen die 3080er.
+3090 macht NUR: Szenenplan (Qwen) + Hero-Bilder (FLUX) + Assembly.
+Skripte kommen fertig aus der Cloud. TTS + Avatar machen die 3080er.

 ### gpu-worker (4x RTX 3080) — Produktive Worker-Jobs

@ -557,8 +580,9 @@ PHASE 7 — AMD-Rig Entscheidung (optional, spaeter)
 | OS ki-tower | **Debian 12** | Einfacher fuer GPU, Docker, kein Hypervisor-Overhead |
 | OS gpu-worker | **Debian 12** | Identisch mit ki-tower, CUDA-nativ, kein Sonderweg |
 | Worker-Rig | **4x RTX 3080** | CUDA-nativ > 8x RX 6600 XT mit ROCm-Workarounds |
-| LLM-Modell | **Qwen 14B** (Default) | 12 GB VRAM, laesst Platz. 32B nur als Upgrade. |
-| LLM-Server | **vLLM** | Schneller als llama.cpp bei Batch, Model-Unloading |
+| Skript-LLM | **GPT-5.4** (Cloud) | Beste Qualitaet fuer Kreativarbeit. ~0.10-0.50 EUR/Skript. |
+| Szenenplan-LLM | **Qwen 14B** (lokal) | Strukturiertes JSON aus Skript, braucht keine Kreativitaet. |
+| LLM-Server (lokal) | **vLLM** | Schneller als llama.cpp bei Batch, Model-Unloading |
 | Bildgenerierung | **ComfyUI + FLUX.1-dev** | Flexibel, Workflow-basiert, gute Qualitaet |
 | TTS v1 | **Piper TTS** (CPU) | Kein GPU-Verbrauch, sofort einsatzbereit |
 | TTS v2 | **XTTS v2** (3090 oder 3080) | Voice-Cloning, natuerlichere Stimme. 4 GB VRAM, passt auf 3080. |
@ -586,7 +610,10 @@ PHASE 7 — AMD-Rig Entscheidung (optional, spaeter)
 | gpu-worker Hardware | vorhanden | — |
 | Strom ki-tower (24/7) | — | ~30-40 EUR |
 | Strom gpu-worker (bei Bedarf) | — | ~10-30 EUR (nicht 24/7) |
+| **GPT-5.4 API (Skripte)** | — | **~3-15 EUR** (6-24 Skripte/Monat) |
 | Cloud-APIs (Fallback TTS) | — | ~5-10 EUR |
-| **Gesamt** | 0 EUR | ~45-80 EUR |
+| **Gesamt** | 0 EUR | ~50-95 EUR |

 Zum Vergleich: Vollstaendig cloud-basierte Videoproduktion (Runway, ElevenLabs, GPT-4) = 100-300 EUR/Monat.
+Die GPT-5.4-Kosten fuer Skripte sind der beste ROI im ganzen Projekt: ~0.50 EUR fuer
+ein Skript, das ein lokales 14B-Modell qualitativ nie erreichen wuerde.