From d4c8e49f5128908c1eea2daaea30a9286440dcb3 Mon Sep 17 00:00:00 2001 From: root Date: Mon, 16 Mar 2026 12:07:42 +0700 Subject: [PATCH] PLAN.md: GPT-5.4 fuer Skripte (Cloud), Qwen 14B nur noch Szenenplan (lokal), hybride Architektur --- ki-video/PLAN.md | 55 ++++++++++++++++++++++++++++++++++++------------ 1 file changed, 41 insertions(+), 14 deletions(-) diff --git a/ki-video/PLAN.md b/ki-video/PLAN.md index 35b33f07..35ea1bbf 100644 --- a/ki-video/PLAN.md +++ b/ki-video/PLAN.md @@ -69,19 +69,25 @@ Die Lippenbewegung wird aus dem XTTS-Voiceover-Audio abgeleitet. ## Produktions-Pipeline (5 GPUs parallel) -Kernidee: **Phase 1 ist seriell (Skript), Phase 2 nutzt alle 5 GPUs parallel, Phase 3 ist Assembly.** -Das macht aus 3-4 Stunden seriellem Rendern ca. 40-60 Minuten Gesamtzeit. +Kernidee: **Phase 1 = Cloud-LLM (Skript), Phase 2 = alle 5 lokale GPUs parallel, Phase 3 = Assembly.** +Skriptqualitaet ist der Flaschenhals — deshalb Cloud-LLM fuer Kreativarbeit, lokale GPUs fuer Massenproduktion. ``` -PHASE 1 — SKRIPT (ki-tower, seriell, ~10-15 Min) -══════════════════════════════════════════════════ +PHASE 1 — SKRIPT + SZENENPLAN (~15-30 Min, Cloud + lokal) +═════════════════════════════════════════════════════════ Thema + Recherche-Notizen (manuell) │ ▼ -Qwen 14B (vLLM, :8401) → Skript (~4000 Woerter, 20 Min Lesezeit) +GPT-5.4 (OpenAI API) → Skript (~4000 Woerter, 20 Min Lesezeit) + │ Persoenlichkeit, Meinung, Storytelling, Stil + │ Kosten: ~0.10-0.50 EUR pro Skript │ ▼ -Qwen 14B → Szenenplan: 100 Szenen mit je: +Menschliches Review (~20-30 Min) → Korrektur, Feinschliff, Faktencheck + │ + ▼ +Qwen 14B (lokal, vLLM, :8401) → Szenenplan aus fertigem Skript: + 100 Szenen mit je: - Bildprompt (EN, fuer FLUX/SDXL) - Szenentyp (hero / standard / infografik / karte) - Text-Overlay (falls noetig) @@ -90,6 +96,12 @@ Qwen 14B → Szenenplan: 100 Szenen mit je: ▼ Skript + Szenenplan als JSON → Orchestrator +Warum hybrid? +- GPT-5.4 fuer Skripte: beste Qualitaet, Persoenlichkeit, deutsche Sprache auf Top-Niveau +- Qwen 14B lokal fuer Szenenplan: strukturierte JSON-Generierung, braucht keine Kreativitaet +- Kein Vendor-Lock: Skript kann auch mit Claude, Gemini o.ae. generiert werden +- Kosten pro Video: ~0.10-0.50 EUR (irrelevant vs. Stromkosten der GPUs) + PHASE 2a — TTS-VOICEOVER (3080 #0, ~15 Min, startet sofort) ═════════════════════════════════════════════════════════════ Orchestrator schickt Skript-Text an XTTS v2 Worker. @@ -199,12 +211,13 @@ INPUT: Thema: "Irans neue Hyperschallrakete — geopolitische und wirtschaftliche Folgen" Recherche: 3-4 Quellenlinks, eigene Stichpunkte -PHASE 1 — Qwen 14B generiert: - ├── Skript: ~4500 Woerter, 24 Min Lesezeit +PHASE 1 — Skript + Szenenplan: + ├── GPT-5.4 (Cloud): Skript ~4500 Woerter, 24 Min Lesezeit │ "Was ich euch heute zeige, veraendert die Welt..." │ Kapitel: Waffentechnik → Strategie → Oel → Europa → Fazit + │ → Mensch reviewt und korrigiert (~20 Min) │ - └── Szenenplan (JSON): 105 Szenen + └── Qwen 14B (lokal): Szenenplan (JSON) aus fertigem Skript: 105 Szenen Szene 001: { typ: "hero", prompt: "dramatic missile launch, night sky, photorealistic", overlay: "Mach 15 — Irans Hyperschallwaffe", dauer: 8s } Szene 002: { typ: "karte", prompt: "middle east map, iran highlighted, military bases marked", @@ -274,17 +287,27 @@ Gesamtzeit: **~75 Minuten** fuer ein 24-Minuten-Video mit sprechendem Avatar. Fe ## Rollenverteilung — Was laeuft wo +### Cloud — Skript-Generierung + +| Aufgabe | Modell | Kosten | Anmerkung | +|---|---|---|---| +| **Skripte** | GPT-5.4 (OpenAI API) | ~0.10-0.50 EUR/Skript | Persoenlichkeit, Storytelling, Meinung | + +Skriptqualitaet ist der Flaschenhals. Kein lokales Modell kommt an GPT-5.4 ran fuer +kreatives, meinungsstarkes, deutsches Storytelling. Cloud-Kosten sind vernachlaessigbar. + ### ki-tower (RTX 3090) — Hauptpfad | Aufgabe | Modell | VRAM | Anmerkung | |---|---|---|---| -| **Skripte** | Qwen 2.5 14B (Q5) | ~12 GB | Default. 32B nur wenn 14B nachweislich nicht reicht. | +| **Szenenplan** | Qwen 2.5 14B (Q5) | ~12 GB | Strukturiertes JSON aus fertigem Skript. Braucht keine Kreativitaet. | | **Hero-Bilder** | FLUX.1-dev | ~12 GB | Hochwertige Key-Visuals (Kapitelwechsel, Titel, Outro) | | **Compositing** | FFmpeg | CPU | Ken-Burns + Avatar-PiP + Overlays + Audio-Mix | | **Encoding** | FFmpeg + NVENC | ~1 GB | Hardware-beschleunigt | | **Orchestrator** | Python | CPU | Steuert alle Schritte, verteilt Jobs an Worker | -Auf der 3090 nur: LLM + FLUX + Assembly. Keine TTS, kein Avatar — das machen die 3080er. +3090 macht NUR: Szenenplan (Qwen) + Hero-Bilder (FLUX) + Assembly. +Skripte kommen fertig aus der Cloud. TTS + Avatar machen die 3080er. ### gpu-worker (4x RTX 3080) — Produktive Worker-Jobs @@ -557,8 +580,9 @@ PHASE 7 — AMD-Rig Entscheidung (optional, spaeter) | OS ki-tower | **Debian 12** | Einfacher fuer GPU, Docker, kein Hypervisor-Overhead | | OS gpu-worker | **Debian 12** | Identisch mit ki-tower, CUDA-nativ, kein Sonderweg | | Worker-Rig | **4x RTX 3080** | CUDA-nativ > 8x RX 6600 XT mit ROCm-Workarounds | -| LLM-Modell | **Qwen 14B** (Default) | 12 GB VRAM, laesst Platz. 32B nur als Upgrade. | -| LLM-Server | **vLLM** | Schneller als llama.cpp bei Batch, Model-Unloading | +| Skript-LLM | **GPT-5.4** (Cloud) | Beste Qualitaet fuer Kreativarbeit. ~0.10-0.50 EUR/Skript. | +| Szenenplan-LLM | **Qwen 14B** (lokal) | Strukturiertes JSON aus Skript, braucht keine Kreativitaet. | +| LLM-Server (lokal) | **vLLM** | Schneller als llama.cpp bei Batch, Model-Unloading | | Bildgenerierung | **ComfyUI + FLUX.1-dev** | Flexibel, Workflow-basiert, gute Qualitaet | | TTS v1 | **Piper TTS** (CPU) | Kein GPU-Verbrauch, sofort einsatzbereit | | TTS v2 | **XTTS v2** (3090 oder 3080) | Voice-Cloning, natuerlichere Stimme. 4 GB VRAM, passt auf 3080. | @@ -586,7 +610,10 @@ PHASE 7 — AMD-Rig Entscheidung (optional, spaeter) | gpu-worker Hardware | vorhanden | — | | Strom ki-tower (24/7) | — | ~30-40 EUR | | Strom gpu-worker (bei Bedarf) | — | ~10-30 EUR (nicht 24/7) | +| **GPT-5.4 API (Skripte)** | — | **~3-15 EUR** (6-24 Skripte/Monat) | | Cloud-APIs (Fallback TTS) | — | ~5-10 EUR | -| **Gesamt** | 0 EUR | ~45-80 EUR | +| **Gesamt** | 0 EUR | ~50-95 EUR | Zum Vergleich: Vollstaendig cloud-basierte Videoproduktion (Runway, ElevenLabs, GPT-4) = 100-300 EUR/Monat. +Die GPT-5.4-Kosten fuer Skripte sind der beste ROI im ganzen Projekt: ~0.50 EUR fuer +ein Skript, das ein lokales 14B-Modell qualitativ nie erreichen wuerde.