PLAN.md: GPT-5.4 fuer Skripte (Cloud), Qwen 14B nur noch Szenenplan (lokal), hybride Architektur

This commit is contained in:
root 2026-03-16 12:07:42 +07:00
parent d324f204ed
commit d4c8e49f51

View file

@ -69,19 +69,25 @@ Die Lippenbewegung wird aus dem XTTS-Voiceover-Audio abgeleitet.
## Produktions-Pipeline (5 GPUs parallel)
Kernidee: **Phase 1 ist seriell (Skript), Phase 2 nutzt alle 5 GPUs parallel, Phase 3 ist Assembly.**
Das macht aus 3-4 Stunden seriellem Rendern ca. 40-60 Minuten Gesamtzeit.
Kernidee: **Phase 1 = Cloud-LLM (Skript), Phase 2 = alle 5 lokale GPUs parallel, Phase 3 = Assembly.**
Skriptqualitaet ist der Flaschenhals — deshalb Cloud-LLM fuer Kreativarbeit, lokale GPUs fuer Massenproduktion.
```
PHASE 1 — SKRIPT (ki-tower, seriell, ~10-15 Min)
══════════════════════════════════════════════════
PHASE 1 — SKRIPT + SZENENPLAN (~15-30 Min, Cloud + lokal)
═════════════════════════════════════════════════════════
Thema + Recherche-Notizen (manuell)
Qwen 14B (vLLM, :8401) → Skript (~4000 Woerter, 20 Min Lesezeit)
GPT-5.4 (OpenAI API) → Skript (~4000 Woerter, 20 Min Lesezeit)
│ Persoenlichkeit, Meinung, Storytelling, Stil
│ Kosten: ~0.10-0.50 EUR pro Skript
Qwen 14B → Szenenplan: 100 Szenen mit je:
Menschliches Review (~20-30 Min) → Korrektur, Feinschliff, Faktencheck
Qwen 14B (lokal, vLLM, :8401) → Szenenplan aus fertigem Skript:
100 Szenen mit je:
- Bildprompt (EN, fuer FLUX/SDXL)
- Szenentyp (hero / standard / infografik / karte)
- Text-Overlay (falls noetig)
@ -90,6 +96,12 @@ Qwen 14B → Szenenplan: 100 Szenen mit je:
Skript + Szenenplan als JSON → Orchestrator
Warum hybrid?
- GPT-5.4 fuer Skripte: beste Qualitaet, Persoenlichkeit, deutsche Sprache auf Top-Niveau
- Qwen 14B lokal fuer Szenenplan: strukturierte JSON-Generierung, braucht keine Kreativitaet
- Kein Vendor-Lock: Skript kann auch mit Claude, Gemini o.ae. generiert werden
- Kosten pro Video: ~0.10-0.50 EUR (irrelevant vs. Stromkosten der GPUs)
PHASE 2a — TTS-VOICEOVER (3080 #0, ~15 Min, startet sofort)
═════════════════════════════════════════════════════════════
Orchestrator schickt Skript-Text an XTTS v2 Worker.
@ -199,12 +211,13 @@ INPUT:
Thema: "Irans neue Hyperschallrakete — geopolitische und wirtschaftliche Folgen"
Recherche: 3-4 Quellenlinks, eigene Stichpunkte
PHASE 1 — Qwen 14B generiert:
├── Skript: ~4500 Woerter, 24 Min Lesezeit
PHASE 1 — Skript + Szenenplan:
├── GPT-5.4 (Cloud): Skript ~4500 Woerter, 24 Min Lesezeit
│ "Was ich euch heute zeige, veraendert die Welt..."
│ Kapitel: Waffentechnik → Strategie → Oel → Europa → Fazit
│ → Mensch reviewt und korrigiert (~20 Min)
└── Szenenplan (JSON): 105 Szenen
└── Qwen 14B (lokal): Szenenplan (JSON) aus fertigem Skript: 105 Szenen
Szene 001: { typ: "hero", prompt: "dramatic missile launch, night sky, photorealistic",
overlay: "Mach 15 — Irans Hyperschallwaffe", dauer: 8s }
Szene 002: { typ: "karte", prompt: "middle east map, iran highlighted, military bases marked",
@ -274,17 +287,27 @@ Gesamtzeit: **~75 Minuten** fuer ein 24-Minuten-Video mit sprechendem Avatar. Fe
## Rollenverteilung — Was laeuft wo
### Cloud — Skript-Generierung
| Aufgabe | Modell | Kosten | Anmerkung |
|---|---|---|---|
| **Skripte** | GPT-5.4 (OpenAI API) | ~0.10-0.50 EUR/Skript | Persoenlichkeit, Storytelling, Meinung |
Skriptqualitaet ist der Flaschenhals. Kein lokales Modell kommt an GPT-5.4 ran fuer
kreatives, meinungsstarkes, deutsches Storytelling. Cloud-Kosten sind vernachlaessigbar.
### ki-tower (RTX 3090) — Hauptpfad
| Aufgabe | Modell | VRAM | Anmerkung |
|---|---|---|---|
| **Skripte** | Qwen 2.5 14B (Q5) | ~12 GB | Default. 32B nur wenn 14B nachweislich nicht reicht. |
| **Szenenplan** | Qwen 2.5 14B (Q5) | ~12 GB | Strukturiertes JSON aus fertigem Skript. Braucht keine Kreativitaet. |
| **Hero-Bilder** | FLUX.1-dev | ~12 GB | Hochwertige Key-Visuals (Kapitelwechsel, Titel, Outro) |
| **Compositing** | FFmpeg | CPU | Ken-Burns + Avatar-PiP + Overlays + Audio-Mix |
| **Encoding** | FFmpeg + NVENC | ~1 GB | Hardware-beschleunigt |
| **Orchestrator** | Python | CPU | Steuert alle Schritte, verteilt Jobs an Worker |
Auf der 3090 nur: LLM + FLUX + Assembly. Keine TTS, kein Avatar — das machen die 3080er.
3090 macht NUR: Szenenplan (Qwen) + Hero-Bilder (FLUX) + Assembly.
Skripte kommen fertig aus der Cloud. TTS + Avatar machen die 3080er.
### gpu-worker (4x RTX 3080) — Produktive Worker-Jobs
@ -557,8 +580,9 @@ PHASE 7 — AMD-Rig Entscheidung (optional, spaeter)
| OS ki-tower | **Debian 12** | Einfacher fuer GPU, Docker, kein Hypervisor-Overhead |
| OS gpu-worker | **Debian 12** | Identisch mit ki-tower, CUDA-nativ, kein Sonderweg |
| Worker-Rig | **4x RTX 3080** | CUDA-nativ > 8x RX 6600 XT mit ROCm-Workarounds |
| LLM-Modell | **Qwen 14B** (Default) | 12 GB VRAM, laesst Platz. 32B nur als Upgrade. |
| LLM-Server | **vLLM** | Schneller als llama.cpp bei Batch, Model-Unloading |
| Skript-LLM | **GPT-5.4** (Cloud) | Beste Qualitaet fuer Kreativarbeit. ~0.10-0.50 EUR/Skript. |
| Szenenplan-LLM | **Qwen 14B** (lokal) | Strukturiertes JSON aus Skript, braucht keine Kreativitaet. |
| LLM-Server (lokal) | **vLLM** | Schneller als llama.cpp bei Batch, Model-Unloading |
| Bildgenerierung | **ComfyUI + FLUX.1-dev** | Flexibel, Workflow-basiert, gute Qualitaet |
| TTS v1 | **Piper TTS** (CPU) | Kein GPU-Verbrauch, sofort einsatzbereit |
| TTS v2 | **XTTS v2** (3090 oder 3080) | Voice-Cloning, natuerlichere Stimme. 4 GB VRAM, passt auf 3080. |
@ -586,7 +610,10 @@ PHASE 7 — AMD-Rig Entscheidung (optional, spaeter)
| gpu-worker Hardware | vorhanden | — |
| Strom ki-tower (24/7) | — | ~30-40 EUR |
| Strom gpu-worker (bei Bedarf) | — | ~10-30 EUR (nicht 24/7) |
| **GPT-5.4 API (Skripte)** | — | **~3-15 EUR** (6-24 Skripte/Monat) |
| Cloud-APIs (Fallback TTS) | — | ~5-10 EUR |
| **Gesamt** | 0 EUR | ~45-80 EUR |
| **Gesamt** | 0 EUR | ~50-95 EUR |
Zum Vergleich: Vollstaendig cloud-basierte Videoproduktion (Runway, ElevenLabs, GPT-4) = 100-300 EUR/Monat.
Die GPT-5.4-Kosten fuer Skripte sind der beste ROI im ganzen Projekt: ~0.50 EUR fuer
ein Skript, das ein lokales 14B-Modell qualitativ nie erreichen wuerde.