PLAN.md: GPT-5.4 fuer Skripte (Cloud), Qwen 14B nur noch Szenenplan (lokal), hybride Architektur
This commit is contained in:
parent
d324f204ed
commit
d4c8e49f51
1 changed files with 41 additions and 14 deletions
|
|
@ -69,19 +69,25 @@ Die Lippenbewegung wird aus dem XTTS-Voiceover-Audio abgeleitet.
|
|||
|
||||
## Produktions-Pipeline (5 GPUs parallel)
|
||||
|
||||
Kernidee: **Phase 1 ist seriell (Skript), Phase 2 nutzt alle 5 GPUs parallel, Phase 3 ist Assembly.**
|
||||
Das macht aus 3-4 Stunden seriellem Rendern ca. 40-60 Minuten Gesamtzeit.
|
||||
Kernidee: **Phase 1 = Cloud-LLM (Skript), Phase 2 = alle 5 lokale GPUs parallel, Phase 3 = Assembly.**
|
||||
Skriptqualitaet ist der Flaschenhals — deshalb Cloud-LLM fuer Kreativarbeit, lokale GPUs fuer Massenproduktion.
|
||||
|
||||
```
|
||||
PHASE 1 — SKRIPT (ki-tower, seriell, ~10-15 Min)
|
||||
══════════════════════════════════════════════════
|
||||
PHASE 1 — SKRIPT + SZENENPLAN (~15-30 Min, Cloud + lokal)
|
||||
═════════════════════════════════════════════════════════
|
||||
Thema + Recherche-Notizen (manuell)
|
||||
│
|
||||
▼
|
||||
Qwen 14B (vLLM, :8401) → Skript (~4000 Woerter, 20 Min Lesezeit)
|
||||
GPT-5.4 (OpenAI API) → Skript (~4000 Woerter, 20 Min Lesezeit)
|
||||
│ Persoenlichkeit, Meinung, Storytelling, Stil
|
||||
│ Kosten: ~0.10-0.50 EUR pro Skript
|
||||
│
|
||||
▼
|
||||
Qwen 14B → Szenenplan: 100 Szenen mit je:
|
||||
Menschliches Review (~20-30 Min) → Korrektur, Feinschliff, Faktencheck
|
||||
│
|
||||
▼
|
||||
Qwen 14B (lokal, vLLM, :8401) → Szenenplan aus fertigem Skript:
|
||||
100 Szenen mit je:
|
||||
- Bildprompt (EN, fuer FLUX/SDXL)
|
||||
- Szenentyp (hero / standard / infografik / karte)
|
||||
- Text-Overlay (falls noetig)
|
||||
|
|
@ -90,6 +96,12 @@ Qwen 14B → Szenenplan: 100 Szenen mit je:
|
|||
▼
|
||||
Skript + Szenenplan als JSON → Orchestrator
|
||||
|
||||
Warum hybrid?
|
||||
- GPT-5.4 fuer Skripte: beste Qualitaet, Persoenlichkeit, deutsche Sprache auf Top-Niveau
|
||||
- Qwen 14B lokal fuer Szenenplan: strukturierte JSON-Generierung, braucht keine Kreativitaet
|
||||
- Kein Vendor-Lock: Skript kann auch mit Claude, Gemini o.ae. generiert werden
|
||||
- Kosten pro Video: ~0.10-0.50 EUR (irrelevant vs. Stromkosten der GPUs)
|
||||
|
||||
PHASE 2a — TTS-VOICEOVER (3080 #0, ~15 Min, startet sofort)
|
||||
═════════════════════════════════════════════════════════════
|
||||
Orchestrator schickt Skript-Text an XTTS v2 Worker.
|
||||
|
|
@ -199,12 +211,13 @@ INPUT:
|
|||
Thema: "Irans neue Hyperschallrakete — geopolitische und wirtschaftliche Folgen"
|
||||
Recherche: 3-4 Quellenlinks, eigene Stichpunkte
|
||||
|
||||
PHASE 1 — Qwen 14B generiert:
|
||||
├── Skript: ~4500 Woerter, 24 Min Lesezeit
|
||||
PHASE 1 — Skript + Szenenplan:
|
||||
├── GPT-5.4 (Cloud): Skript ~4500 Woerter, 24 Min Lesezeit
|
||||
│ "Was ich euch heute zeige, veraendert die Welt..."
|
||||
│ Kapitel: Waffentechnik → Strategie → Oel → Europa → Fazit
|
||||
│ → Mensch reviewt und korrigiert (~20 Min)
|
||||
│
|
||||
└── Szenenplan (JSON): 105 Szenen
|
||||
└── Qwen 14B (lokal): Szenenplan (JSON) aus fertigem Skript: 105 Szenen
|
||||
Szene 001: { typ: "hero", prompt: "dramatic missile launch, night sky, photorealistic",
|
||||
overlay: "Mach 15 — Irans Hyperschallwaffe", dauer: 8s }
|
||||
Szene 002: { typ: "karte", prompt: "middle east map, iran highlighted, military bases marked",
|
||||
|
|
@ -274,17 +287,27 @@ Gesamtzeit: **~75 Minuten** fuer ein 24-Minuten-Video mit sprechendem Avatar. Fe
|
|||
|
||||
## Rollenverteilung — Was laeuft wo
|
||||
|
||||
### Cloud — Skript-Generierung
|
||||
|
||||
| Aufgabe | Modell | Kosten | Anmerkung |
|
||||
|---|---|---|---|
|
||||
| **Skripte** | GPT-5.4 (OpenAI API) | ~0.10-0.50 EUR/Skript | Persoenlichkeit, Storytelling, Meinung |
|
||||
|
||||
Skriptqualitaet ist der Flaschenhals. Kein lokales Modell kommt an GPT-5.4 ran fuer
|
||||
kreatives, meinungsstarkes, deutsches Storytelling. Cloud-Kosten sind vernachlaessigbar.
|
||||
|
||||
### ki-tower (RTX 3090) — Hauptpfad
|
||||
|
||||
| Aufgabe | Modell | VRAM | Anmerkung |
|
||||
|---|---|---|---|
|
||||
| **Skripte** | Qwen 2.5 14B (Q5) | ~12 GB | Default. 32B nur wenn 14B nachweislich nicht reicht. |
|
||||
| **Szenenplan** | Qwen 2.5 14B (Q5) | ~12 GB | Strukturiertes JSON aus fertigem Skript. Braucht keine Kreativitaet. |
|
||||
| **Hero-Bilder** | FLUX.1-dev | ~12 GB | Hochwertige Key-Visuals (Kapitelwechsel, Titel, Outro) |
|
||||
| **Compositing** | FFmpeg | CPU | Ken-Burns + Avatar-PiP + Overlays + Audio-Mix |
|
||||
| **Encoding** | FFmpeg + NVENC | ~1 GB | Hardware-beschleunigt |
|
||||
| **Orchestrator** | Python | CPU | Steuert alle Schritte, verteilt Jobs an Worker |
|
||||
|
||||
Auf der 3090 nur: LLM + FLUX + Assembly. Keine TTS, kein Avatar — das machen die 3080er.
|
||||
3090 macht NUR: Szenenplan (Qwen) + Hero-Bilder (FLUX) + Assembly.
|
||||
Skripte kommen fertig aus der Cloud. TTS + Avatar machen die 3080er.
|
||||
|
||||
### gpu-worker (4x RTX 3080) — Produktive Worker-Jobs
|
||||
|
||||
|
|
@ -557,8 +580,9 @@ PHASE 7 — AMD-Rig Entscheidung (optional, spaeter)
|
|||
| OS ki-tower | **Debian 12** | Einfacher fuer GPU, Docker, kein Hypervisor-Overhead |
|
||||
| OS gpu-worker | **Debian 12** | Identisch mit ki-tower, CUDA-nativ, kein Sonderweg |
|
||||
| Worker-Rig | **4x RTX 3080** | CUDA-nativ > 8x RX 6600 XT mit ROCm-Workarounds |
|
||||
| LLM-Modell | **Qwen 14B** (Default) | 12 GB VRAM, laesst Platz. 32B nur als Upgrade. |
|
||||
| LLM-Server | **vLLM** | Schneller als llama.cpp bei Batch, Model-Unloading |
|
||||
| Skript-LLM | **GPT-5.4** (Cloud) | Beste Qualitaet fuer Kreativarbeit. ~0.10-0.50 EUR/Skript. |
|
||||
| Szenenplan-LLM | **Qwen 14B** (lokal) | Strukturiertes JSON aus Skript, braucht keine Kreativitaet. |
|
||||
| LLM-Server (lokal) | **vLLM** | Schneller als llama.cpp bei Batch, Model-Unloading |
|
||||
| Bildgenerierung | **ComfyUI + FLUX.1-dev** | Flexibel, Workflow-basiert, gute Qualitaet |
|
||||
| TTS v1 | **Piper TTS** (CPU) | Kein GPU-Verbrauch, sofort einsatzbereit |
|
||||
| TTS v2 | **XTTS v2** (3090 oder 3080) | Voice-Cloning, natuerlichere Stimme. 4 GB VRAM, passt auf 3080. |
|
||||
|
|
@ -586,7 +610,10 @@ PHASE 7 — AMD-Rig Entscheidung (optional, spaeter)
|
|||
| gpu-worker Hardware | vorhanden | — |
|
||||
| Strom ki-tower (24/7) | — | ~30-40 EUR |
|
||||
| Strom gpu-worker (bei Bedarf) | — | ~10-30 EUR (nicht 24/7) |
|
||||
| **GPT-5.4 API (Skripte)** | — | **~3-15 EUR** (6-24 Skripte/Monat) |
|
||||
| Cloud-APIs (Fallback TTS) | — | ~5-10 EUR |
|
||||
| **Gesamt** | 0 EUR | ~45-80 EUR |
|
||||
| **Gesamt** | 0 EUR | ~50-95 EUR |
|
||||
|
||||
Zum Vergleich: Vollstaendig cloud-basierte Videoproduktion (Runway, ElevenLabs, GPT-4) = 100-300 EUR/Monat.
|
||||
Die GPT-5.4-Kosten fuer Skripte sind der beste ROI im ganzen Projekt: ~0.50 EUR fuer
|
||||
ein Skript, das ein lokales 14B-Modell qualitativ nie erreichen wuerde.
|
||||
|
|
|
|||
Loading…
Add table
Reference in a new issue