# KI-Video — Lokale Produktionspipeline **Stand: 16.03.2026** ## Ziel Lokale, weitgehend automatisierte Produktionsstrecke fuer YouTube-Videos im Commentary-/Erklaerstil. Kein Spielzeug-Demo, sondern eine praktisch nutzbare Pipeline: Thema rein → fertiges Video raus. ## Videoformat | Eigenschaft | Beschreibung | |---|---| | **Typ** | Commentary, Erklaervideos, Meinungs-/Analyseformate | | **Stil** | Sprecherstimme + Bilder + leichte Bewegung + Einblendungen | | **Optional** | Sprechender Avatar (SadTalker) | | **Nicht** | Realfilm, Hollywood-VFX, aufwendige 3D-Animation | | **Vorbild** | Kanaele mit klarer Erzaehlung, guter Struktur, visueller Unterstuetzung | ## Pipeline-Schritte ``` 1. Themenfindung / Recherche │ 2. Skript-Erstellung (lokales LLM) │ 3. Bildgenerierung (Szenen / Illustrationen) │ 4. Sprachausgabe / Voiceover (TTS) │ 5. Optional: Avatar / sprechendes Gesicht │ 6. Zusammenschnitt + Ken-Burns + Compositing │ 7. Export fuer YouTube ``` ## Geplante Komponenten ### Textgenerierung (Skripte) | Komponente | Modell | VRAM | Anmerkung | |---|---|---|---| | **Skript-LLM** | Qwen 2.5 32B (Q4_K_M) | ~20 GB | Passt auf RTX 3090 (24 GB), eng aber machbar | | **Alternative** | Qwen 2.5 14B (Q5) | ~12 GB | Komfortabler, laesst Platz fuer andere Tasks | | **Fallback** | Qwen 2.5 7B | ~6 GB | Fuer Entwuerfe/Vorarbeit, parallel moeglich | Realistisch: 32B fuer finale Skripte, 7B/14B fuer Brainstorming und Iteration. 32B belegt fast den gesamten VRAM — andere GPU-Tasks muessen warten. ### Bildgenerierung | Komponente | Modell | VRAM | Anmerkung | |---|---|---|---| | **Bilder** | FLUX.1-dev | ~12 GB | Gute Qualitaet, laeuft auf RTX 3090 | | **Alternative** | SDXL | ~7 GB | Weniger VRAM, mehr Flexibilitaet | | **Upscaling** | Real-ESRGAN | ~2 GB | Nachschaerfung auf 4K | FLUX.1-dev liefert bessere Qualitaet als SDXL, braucht aber mehr VRAM. Kann NICHT gleichzeitig mit Qwen 32B laufen — sequentiell. ### Sprachausgabe (TTS) | Komponente | Modell | VRAM | Anmerkung | |---|---|---|---| | **TTS** | XTTS v2 (Coqui) | ~2-4 GB | Deutsche Stimme, Voice-Cloning moeglich | | **Alternative** | Piper TTS | CPU-only | Schneller, weniger natuerlich | | **Fallback** | OpenAI TTS API | — | Beste Qualitaet, kostet Geld | XTTS v2 ist der beste Kompromiss: lokal, deutsch, Stimme klonbar. Kann auf GPU oder CPU laufen. Bei GPU: parallel zu leichteren Tasks moeglich. ### Avatar (optional) | Komponente | Modell | VRAM | Anmerkung | |---|---|---|---| | **Talking Head** | SadTalker | ~4-6 GB | Foto + Audio → sprechendes Gesicht | | **Alternative** | Wav2Lip | ~2 GB | Einfacher, weniger natuerlich | | **Zukunft** | LivePortrait / EMO | variabel | Bessere Qualitaet, noch nicht stabil | SadTalker ist ausgereift und braucht wenig VRAM. Input: 1 Foto + 1 Audiodatei → Video mit Lippensync. ### Video-Compositing | Komponente | Tool | GPU? | Anmerkung | |---|---|---|---| | **Schnitt** | FFmpeg | Nein (CPU) | Ken-Burns, Ueberblendungen, Text-Overlays | | **Sequenzierung** | Python + moviepy | Nein | Szenen zusammenfuegen | | **Encoding** | FFmpeg + NVENC | Optional | GPU-beschleunigtes Encoding | | **Untertitel** | Whisper + FFmpeg | ~1.5 GB | Automatische Untertitel | FFmpeg ist das Rueckgrat — robust, scriptbar, keine GPU noetig fuer die meisten Operationen. NVENC (RTX 3090) fuer schnelles Encoding im letzten Schritt. ## Hardware ### Hauptmaschine: ki-tower (Muldenstein, geplant) | Eigenschaft | Wert | |---|---| | **CPU** | AMD Ryzen 7 7700 (8C/16T) | | **RAM** | 64 GB DDR5 | | **GPU** | NVIDIA RTX 3090 (24 GB VRAM) | | **Storage** | 1 TB NVMe | | **OS** | Debian 12 oder Proxmox (noch offen) | | **Logischer Name** | ki-tower | ### Unterstuetzung: gpu-worker (Mining-Rig, Muldenstein, geplant) | Eigenschaft | Wert | |---|---| | **GPUs** | Mehrere AMD RX 6600 XT (je 8 GB VRAM) | | **Funktion** | Worker-Pool fuer leichtere Pipeline-Schritte | | **Geeignet fuer** | Upscaling, TTS, Whisper, Batch-Bildgenerierung (SDXL) | | **Nicht geeignet fuer** | Qwen 32B, FLUX.1-dev, SadTalker auf hoher Qualitaet | | **ROCm** | Inoffiziell (gfx1032), 1-Karten-Test steht aus | ### Arbeitsteilung ``` ki-tower (RTX 3090, 24 GB) gpu-worker (RX 6600 XT, je 8 GB) ├── Qwen 32B (Skripte) ├── SDXL Batch (Nebenbilder) ├── FLUX.1-dev (Hauptbilder) ├── Real-ESRGAN (Upscaling) ├── SadTalker (Avatar) ├── XTTS v2 / Piper (TTS) ├── FFmpeg + NVENC (Finaler Render) ├── Whisper (Untertitel) └── Orchestrierung └── Vorverarbeitung ``` ## VRAM-Budget pro Pipeline-Schritt (RTX 3090) Die Schritte laufen SEQUENTIELL, nicht parallel — nur eine schwere Aufgabe gleichzeitig: ``` Schritt 1: Skript → Qwen 32B → ~20 GB VRAM → entladen Schritt 2: Bilder → FLUX.1-dev → ~12 GB VRAM → entladen Schritt 3: TTS → XTTS v2 → ~4 GB VRAM → entladen Schritt 4: Avatar → SadTalker → ~6 GB VRAM → entladen Schritt 5: Compositing → FFmpeg (CPU) → 0 GB VRAM Schritt 6: Encoding → NVENC → ~1 GB VRAM ``` Gesamtzeit pro Video (geschaetzt, 10 Min Video): - Skript: 5-15 Min - Bilder (20-30 Stueck): 20-40 Min - TTS: 5-10 Min - Avatar: 10-20 Min - Compositing: 5-10 Min - Encoding: 2-5 Min - **Gesamt: ca. 1-2 Stunden pro 10-Min-Video** ## Architektur ``` Orchestrator (Python) ├── /scripts/ → Skript-Generierung (Qwen via llama.cpp / vLLM) ├── /images/ → Bild-Generierung (ComfyUI / FLUX) ├── /audio/ → TTS (XTTS v2 Server) ├── /avatar/ → Talking Head (SadTalker) ├── /compose/ → Video-Assembly (FFmpeg + moviepy) ├── /export/ → Finaler Render + Upload-Vorbereitung └── /projects/ → Pro Video ein Projektordner mit allen Assets ``` Jeder Schritt ist ein eigener Service/Container: - Kann einzeln gestartet/gestoppt werden - Belegt VRAM nur wenn aktiv - Austauschbar (z.B. FLUX → SDXL, XTTS → Piper) ## Nicht-Ziele - Kein Forschungsprojekt - Keine Bastelwiese ohne Ergebnis - Keine Dauerabhaengigkeit von Cloud-Abos - Keine Architektur die nur auf dem Papier funktioniert - Kein Hollywood-Kino ## Stufenplan ### Stufe 1 — Grundlagen (ki-tower aufbauen) | Was | Status | |---|---| | ki-tower Hardware zusammenbauen | geplant | | Debian 12 + NVIDIA-Treiber + CUDA + Docker | geplant | | llama.cpp / vLLM mit Qwen 2.5 installieren | geplant | | Erster Skript-Test: Thema → strukturiertes Skript | geplant | ### Stufe 2 — Bilder + TTS | Was | Status | |---|---| | ComfyUI + FLUX.1-dev installieren | geplant | | XTTS v2 Server aufsetzen (Docker) | geplant | | Test: Skript → passende Bilder + Voiceover | geplant | ### Stufe 3 — Avatar + Compositing | Was | Status | |---|---| | SadTalker installieren | geplant | | FFmpeg-Pipeline: Bilder + Audio + Avatar → Video | geplant | | Erster kompletter Durchlauf: Thema → fertiges Video | geplant | ### Stufe 4 — Orchestrierung + Automatisierung | Was | Status | |---|---| | Python-Orchestrator: alle Schritte verkettet | geplant | | Projektordner-Struktur (Assets pro Video) | geplant | | GPU-Worker-Integration (falls ROCm-Test erfolgreich) | geplant | ### Stufe 5 — Produktion + Optimierung | Was | Status | |---|---| | Regelmaessige Videoproduktion (1-2 pro Woche) | geplant | | Prompt-Templates fuer verschiedene Videoformate | geplant | | Qualitaetskontrolle + Feedback-Loop | geplant | | Optional: Semi-automatischer YouTube-Upload | geplant | ## Offene Entscheidungen | Frage | Optionen | Tendenz | |---|---|---| | OS fuer ki-tower | Debian 12 vs Proxmox | Debian (einfacher fuer GPU) | | LLM-Server | llama.cpp vs vLLM vs Ollama | vLLM (schneller bei Batch) | | Bild-UI | ComfyUI vs API-only | ComfyUI (flexibler, Workflows) | | TTS Sprache | Deutsch-only vs Multi | Deutsch zuerst, Englisch spaeter | | Avatar ja/nein | Immer vs nur bei manchen Videos | Optional pro Video | ## Risiken | Risiko | Schwere | Mitigation | |---|---|---| | VRAM-Engpass bei 32B + Bildern | Mittel | Sequentiell arbeiten, 14B als Alternative | | TTS-Qualitaet Deutsch | Mittel | XTTS v2 Voice-Cloning testen, Fallback OpenAI | | Avatar wirkt unnatuerlich | Niedrig | Avatar nur optional, kann weggelassen werden | | Pipeline zu komplex | Mittel | Stufe fuer Stufe, jeder Schritt einzeln testbar | | GPU-Worker ROCm-Probleme | Mittel | 1-Karten-Test, Fallback: alles auf ki-tower |