root ae8a81dd9d KI-Video Projekt: PLAN.md mit Pipeline, Komponenten, Hardware, Stufenplan + MASTER_INDEX + homelab.conf

2026-03-16 11:03:24 +07:00

8.3 KiB

Raw Blame History

KI-Video — Lokale Produktionspipeline

Stand: 16.03.2026

Ziel

Lokale, weitgehend automatisierte Produktionsstrecke fuer YouTube-Videos im Commentary-/Erklaerstil. Kein Spielzeug-Demo, sondern eine praktisch nutzbare Pipeline: Thema rein → fertiges Video raus.

Videoformat

Eigenschaft	Beschreibung
Typ	Commentary, Erklaervideos, Meinungs-/Analyseformate
Stil	Sprecherstimme + Bilder + leichte Bewegung + Einblendungen
Optional	Sprechender Avatar (SadTalker)
Nicht	Realfilm, Hollywood-VFX, aufwendige 3D-Animation
Vorbild	Kanaele mit klarer Erzaehlung, guter Struktur, visueller Unterstuetzung

Pipeline-Schritte

1. Themenfindung / Recherche
   │
2. Skript-Erstellung (lokales LLM)
   │
3. Bildgenerierung (Szenen / Illustrationen)
   │
4. Sprachausgabe / Voiceover (TTS)
   │
5. Optional: Avatar / sprechendes Gesicht
   │
6. Zusammenschnitt + Ken-Burns + Compositing
   │
7. Export fuer YouTube

Geplante Komponenten

Textgenerierung (Skripte)

Komponente	Modell	VRAM	Anmerkung
Skript-LLM	Qwen 2.5 32B (Q4_K_M)	~20 GB	Passt auf RTX 3090 (24 GB), eng aber machbar
Alternative	Qwen 2.5 14B (Q5)	~12 GB	Komfortabler, laesst Platz fuer andere Tasks
Fallback	Qwen 2.5 7B	~6 GB	Fuer Entwuerfe/Vorarbeit, parallel moeglich

Realistisch: 32B fuer finale Skripte, 7B/14B fuer Brainstorming und Iteration. 32B belegt fast den gesamten VRAM — andere GPU-Tasks muessen warten.

Bildgenerierung

Komponente	Modell	VRAM	Anmerkung
Bilder	FLUX.1-dev	~12 GB	Gute Qualitaet, laeuft auf RTX 3090
Alternative	SDXL	~7 GB	Weniger VRAM, mehr Flexibilitaet
Upscaling	Real-ESRGAN	~2 GB	Nachschaerfung auf 4K

FLUX.1-dev liefert bessere Qualitaet als SDXL, braucht aber mehr VRAM. Kann NICHT gleichzeitig mit Qwen 32B laufen — sequentiell.

Sprachausgabe (TTS)

Komponente	Modell	VRAM	Anmerkung
TTS	XTTS v2 (Coqui)	~2-4 GB	Deutsche Stimme, Voice-Cloning moeglich
Alternative	Piper TTS	CPU-only	Schneller, weniger natuerlich
Fallback	OpenAI TTS API	—	Beste Qualitaet, kostet Geld

XTTS v2 ist der beste Kompromiss: lokal, deutsch, Stimme klonbar. Kann auf GPU oder CPU laufen. Bei GPU: parallel zu leichteren Tasks moeglich.

Avatar (optional)

Komponente	Modell	VRAM	Anmerkung
Talking Head	SadTalker	~4-6 GB	Foto + Audio → sprechendes Gesicht
Alternative	Wav2Lip	~2 GB	Einfacher, weniger natuerlich
Zukunft	LivePortrait / EMO	variabel	Bessere Qualitaet, noch nicht stabil

SadTalker ist ausgereift und braucht wenig VRAM. Input: 1 Foto + 1 Audiodatei → Video mit Lippensync.

Video-Compositing

Komponente	Tool	GPU?	Anmerkung
Schnitt	FFmpeg	Nein (CPU)	Ken-Burns, Ueberblendungen, Text-Overlays
Sequenzierung	Python + moviepy	Nein	Szenen zusammenfuegen
Encoding	FFmpeg + NVENC	Optional	GPU-beschleunigtes Encoding
Untertitel	Whisper + FFmpeg	~1.5 GB	Automatische Untertitel

FFmpeg ist das Rueckgrat — robust, scriptbar, keine GPU noetig fuer die meisten Operationen. NVENC (RTX 3090) fuer schnelles Encoding im letzten Schritt.

Hardware

Hauptmaschine: ki-tower (Muldenstein, geplant)

Eigenschaft	Wert
CPU	AMD Ryzen 7 7700 (8C/16T)
RAM	64 GB DDR5
GPU	NVIDIA RTX 3090 (24 GB VRAM)
Storage	1 TB NVMe
OS	Debian 12 oder Proxmox (noch offen)
Logischer Name	ki-tower

Unterstuetzung: gpu-worker (Mining-Rig, Muldenstein, geplant)

Eigenschaft	Wert
GPUs	Mehrere AMD RX 6600 XT (je 8 GB VRAM)
Funktion	Worker-Pool fuer leichtere Pipeline-Schritte
Geeignet fuer	Upscaling, TTS, Whisper, Batch-Bildgenerierung (SDXL)
Nicht geeignet fuer	Qwen 32B, FLUX.1-dev, SadTalker auf hoher Qualitaet
ROCm	Inoffiziell (gfx1032), 1-Karten-Test steht aus

Arbeitsteilung

ki-tower (RTX 3090, 24 GB)          gpu-worker (RX 6600 XT, je 8 GB)
├── Qwen 32B (Skripte)              ├── SDXL Batch (Nebenbilder)
├── FLUX.1-dev (Hauptbilder)         ├── Real-ESRGAN (Upscaling)
├── SadTalker (Avatar)               ├── XTTS v2 / Piper (TTS)
├── FFmpeg + NVENC (Finaler Render)  ├── Whisper (Untertitel)
└── Orchestrierung                   └── Vorverarbeitung

VRAM-Budget pro Pipeline-Schritt (RTX 3090)

Die Schritte laufen SEQUENTIELL, nicht parallel — nur eine schwere Aufgabe gleichzeitig:

Schritt 1: Skript       → Qwen 32B       → ~20 GB VRAM → entladen
Schritt 2: Bilder       → FLUX.1-dev     → ~12 GB VRAM → entladen
Schritt 3: TTS          → XTTS v2        → ~4 GB VRAM  → entladen
Schritt 4: Avatar       → SadTalker      → ~6 GB VRAM  → entladen
Schritt 5: Compositing  → FFmpeg (CPU)   → 0 GB VRAM
Schritt 6: Encoding     → NVENC          → ~1 GB VRAM

Gesamtzeit pro Video (geschaetzt, 10 Min Video):

Skript: 5-15 Min
Bilder (20-30 Stueck): 20-40 Min
TTS: 5-10 Min
Avatar: 10-20 Min
Compositing: 5-10 Min
Encoding: 2-5 Min
Gesamt: ca. 1-2 Stunden pro 10-Min-Video

Architektur

Orchestrator (Python)
├── /scripts/  → Skript-Generierung (Qwen via llama.cpp / vLLM)
├── /images/   → Bild-Generierung (ComfyUI / FLUX)
├── /audio/    → TTS (XTTS v2 Server)
├── /avatar/   → Talking Head (SadTalker)
├── /compose/  → Video-Assembly (FFmpeg + moviepy)
├── /export/   → Finaler Render + Upload-Vorbereitung
└── /projects/ → Pro Video ein Projektordner mit allen Assets

Jeder Schritt ist ein eigener Service/Container:

Kann einzeln gestartet/gestoppt werden
Belegt VRAM nur wenn aktiv
Austauschbar (z.B. FLUX → SDXL, XTTS → Piper)

Nicht-Ziele

Kein Forschungsprojekt
Keine Bastelwiese ohne Ergebnis
Keine Dauerabhaengigkeit von Cloud-Abos
Keine Architektur die nur auf dem Papier funktioniert
Kein Hollywood-Kino

Stufenplan

Stufe 1 — Grundlagen (ki-tower aufbauen)

Was	Status
ki-tower Hardware zusammenbauen	geplant
Debian 12 + NVIDIA-Treiber + CUDA + Docker	geplant
llama.cpp / vLLM mit Qwen 2.5 installieren	geplant
Erster Skript-Test: Thema → strukturiertes Skript	geplant

Stufe 2 — Bilder + TTS

Was	Status
ComfyUI + FLUX.1-dev installieren	geplant
XTTS v2 Server aufsetzen (Docker)	geplant
Test: Skript → passende Bilder + Voiceover	geplant

Stufe 3 — Avatar + Compositing

Was	Status
SadTalker installieren	geplant
FFmpeg-Pipeline: Bilder + Audio + Avatar → Video	geplant
Erster kompletter Durchlauf: Thema → fertiges Video	geplant

Stufe 4 — Orchestrierung + Automatisierung

Was	Status
Python-Orchestrator: alle Schritte verkettet	geplant
Projektordner-Struktur (Assets pro Video)	geplant
GPU-Worker-Integration (falls ROCm-Test erfolgreich)	geplant

Stufe 5 — Produktion + Optimierung

Was	Status
Regelmaessige Videoproduktion (1-2 pro Woche)	geplant
Prompt-Templates fuer verschiedene Videoformate	geplant
Qualitaetskontrolle + Feedback-Loop	geplant
Optional: Semi-automatischer YouTube-Upload	geplant

Offene Entscheidungen

Frage	Optionen	Tendenz
OS fuer ki-tower	Debian 12 vs Proxmox	Debian (einfacher fuer GPU)
LLM-Server	llama.cpp vs vLLM vs Ollama	vLLM (schneller bei Batch)
Bild-UI	ComfyUI vs API-only	ComfyUI (flexibler, Workflows)
TTS Sprache	Deutsch-only vs Multi	Deutsch zuerst, Englisch spaeter
Avatar ja/nein	Immer vs nur bei manchen Videos	Optional pro Video

Risiken

Risiko	Schwere	Mitigation
VRAM-Engpass bei 32B + Bildern	Mittel	Sequentiell arbeiten, 14B als Alternative
TTS-Qualitaet Deutsch	Mittel	XTTS v2 Voice-Cloning testen, Fallback OpenAI
Avatar wirkt unnatuerlich	Niedrig	Avatar nur optional, kann weggelassen werden
Pipeline zu komplex	Mittel	Stufe fuer Stufe, jeder Schritt einzeln testbar
GPU-Worker ROCm-Probleme	Mittel	1-Karten-Test, Fallback: alles auf ki-tower

8.3 KiB Raw Blame History