root cf4dbd6c11 KI-Video PLAN.md komplett ueberarbeitet: konkrete Architektur, Rollenverteilung, v1/v2 Split, 7-Phasen-Umsetzung

2026-03-16 11:18:59 +07:00

11 KiB

Raw Blame History

KI-Video — Lokale Produktionspipeline

Stand: 16.03.2026

Ziel

Lokale, praktisch nutzbare Produktionsstrecke fuer YouTube-Videos im Commentary-/Erklaerstil. Kein Spielzeug-Demo, kein Forschungsprojekt: Thema rein → fertiges Video raus.

Videoformat

Eigenschaft	Beschreibung
Typ	Commentary, Erklaervideos, Meinungs-/Analyseformate
Stil	Sprecherstimme + Bilder + leichte Bewegung + Einblendungen
Optional	Sprechender Avatar (SadTalker) — erst ab v2
Nicht	Realfilm, Hollywood-VFX, aufwendige 3D-Animation

Pipeline

1. Themenfindung / Recherche (manuell)
   │
2. Skript-Erstellung → Qwen 14B (ki-tower)
   │
3. Bildgenerierung → FLUX.1-dev (ki-tower)
   │
4. Voiceover → Piper TTS (CPU, ki-tower)
   │
5. Compositing → FFmpeg + Ken-Burns (CPU, ki-tower)
   │
6. Encoding → FFmpeg + NVENC (ki-tower)
   │
7. Export → fertiges MP4 fuer YouTube

Hardware

ki-tower — Hauptmaschine (Muldenstein, geplant)

Eigenschaft	Wert
CPU	AMD Ryzen 7 7700 (8C/16T)
RAM	64 GB DDR5
GPU	NVIDIA RTX 3090 (24 GB VRAM)
Storage	1 TB NVMe
OS	Debian 12 + Docker + CUDA
Logischer Name	ki-tower
Rolle	Chef. Alle schweren Aufgaben, Orchestrierung, Hauptpfad.

gpu-worker — AMD-Rig (Muldenstein, geplant)

Eigenschaft	Wert
GPUs	8x AMD RX 6600 XT Dual (je 8 GB GDDR6, PCIe 4.0 x8)
Chip	Navi 23 (gfx1032), RDNA 2
ROCm	Inoffiziell (HSA_OVERRIDE_GFX_VERSION=10.3.0 noetig)
OS	Debian 12 + Docker + ROCm (kein Proxmox)
Logischer Name	gpu-worker
Rolle	Arbeiterkolonne. Nur Nebenjobs, nichts Produktionskritisches.
Status	1-Karten-Test steht aus. Kein Aufbau vor positivem Test.

Rollenverteilung — Was laeuft wo

ki-tower (RTX 3090) — Hauptpfad

Aufgabe	Modell	VRAM	Anmerkung
Skripte	Qwen 2.5 14B (Q5)	~12 GB	Default. 32B nur wenn 14B nachweislich nicht reicht.
Hauptbilder	FLUX.1-dev	~12 GB	Visueller Kern der Videos
TTS (v1)	Piper TTS	CPU-only	Fuer v1 ausreichend, kein VRAM-Verbrauch
TTS (v2)	XTTS v2	~4 GB	Upgrade in v2, bessere Stimme, Voice-Cloning
Avatar (v2)	SadTalker	~6 GB	Optional, erst ab v2
Compositing	FFmpeg	CPU	Ken-Burns, Ueberblendungen, Overlays
Encoding	FFmpeg + NVENC	~1 GB	Hardware-beschleunigt
Orchestrator	Python	CPU	Steuert alle Schritte

Wichtig: Schritte laufen SEQUENTIELL. Nur eine schwere GPU-Aufgabe gleichzeitig. 14B statt 32B als Default — laesst 12 GB VRAM frei, kein Flush zwischen Schritten noetig.

gpu-worker (RX 6600 XT) — Nebenjobs

Aufgabe	VRAM	Karten	Anmerkung
Whisper (Untertitel)	~1.5 GB	1	whisper.cpp + HIP, gut getestet auf AMD
Real-ESRGAN (Upscaling)	~2 GB	1	Einfache Inference, ROCm-Support vorhanden
SDXL (Nebenbilder, Batch)	~7 GB	1-2	NUR wenn ROCm-Test erfolgreich
Piper TTS	CPU	0	Braucht keine GPU, nutzt CPU/RAM des Rigs
Embeddings (lokale)	~1 GB	1	Fuer Jarvis/RAG, nicht Video-Pipeline

Realistisch nutzbar: 3-4 von 8 Karten. Rest idle lassen oder ausbauen (Strom sparen). Das Rig wird NICHT 24/7 laufen — nur einschalten wenn Batch-Jobs anstehen.

NICHT auf das Rig

Aufgabe	Warum nicht
Qwen (jede Groesse)	PyTorch + ROCm + Textgen auf inoffizieller HW = Frust
FLUX.1-dev	>8 GB VRAM, CUDA-optimiert
SadTalker	CUDA-only in der Praxis
XTTS v2	PyTorch + ROCm ungetestet — erst v2 wenn ROCm stabil
Irgendwas im Hauptpfad	Rig-Absturz darf Produktion nicht blockieren

Worker-Architektur

ki-tower (3090, Chef)                    gpu-worker (RX 6600 XT, Arbeiter)
┌─────────────────────────┐              ┌──────────────────────────────┐
│ Orchestrator (Python)    │              │ Debian 12 + Docker + ROCm   │
│ ├── Job Queue (SQLite)   │   Tailscale  │                              │
│ ├── /api/submit-job      │◄────────────►│ GPU #0: whisper-worker :8501 │
│ ├── /api/job-status      │              │ GPU #1: upscale-worker :8502 │
│ └── /api/get-result      │              │ GPU #2: sdxl-worker    :8503 │
│                          │              │ (GPU #3-7: idle/aus)         │
│ Qwen 14B  (vLLM)  :8401 │              │                              │
│ FLUX.1    (ComfyUI):8402 │              │ piper-tts (CPU)        :8504 │
│ FFmpeg    (lokal)        │              └──────────────────────────────┘
└─────────────────────────┘

Prinzipien:

1 Container = 1 GPU = 1 Aufgabe. Feste Zuordnung, kein dynamisches Scheduling.
SQLite als Job-Queue. Ein User, nicht tausend. Eine Datei reicht.
HTTP-APIs pro Worker. Orchestrator ruft per REST auf, pollt Status.
Kein Service-Mesh, kein Kubernetes. Tailscale verbindet die zwei Maschinen.

VRAM-Budget (ki-tower, sequentiell)

Schritt 1: Skript       → Qwen 14B      → ~12 GB VRAM
Schritt 2: Bilder       → FLUX.1-dev    → ~12 GB VRAM
Schritt 3: TTS          → Piper (CPU)   → 0 GB VRAM
Schritt 4: Compositing  → FFmpeg (CPU)  → 0 GB VRAM
Schritt 5: Encoding     → NVENC         → ~1 GB VRAM

Mit Qwen 14B statt 32B: kein VRAM-Flush zwischen Schritt 1 und 2 noetig. Geschaetzte Produktionszeit: ~1-2 Stunden pro 10-Min-Video.

Nicht-Ziele

Kein Forschungsprojekt
Keine Bastelwiese ohne Ergebnis
Keine Dauerabhaengigkeit von Cloud-Abos
Keine Architektur die nur auf dem Papier funktioniert
Kein sofortiger Avatar als Kernbestandteil
Keine ueberkomplizierte Proxmox-/VM-Orgie auf dem Rig
Kein Schoenreden von AMD-ROCm-Limitierungen

v1 — Minimal Viable Pipeline (nur ki-tower)

v1 beweist: die Pipeline funktioniert. Kein Rig, kein Avatar, keine Automatisierung.

v1 Pipeline (alles auf ki-tower):

Thema (manuell)
  │
  ▼
Qwen 14B → Skript (vLLM, :8401)
  │
  ▼
FLUX.1-dev → 20-30 Bilder (ComfyUI, :8402)
  │
  ▼
Piper TTS → Voiceover (CPU, :8504)
  │
  ▼
FFmpeg → Ken-Burns + Audio + Overlays → fertiges MP4

Was v1 NICHT hat:

Keinen Avatar
Kein GPU-Worker-Rig
Keine automatische Orchestrierung (Schritte manuell anstossen)
Keinen YouTube-Upload
Keine XTTS v2 (Piper reicht fuer v1)

Erfolgskriterium v1: Ein 10-Minuten-Video komplett lokal produziert.

v2 — Erweiterungen (nach funktionierender v1)

Feature	Abhaengigkeit
XTTS v2 statt Piper	Auf ki-tower (3090), bessere Stimme
SadTalker Avatar	Auf ki-tower, optional pro Video
GPU-Worker-Rig	ROCm 1-Karten-Test muss positiv sein
Python-Orchestrator	Erst manuell verstehen, dann automatisieren
Qwen 32B statt 14B	Nur wenn 14B-Skripte nachweislich zu schwach

v3+ — Spaeter

Feature	Anmerkung
YouTube-Upload-Automation	Manueller Upload = 2 Klicks. Lohnt erst bei >3 Videos/Woche
Multi-User / geklonte Instanzen	Erst ein funktionierendes Produkt haben
Prompt-Templates Bibliothek	Waechst organisch mit der Produktion
Research-Hub-Integration	Themenvorschlaege automatisch aus RSS/News

Umsetzungsreihenfolge

PHASE 1 — ki-tower Grundinstallation (Woche 1-2)
├── Debian 12 + NVIDIA-Treiber + CUDA 12 + Docker
├── vLLM + Qwen 2.5 14B → erster Skript-Test
└── Ergebnis: "Ich kann lokal ein Skript generieren"

PHASE 2 — Bildgenerierung (Woche 3-4)
├── ComfyUI + FLUX.1-dev in Docker
├── Workflow: Skript-Szene → Bildprompt → Bild
└── Ergebnis: "Ich kann passende Bilder zu einem Skript erzeugen"

PHASE 3 — TTS + Assembly (Woche 5)
├── Piper TTS in Docker (CPU)
├── FFmpeg-Pipeline: Bilder + Audio → Video mit Ken-Burns
└── Ergebnis: "Erstes komplettes Video, lokal produziert"

PHASE 4 — Polieren + erstes echtes Video (Woche 6)
├── Prompt-Templates fuer Skripte verfeinern
├── FFmpeg-Presets fuer verschiedene Szenentypen
├── Erstes Video auf YouTube hochladen
└── Ergebnis: "v1 steht und produziert"

PHASE 5 — RX 6600 XT 1-Karten-Test (Woche 7-8)
├── Eine Karte in Testrechner
├── Debian + ROCm + whisper.cpp + Real-ESRGAN testen
├── Go/No-Go Entscheidung fuer Rig-Aufbau
└── Ergebnis: "Weiss ob das Rig sich lohnt"

PHASE 6 — Rig-Integration (nur wenn Phase 5 positiv)
├── Rig aufbauen (3-4 Karten, Debian + Docker + ROCm)
├── Whisper-Worker + Upscale-Worker aufsetzen
├── In Pipeline einbinden via Tailscale
└── Ergebnis: "Nebenjobs laufen parallel auf dem Rig"

PHASE 7 — v2 Features (nach stabiler Produktion)
├── XTTS v2 auf ki-tower (bessere Stimme)
├── SadTalker Avatar (optional pro Video)
├── Python-Orchestrator (automatische Verkettung)
└── Ergebnis: "Semi-automatische Videoproduktion"

Entscheidungen (getroffen)

Frage	Entscheidung	Begruendung
OS ki-tower	Debian 12	Einfacher fuer GPU, Docker, kein Hypervisor-Overhead
OS gpu-worker	Debian 12	GPU-Passthrough in Proxmox auf AMD = Kampf
LLM-Modell	Qwen 14B (Default)	12 GB VRAM, laesst Platz. 32B nur als Upgrade.
LLM-Server	vLLM	Schneller als llama.cpp bei Batch, Model-Unloading
Bildgenerierung	ComfyUI + FLUX.1-dev	Flexibel, Workflow-basiert, gute Qualitaet
TTS v1	Piper TTS (CPU)	Kein GPU-Verbrauch, sofort einsatzbereit
TTS v2	XTTS v2 (3090)	Voice-Cloning, natuerlichere Stimme
Avatar	Nicht in v1	Nice-to-have, nicht Kernprodukt
Job-Queue	SQLite	Ein User, kein Redis/RabbitMQ noetig
Netzwerk	Tailscale	Verbindet ki-tower + gpu-worker, fertig

Risiken

#	Risiko	Wahrscheinlichkeit	Impact	Mitigation
1	ROCm auf RX 6600 XT instabil	Hoch	Mittel	1-Karten-Test VOR Rig-Aufbau. Fallback: alles auf 3090.
2	Piper TTS deutsch zu robotisch	Mittel	Hoch	Testen. Wenn zu schlecht: OpenAI TTS als Bruecke (~0.50 EUR/Video). XTTS in v2.
3	VRAM-Tetris auf 3090	Mittel	Mittel	14B statt 32B. Sequentiell. vLLM Model-Unloading.
4	Pipeline wird zu komplex vor v1	Hoch	Hoch	v1 brutal einfach. Bash-Scripts, keine Frameworks.
5	Stromkosten Rig vs. Nutzen	Mittel	Niedrig	Nur 3-4 Karten bestuecken. Rig nur bei Batch-Jobs einschalten.

Kosten-Schaetzung

Posten	Einmalig	Monatlich
ki-tower Hardware	vorhanden	—
gpu-worker Hardware	vorhanden	—
Strom ki-tower (24/7)	—	~30-40 EUR
Strom gpu-worker (bei Bedarf)	—	~10-30 EUR (nicht 24/7)
Cloud-APIs (Fallback TTS)	—	~5-10 EUR
Gesamt	0 EUR	~45-80 EUR

Zum Vergleich: Vollstaendig cloud-basierte Videoproduktion (Runway, ElevenLabs, GPT-4) = 100-300 EUR/Monat.

11 KiB Raw Blame History