[Jarvis] Lokaler LLM-Router auf pve-hetzner CPU — Qwen2.5-1.5B als Vorfilter #39
Labels
No labels
flugscanner
fuenfvoracht
infrastruktur
jarvis
ki-tower
nice-to-have
prio-1
wartung
wordpress
No milestone
No project
No assignees
1 participant
Notifications
Due date
No due date set.
Dependencies
No dependencies set.
Reference: orbitalo/homelab-brain#39
Loading…
Add table
Reference in a new issue
No description provided.
Delete branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Ziel
Kleines lokales Modell (Qwen2.5-0.5B oder 1.5B) auf pve-hetzner CPU das:
Architektur
Hardware
Umsetzung
Abhängigkeit
Kann unabhängig von #22 (KI-Tower) umgesetzt werden.
Update: llama.cpp Router statt Ollama (17.03.2026)
llama.cpp Server hat jetzt einen eingebauten Router-Modus — macht Ollama ueberfluessig.
Quelle: https://huggingface.co/blog/ggml-org/model-management-in-llamacpp
Vorteile gegenueber Ollama
Setup auf pve-hetzner
Integration in router.py
Spaeter auf KI-Tower (RTX 3090)
Mehrere Modelle gleichzeitig hinter einer API:
LRU sorgt dafuer dass nur aktive Modelle im VRAM bleiben.
Entscheidung
llama.cpp Router-Modus bevorzugt statt Ollama. Weniger Abhaengigkeiten, gleiche API, besser fuer unser Setup.