[Jarvis] Ollama + Qwen 3.5 35B-A3B + qwen3-coder:30b + DeepSeek R1 auf pve-mu-4 #22
Labels
No labels
flugscanner
fuenfvoracht
infrastruktur
jarvis
ki-tower
nice-to-have
prio-1
wartung
wordpress
No milestone
No project
No assignees
1 participant
Notifications
Due date
No due date set.
Dependencies
No dependencies set.
Reference: orbitalo/homelab-brain#22
Loading…
Add table
Reference in a new issue
No description provided.
Delete branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Ziel
Lokaler LLM-Server als Gehirn fuer Jarvis und Coding-Assistent.
Hardware
Ryzen 7 7700, ASUS TUF GAMING B650-PLUS WIFI, 64GB DDR5, 1x RTX 3090 (24GB), Corsair RM850e 850W.
Modelle (Testreihenfolge)
Quantization-Guide (wichtig!)
Nicht die Standard-Ollama-Quants nehmen! Benchmark (r/LocalLLaMA):
AesSedai Q4_K_M ist die beste Wahl: haelt immer-aktive Tensoren (Attention, Shared Experts) in Q8_0 statt Q4. Bei MoE-Modellen entscheidend fuer Qualitaet.
Download: HuggingFace AesSedai GGUF direkt laden, nicht Ollama default.
Inference-Engines
Cursor-Anbindung
Ollama OpenAI-kompatible API (http://IP:11434/v1) → Cursor Custom Model
Erkenntnisse (11.03.2026)
[Jarvis] Ollama + Qwen 2.5 32B auf pve-mu-4 installierento [Jarvis] Ollama + Qwen 3.5 35B-A3B + qwen3-coder:30b + DeepSeek R1 auf pve-mu-4Update: IQ-Quantisierung (17.03.2026)
Neue IQ*_K Quants aus ik_llama.cpp sind jetzt in llama.cpp mainline gemerged. Deutlich bessere Qualitaet pro Bit als Standard K-Quants.
Empfehlung fuer RTX 3090 (24 GB VRAM)
Konkreter Nutzen
Fuer Hetzner-Router (#39)
Bei Qwen2.5-1.5B ist Quantisierung egal (Modell ist ohnehin winzig). Standard Q4_K_M reicht.
Quelle: r/LocalLLaMA, llama.cpp PR #19726, ik_llama.cpp