orbitalo/homelab-brain

Fork 0

[Jarvis] Ollama + Qwen 3.5 35B-A3B + qwen3-coder:30b + DeepSeek R1 auf pve-mu-4 #22

New issue

Closed

opened 2026-03-10 11:46:46 +00:00 by orbitalo · 1 comment

orbitalo commented

2026-03-10 11:46:46 +00:00

Owner

Ziel

Lokaler LLM-Server als Gehirn fuer Jarvis und Coding-Assistent.

Hardware

Ryzen 7 7700, ASUS TUF GAMING B650-PLUS WIFI, 64GB DDR5, 1x RTX 3090 (24GB), Corsair RM850e 850W.

Modelle (Testreihenfolge)

qwen3-coder:30b — MoE, 3.3B aktiv, 256K Kontext, Coding-Fokus
Qwen 3.5 35B-A3B (Q4_K_M ~20GB) — Allrounder Sweet-Spot
Phi-4 14B — schneller Agent, ~9GB
DeepSeek R1 70B — Reasoning mit CPU-Offloading (64GB RAM)

Quantization-Guide (wichtig!)

Nicht die Standard-Ollama-Quants nehmen! Benchmark (r/LocalLLaMA):

Quantization	Groesse	KLD (niedriger=besser)
AesSedai Q4_K_M	~20GB	0.0102 (BEST)
AesSedai IQ4_XS	16.4GB	0.024 (kleinster)
Unsloth UD-Q4_K_M (neu)	18.5GB	0.0196
Unsloth UD-Q4_K_XL (alt)	22GB	0.0524 (SCHLECHT)

AesSedai Q4_K_M ist die beste Wahl: haelt immer-aktive Tensoren (Attention, Shared Experts) in Q8_0 statt Q4. Bei MoE-Modellen entscheidend fuer Qualitaet.

Download: HuggingFace AesSedai GGUF direkt laden, nicht Ollama default.

Inference-Engines

Start: Ollama + OpenWebUI
Performance: vLLM
Offloading: llama.cpp (-ngl fuer GPU-Layer-Verteilung)

Cursor-Anbindung

Ollama OpenAI-kompatible API (http://IP:11434/v1) → Cursor Custom Model

Erkenntnisse (11.03.2026)

Zweite RTX 3090 lohnt nicht (Slot 2 = x4 elektrisch, PSU 850W zu knapp, kein NVLink)
64GB DDR5 RAM ist Trumpf fuer CPU-Offloading grosser Modelle
Realistische Erwartung: 60-80% Claude-Niveau
Strategie: Bauphase → Claude, Wartung → lokal
ChatGPT o3 bestaetigt: "Motor ohne Karosserie" — Ollama allein reicht nicht, Agent-Framework (Cursor/Continue.dev) noetig

## Ziel Lokaler LLM-Server als Gehirn fuer Jarvis und Coding-Assistent. ## Hardware Ryzen 7 7700, ASUS TUF GAMING B650-PLUS WIFI, 64GB DDR5, 1x RTX 3090 (24GB), Corsair RM850e 850W. ## Modelle (Testreihenfolge) 1. **qwen3-coder:30b** — MoE, 3.3B aktiv, 256K Kontext, Coding-Fokus 2. **Qwen 3.5 35B-A3B** (Q4_K_M ~20GB) — Allrounder Sweet-Spot 3. **Phi-4 14B** — schneller Agent, ~9GB 4. **DeepSeek R1 70B** — Reasoning mit CPU-Offloading (64GB RAM) ## Quantization-Guide (wichtig!) Nicht die Standard-Ollama-Quants nehmen! Benchmark (r/LocalLLaMA): | Quantization | Groesse | KLD (niedriger=besser) | |---|---|---| | **AesSedai Q4_K_M** | ~20GB | **0.0102** (BEST) | | AesSedai IQ4_XS | 16.4GB | 0.024 (kleinster) | | Unsloth UD-Q4_K_M (neu) | 18.5GB | 0.0196 | | Unsloth UD-Q4_K_XL (alt) | 22GB | 0.0524 (SCHLECHT) | **AesSedai Q4_K_M** ist die beste Wahl: haelt immer-aktive Tensoren (Attention, Shared Experts) in Q8_0 statt Q4. Bei MoE-Modellen entscheidend fuer Qualitaet. Download: HuggingFace AesSedai GGUF direkt laden, nicht Ollama default. ## Inference-Engines - Start: **Ollama + OpenWebUI** - Performance: **vLLM** - Offloading: **llama.cpp** (-ngl fuer GPU-Layer-Verteilung) ## Cursor-Anbindung Ollama OpenAI-kompatible API (http://IP:11434/v1) → Cursor Custom Model ## Erkenntnisse (11.03.2026) - Zweite RTX 3090 lohnt nicht (Slot 2 = x4 elektrisch, PSU 850W zu knapp, kein NVLink) - 64GB DDR5 RAM ist Trumpf fuer CPU-Offloading grosser Modelle - Realistische Erwartung: 60-80% Claude-Niveau - **Strategie: Bauphase → Claude, Wartung → lokal** - ChatGPT o3 bestaetigt: "Motor ohne Karosserie" — Ollama allein reicht nicht, Agent-Framework (Cursor/Continue.dev) noetig

orbitalo added the

ki-tower

jarvis

labels 2026-03-10 11:46:46 +00:00

orbitalo referenced this issue

2026-03-10 11:47:25 +00:00

[Jarvis] Hermes Agent — Alle MCP-Tools verbinden + Orchestrierung #26

orbitalo changed title from ~~[Jarvis] Ollama + Qwen 2.5 32B auf pve-mu-4 installieren~~ to [Jarvis] Ollama + Qwen 3.5 35B-A3B + qwen3-coder:30b + DeepSeek R1 auf pve-mu-4

2026-03-12 04:59:48 +00:00

orbitalo referenced this issue

2026-03-15 14:28:07 +00:00

[Jarvis] Web-Suche — SearXNG (Schnellsuche) + Open Deep Research (Tiefenrecherche) #35

orbitalo referenced this issue

2026-03-15 15:19:36 +00:00

[Jarvis] RAGFlow — PDF/Dokument-Wissensbasis mit Qualitaetskontrolle #36

orbitalo referenced this issue

2026-03-17 05:01:08 +00:00

[Jarvis] Lokaler LLM-Router auf pve-hetzner CPU — Qwen2.5-1.5B als Vorfilter #39

orbitalo commented

2026-03-17 05:06:24 +00:00

Author

Owner

Update: IQ-Quantisierung (17.03.2026)

Neue IQ*_K Quants aus ik_llama.cpp sind jetzt in llama.cpp mainline gemerged. Deutlich bessere Qualitaet pro Bit als Standard K-Quants.

Empfehlung fuer RTX 3090 (24 GB VRAM)

Quantisierung	Bits/Weight	Vorteil
IQ4_KS (NEU)	~4.5 bpw	Beste Qualitaet bei gleicher Groesse wie Q4_K_M
IQ3_K	~3.5 bpw	34B Modell passt in 24 GB (statt nur 13B mit Q4)
Q4_K_M (ALT)	~4.5 bpw	Baseline, schlechter als IQ4_KS

Konkreter Nutzen

Qwen 3.5 35B-A3B mit IQ4_KS statt Q4_K_M → messbar naeher an FP16 Qualitaet
Bei MoE-Modellen IQ-Quants + AesSedai-Strategie (Attention in Q8_0) kombinieren
Fuer kleinere Modelle (3B und darunter): IQ4_KS Variante optimiert

Fuer Hetzner-Router (#39)

Bei Qwen2.5-1.5B ist Quantisierung egal (Modell ist ohnehin winzig). Standard Q4_K_M reicht.

Quelle: r/LocalLLaMA, llama.cpp PR #19726, ik_llama.cpp

## Update: IQ-Quantisierung (17.03.2026) Neue IQ*_K Quants aus ik_llama.cpp sind jetzt in llama.cpp mainline gemerged. **Deutlich bessere Qualitaet pro Bit** als Standard K-Quants. ### Empfehlung fuer RTX 3090 (24 GB VRAM) | Quantisierung | Bits/Weight | Vorteil | |---|---|---| | **IQ4_KS** (NEU) | ~4.5 bpw | Beste Qualitaet bei gleicher Groesse wie Q4_K_M | | IQ3_K | ~3.5 bpw | 34B Modell passt in 24 GB (statt nur 13B mit Q4) | | Q4_K_M (ALT) | ~4.5 bpw | Baseline, schlechter als IQ4_KS | ### Konkreter Nutzen - **Qwen 3.5 35B-A3B mit IQ4_KS** statt Q4_K_M → messbar naeher an FP16 Qualitaet - Bei MoE-Modellen IQ-Quants + AesSedai-Strategie (Attention in Q8_0) kombinieren - Fuer kleinere Modelle (3B und darunter): **IQ4_KS** Variante optimiert ### Fuer Hetzner-Router (#39) Bei Qwen2.5-1.5B ist Quantisierung egal (Modell ist ohnehin winzig). Standard Q4_K_M reicht. Quelle: r/LocalLLaMA, llama.cpp PR #19726, ik_llama.cpp

orbitalo closed this issue

2026-03-21 18:48:59 +00:00