[Jarvis] Ollama + Qwen 3.5 35B-A3B + qwen3-coder:30b + DeepSeek R1 auf pve-mu-4 #22

Closed
opened 2026-03-10 11:46:46 +00:00 by orbitalo · 1 comment
Owner

Ziel

Lokaler LLM-Server als Gehirn fuer Jarvis und Coding-Assistent.

Hardware

Ryzen 7 7700, ASUS TUF GAMING B650-PLUS WIFI, 64GB DDR5, 1x RTX 3090 (24GB), Corsair RM850e 850W.

Modelle (Testreihenfolge)

  1. qwen3-coder:30b — MoE, 3.3B aktiv, 256K Kontext, Coding-Fokus
  2. Qwen 3.5 35B-A3B (Q4_K_M ~20GB) — Allrounder Sweet-Spot
  3. Phi-4 14B — schneller Agent, ~9GB
  4. DeepSeek R1 70B — Reasoning mit CPU-Offloading (64GB RAM)

Quantization-Guide (wichtig!)

Nicht die Standard-Ollama-Quants nehmen! Benchmark (r/LocalLLaMA):

Quantization Groesse KLD (niedriger=besser)
AesSedai Q4_K_M ~20GB 0.0102 (BEST)
AesSedai IQ4_XS 16.4GB 0.024 (kleinster)
Unsloth UD-Q4_K_M (neu) 18.5GB 0.0196
Unsloth UD-Q4_K_XL (alt) 22GB 0.0524 (SCHLECHT)

AesSedai Q4_K_M ist die beste Wahl: haelt immer-aktive Tensoren (Attention, Shared Experts) in Q8_0 statt Q4. Bei MoE-Modellen entscheidend fuer Qualitaet.

Download: HuggingFace AesSedai GGUF direkt laden, nicht Ollama default.

Inference-Engines

  • Start: Ollama + OpenWebUI
  • Performance: vLLM
  • Offloading: llama.cpp (-ngl fuer GPU-Layer-Verteilung)

Cursor-Anbindung

Ollama OpenAI-kompatible API (http://IP:11434/v1) → Cursor Custom Model

Erkenntnisse (11.03.2026)

  • Zweite RTX 3090 lohnt nicht (Slot 2 = x4 elektrisch, PSU 850W zu knapp, kein NVLink)
  • 64GB DDR5 RAM ist Trumpf fuer CPU-Offloading grosser Modelle
  • Realistische Erwartung: 60-80% Claude-Niveau
  • Strategie: Bauphase → Claude, Wartung → lokal
  • ChatGPT o3 bestaetigt: "Motor ohne Karosserie" — Ollama allein reicht nicht, Agent-Framework (Cursor/Continue.dev) noetig
## Ziel Lokaler LLM-Server als Gehirn fuer Jarvis und Coding-Assistent. ## Hardware Ryzen 7 7700, ASUS TUF GAMING B650-PLUS WIFI, 64GB DDR5, 1x RTX 3090 (24GB), Corsair RM850e 850W. ## Modelle (Testreihenfolge) 1. **qwen3-coder:30b** — MoE, 3.3B aktiv, 256K Kontext, Coding-Fokus 2. **Qwen 3.5 35B-A3B** (Q4_K_M ~20GB) — Allrounder Sweet-Spot 3. **Phi-4 14B** — schneller Agent, ~9GB 4. **DeepSeek R1 70B** — Reasoning mit CPU-Offloading (64GB RAM) ## Quantization-Guide (wichtig!) Nicht die Standard-Ollama-Quants nehmen! Benchmark (r/LocalLLaMA): | Quantization | Groesse | KLD (niedriger=besser) | |---|---|---| | **AesSedai Q4_K_M** | ~20GB | **0.0102** (BEST) | | AesSedai IQ4_XS | 16.4GB | 0.024 (kleinster) | | Unsloth UD-Q4_K_M (neu) | 18.5GB | 0.0196 | | Unsloth UD-Q4_K_XL (alt) | 22GB | 0.0524 (SCHLECHT) | **AesSedai Q4_K_M** ist die beste Wahl: haelt immer-aktive Tensoren (Attention, Shared Experts) in Q8_0 statt Q4. Bei MoE-Modellen entscheidend fuer Qualitaet. Download: HuggingFace AesSedai GGUF direkt laden, nicht Ollama default. ## Inference-Engines - Start: **Ollama + OpenWebUI** - Performance: **vLLM** - Offloading: **llama.cpp** (-ngl fuer GPU-Layer-Verteilung) ## Cursor-Anbindung Ollama OpenAI-kompatible API (http://IP:11434/v1) → Cursor Custom Model ## Erkenntnisse (11.03.2026) - Zweite RTX 3090 lohnt nicht (Slot 2 = x4 elektrisch, PSU 850W zu knapp, kein NVLink) - 64GB DDR5 RAM ist Trumpf fuer CPU-Offloading grosser Modelle - Realistische Erwartung: 60-80% Claude-Niveau - **Strategie: Bauphase → Claude, Wartung → lokal** - ChatGPT o3 bestaetigt: "Motor ohne Karosserie" — Ollama allein reicht nicht, Agent-Framework (Cursor/Continue.dev) noetig
orbitalo added the
ki-tower
jarvis
labels 2026-03-10 11:46:46 +00:00
orbitalo changed title from [Jarvis] Ollama + Qwen 2.5 32B auf pve-mu-4 installieren to [Jarvis] Ollama + Qwen 3.5 35B-A3B + qwen3-coder:30b + DeepSeek R1 auf pve-mu-4 2026-03-12 04:59:48 +00:00
Author
Owner

Update: IQ-Quantisierung (17.03.2026)

Neue IQ*_K Quants aus ik_llama.cpp sind jetzt in llama.cpp mainline gemerged. Deutlich bessere Qualitaet pro Bit als Standard K-Quants.

Empfehlung fuer RTX 3090 (24 GB VRAM)

Quantisierung Bits/Weight Vorteil
IQ4_KS (NEU) ~4.5 bpw Beste Qualitaet bei gleicher Groesse wie Q4_K_M
IQ3_K ~3.5 bpw 34B Modell passt in 24 GB (statt nur 13B mit Q4)
Q4_K_M (ALT) ~4.5 bpw Baseline, schlechter als IQ4_KS

Konkreter Nutzen

  • Qwen 3.5 35B-A3B mit IQ4_KS statt Q4_K_M → messbar naeher an FP16 Qualitaet
  • Bei MoE-Modellen IQ-Quants + AesSedai-Strategie (Attention in Q8_0) kombinieren
  • Fuer kleinere Modelle (3B und darunter): IQ4_KS Variante optimiert

Fuer Hetzner-Router (#39)

Bei Qwen2.5-1.5B ist Quantisierung egal (Modell ist ohnehin winzig). Standard Q4_K_M reicht.

Quelle: r/LocalLLaMA, llama.cpp PR #19726, ik_llama.cpp

## Update: IQ-Quantisierung (17.03.2026) Neue IQ*_K Quants aus ik_llama.cpp sind jetzt in llama.cpp mainline gemerged. **Deutlich bessere Qualitaet pro Bit** als Standard K-Quants. ### Empfehlung fuer RTX 3090 (24 GB VRAM) | Quantisierung | Bits/Weight | Vorteil | |---|---|---| | **IQ4_KS** (NEU) | ~4.5 bpw | Beste Qualitaet bei gleicher Groesse wie Q4_K_M | | IQ3_K | ~3.5 bpw | 34B Modell passt in 24 GB (statt nur 13B mit Q4) | | Q4_K_M (ALT) | ~4.5 bpw | Baseline, schlechter als IQ4_KS | ### Konkreter Nutzen - **Qwen 3.5 35B-A3B mit IQ4_KS** statt Q4_K_M → messbar naeher an FP16 Qualitaet - Bei MoE-Modellen IQ-Quants + AesSedai-Strategie (Attention in Q8_0) kombinieren - Fuer kleinere Modelle (3B und darunter): **IQ4_KS** Variante optimiert ### Fuer Hetzner-Router (#39) Bei Qwen2.5-1.5B ist Quantisierung egal (Modell ist ohnehin winzig). Standard Q4_K_M reicht. Quelle: r/LocalLLaMA, llama.cpp PR #19726, ik_llama.cpp
Sign in to join this conversation.
No milestone
No project
No assignees
1 participant
Notifications
Due date
The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference: orbitalo/homelab-brain#22
No description provided.