beellama.cpp auf Muldenstein (RTX 3090) deployen #95
Labels
No labels
flugscanner
fuenfvoracht
infrastruktur
jarvis
ki-tower
nice-to-have
prio-1
wartung
wordpress
No milestone
No project
No assignees
1 participant
Notifications
Due date
No due date set.
Dependencies
No dependencies set.
Reference: orbitalo/homelab-brain#95
Loading…
Add table
Reference in a new issue
No description provided.
Delete branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Ziel
beellama.cpp als Ersatz/Ergänzung zu llama.cpp auf dem KI-Server (CT 148, pve-mu-3, RTX 3090) testen und produktiv einsetzen.
Hintergrund
beellama.cpp ist ein Fork-Stack:
llama.cpp → llama_cpp_turboquant → buun_llama_cpp → beellama.cppKernfeatures die für Jervais relevant sind:
Build-Anleitung (Linux, CUDA 12.x, RTX 3090)
(RTX 3090 = CUDA Compute Capability 86)
Start-Befehl mit TurboQuant
Teststrategie
Hinweise
Update 13.05.2026 — Qwen3.6 27B installiert + Hermes-Test
Durchgeführt
beellama.cpp (Hauptziel): Noch nicht umgesetzt — kein SSH-Zugang zum KI-Tower (100.84.255.83, Passwort-Auth deaktiviert). Build braucht direkten Shell-Zugang. TODO: SSH-Key eintragen oder Passwort in credentials.md dokumentieren.
Stattdessen: Qwen3.6 27B via Ollama installiert
qwen3.6:27b(Q4, 16 GB, 17.4 GB Download)Hermes-Testergebnisse (CT 151, Ollama Provider)
echo HERMES_TEST_OKWichtig: Qwen3.6 hat standardmäßig Thinking-Modus aktiv. Mit
think: falseim API-Call läuft es deutlich schneller. Hermes übergibt das korrekt via Ollama Provider.Nächste Schritte
PARAMETER think falseals Defaultfast_model: qwen3.6:27bmitprovider: ollamaals Option für lokale NutzungUpdate 13.05.2026 (Nachtrag) — KI-Server ist Windows!
Neue Erkenntnis
Tailscale-Status zeigt:
Der KI-Server ist kein Linux-Host, sondern Michaels Windows-Desktop mit der RTX 3090. Deshalb:
root/astral66funktioniert nicht (kein Linux-User)cmake -B build -DGGML_CUDA=ON) ist Linux-spezifischOptionen für beellama.cpp Build
Empfehlung
Falls TurboQuant-Kontext bis 100K wirklich gebraucht wird → Option A (Windows-Build) per RDP. Ansonsten Option C (Status quo Ollama).
Status Qwen3.6 27B (Hauptziel der Session)
✅ Modell installiert via Ollama:
qwen3.6:27b(16 GB Q4)✅ Hermes (CT 151) Tool-Calling getestet — alle 3 Tests bestanden
✅ Provider in
~/.hermes/config.yamlschon vorhanden:ollama→http://100.84.255.83:11434/v1Doku-Update nötig
credentials.md: KI-Server Eintrag fehlt komplett — Windows-User + Passwort sollte dokumentiert werden, sonst kann später niemand mehr draufindex.md/ Server-Übersicht: KI-Server (100.84.255.83, Windows, RTX 3090) als eigener Eintrag eintragen, ist aktuell nur indirekt über CT 146 ollama_url referenziertUpdate 13.05.2026 (Nachtrag 2) — SSH-Zugang eingerichtet
SSH zum KI-Server (100.84.255.83, Windows) ist jetzt fuer den Cursor-Agent eingerichtet:
wutti(lokales Admin-Konto)C:\ProgramData\ssh\administrators_authorized_keysVolle Doku in CT 999:
credentials.mdAbschnitt 'KI-Server' +index.mdaktualisiert.Damit ist beellama.cpp Build jetzt theoretisch moeglich
Fuer den Windows-Build brauchen wir:
Noch offen: Soll der Windows-Build jetzt versucht werden, oder bei Ollama bleiben?
Update 13.05.2026 — beellama.cpp gebaut & Performance verifiziert
Build erfolgreich auf KI-Server (Windows 10, RTX 3090)
Installierte Toolchain:
Build-Command (Windows / MSVC):
Dauer: ~9.5 Min für
llama-server.exemit 16 parallel nvcc + MSBuild.Modell-Setup (laut docs/quickstart-qwen36-dflash.md)
WICHTIG: Ollama-GGUFs sind inkompatibel —
qwen35moe.rope.dimension_sections expected 4, got 3. Müssen frische GGUFs aus den dokumentierten HF-Repos:unsloth/Qwen3.6-27B-GGUF/Qwen3.6-27B-Q4_K_M.gguf(16.8 GB)spiritbuun/Qwen3.6-27B-DFlash-GGUF/dflash-draft-3.6-q4_k_m.gguf(1.0 GB)unsloth/Qwen3.6-27B-GGUF/mmproj-BF16.gguf(931 MB) (optional, vision)Gespeichert in
C:\Users\wutti\beellama-models\.Performance-Benchmark (gemessen)
Launch-Command (Speed-Combo: Q4_K_M + Q4_K_M drafter + turbo3_tcq KV):
VRAM-Footprint: 19.4 GB (von 24 GB) — Modell + DFlash drafter + 32K turbo3_tcq KV.
Vergleich vs. Ollama qwen3.6:35b-a3b: ~13 tok/s im chat → 17x Speedup bei coding tasks
Pending: Hermes-Integration
Build + Standalone-API funktioniert. Hermes-Provider-Switch (
provider: beellama, base_url: http://100.84.255.83:8090/v1) noch nicht stabil — Server beendet sich bei externen Requests. Vermutlich Tracking-Issue für stability bei v0.1.1 (release 4 Tage alt).Hermes läuft daher weiterhin auf Ollama qwen3.6:35b-a3b-fast.
Nächste Schritte für volle Issue-Closure:
--cache-ram 0weglassen, kleinerer ctx)