homelab-brain

Author	SHA1	Message	Date
root	c63b3621c0	rag: LLM-Query-Rewrite (Stufe B, gpt-4o-mini) als Default-Modus Query wird vor ES-Suche durch gpt-4o-mini in 4 DE/EN-Varianten umformuliert (Synonyme, Fachbegriffe, Zahl-/Kosten-/Summenbegriffe). Dann Multi-Query-Merge durch _merge_hits_from_queries. Fallback auf Single-Query bei API-Fehler oder fehlendem Key. 1h-Cache, 8s-Timeout. Loest ua. Kosten-/Preis-Fragen, die zuvor am Standardpfad gescheitert sind (Beispiel: "was haben die wohnungen in kambodscha gekostet" findet jetzt G2010B und D1603 in einem Rutsch).	2026-04-17 21:46:15 +02:00
Homelab Cursor	61faa9fcee	RAG Multi-Query DE/EN + OpenAI-Key erneuert - tools/rag.py: _is_count_list_query + _expand_multilingual fuer Zaehlfragen (z.B. >meine 2 Wohnungen in Kambodscha< findet jetzt beide Units) - homelab.conf: OPENAI_API_KEY erneuert (alter widerrufen) - Cleanup: Backup-Files entfernt	2026-04-17 21:25:42 +02:00
Homelab Cursor	3b6ee14b37	fix(rag): timeout 45s, RRF rank-map bug fix	2026-03-28 16:54:20 +01:00
Homelab Cursor	a3735bf265	fix(rag): RRF fusion, 512-char snippets, 15 candidates — speed+quality	2026-03-28 16:51:06 +01:00
Homelab Cursor	da0d1cd16c	feat(rag): Cross-Encoder Reranking via CT123 bge-reranker-v2-m3	2026-03-28 16:37:56 +01:00
Homelab Cursor	8b78cf0854	rag: docnm_search (Boost 5.0) — Dateinamen als Volltext durchsuchbar (#52 ) ES-Index: neues Feld docnm_search (custom analyzer mit path_splitter, __ und _ werden zu Leerzeichen). docnm_kwd bleibt als Keyword. Hybrid-Suche nutzt jetzt docnm_search mit Boost 5.0 — Arakawa/Wohnung/Kambodscha etc. finden direkt ueber den Dateinamen ohne handverdrahtete Subqueries. Closes #52	2026-03-27 10:41:00 +01:00
Homelab Cursor	70469cfbc5	rag: Fix toter Code — Immobilien-Wide-Check war nach return unreachbar	2026-03-26 19:04:23 +01:00
Homelab Cursor	0a76bee464	rag: Breitensuche fuer Wohnungen/Immobilien/Kambodscha - _is_wide_recall_query: erkennt jetzt Wohnung+welche/alle, Kambodscha+Wohnung - _WIDE_SUBQUERIES_IMMOBILIEN: Arakawa-Wohnungen, Mietvertraege, Kaufvertrag, Hard Title etc. - handle_rag_search waehlt Subquery-Pool je nach Thema (Immo vs. Versicherung)	2026-03-26 19:00:28 +01:00
Homelab Cursor	00283a6268	llm+rag: RAG-Pflicht fuer Wohnung/Immobilie/Kambodscha; generische Forced-Prompts - _DOC_KW: wohnung, immobilie, condo, kambodscha, takeo, phnom, haus, ... - Bei Geo/Wohnung: RAG-Query mit Zusatz-Keywords - Forced-RAG: Finanz-Fokus vs. allgemeine Unterlagen (Gedaechtnis nicht Prioritaet) - rag.py: Tool-Prompt Wohnungen/Ausland explizit	2026-03-26 18:53:06 +01:00
Homelab Cursor	40d6badfc7	fix(rag+llm): Kfz-Kosten mit Quelle; kein nackter EUR-Betrag - Forciertes RAG: Prompt verbietet Ein-Zahl-Antwort; Dateiname Pflicht. - User-Nachtrag [Quelle: ...] bei forced RAG. - rag: kostet/wie viel in wide recall; Subqueries Ford Transit / Kfz jährlich.	2026-03-26 17:18:32 +01:00
Homelab Cursor	ae6a50d182	fix(rag+llm): 60 wide treffer, Pfad-Dedup, 100k tool payload (Nachtrag: vorheriger Commit enthielt nur telegram_bot.)	2026-03-26 17:15:48 +01:00
Homelab Cursor	dcf70b087b	fix(rag): breite Mehrfachsuche + mehr Treffer fuer Uebersichten - wide_recall: bis 16 ES-Runden mit Sparten-/Gesellschafts-Queries, Merge nach Dedup-Key, bis 25 distinct Treffer, groessere Snippets. - Normale Suche: top_k bis 15, ES bis 150. - Forciertes RAG: top_k 25, Tool-Payload 32k Zeichen. - Hinweis: 100% Vollstaendigkeit haengt von Index/OCR ab.	2026-03-26 17:12:13 +01:00
Homelab Cursor	03f70fdda3	fix(rag): larger forced tool payload (12k) + list all insurance Sparten - Forced rag_search used top_k=10 and tool content up to 12k chars (was 3k, cut off most hits). - System instruction: enumerate each Sparte/doc type for same insurer, not only first hit. - rag.py SYSTEM_PROMPT_EXTRA: same rule for multi-hit answers.	2026-03-26 16:56:29 +01:00
Homelab Cursor	59e53a2750	rag: 19/20 E2E-Tests bestanden — Dedup + Anti-Halluzination + Pflicht-Prompt - Dedup auf Dateinamen-Ebene (Extension + Kopie-Marker ignorieren) - docnm_kwd boost 1.5→3.0 fuer bessere Ordner-Treffer - SYSTEM_PROMPT_EXTRA verschaerft: IMMER rag_search bei Dokument-Fragen - Expliziter Ende-Marker gegen LLM-Halluzination - MIN_TOP_K=5, Default top_k=8 - Content-Snippet 400→600 Zeichen Ref: Issue #51	2026-03-26 15:25:52 +01:00
Homelab Cursor	a43c0b913b	rag: bessere Treffer + Anti-Halluzination - top_k min=5, default=8 (LLM kann nicht mehr top_k=3 setzen) - docnm_kwd boost 1.5→3.0 (Ordner/Dateinamen staerker gewichten) - Ordnerpfad als Kategorie-Info in Ausgabe - Content-Snippet 400→600 Zeichen - SYSTEM_PROMPT_EXTRA: LLM darf keine Details erfinden - es_size erhoehen fuer breitere Suche Ref: Issue #51	2026-03-26 15:07:31 +01:00
Homelab Cursor	f9b69ad283	rag: Elasticsearch direkt (Hybrid kNN + deutsch) statt RAGFlow API - ES 100.109.101.12:1200, Filter kb_id, knn auf q_768_vec - Query-Embedding via Ollama nomic-embed-text - Text: content_de, content_ltks, docnm_kwd - OCR-Heuristik, Deduplizierung nach docnm_kwd - Ref: Issue #51	2026-03-26 14:34:40 +01:00
Auto-Sync	9d79af7481	Auto-Sync: 2026-03-26 12:30	2026-03-26 12:30:10 +01:00

17 commits