BUG: RAG-Indexstruktur — docnm_kwd nicht durchsuchbar, Grundkonzeptfehler #52

Closed
opened 2026-03-27 09:17:27 +00:00 by orbitalo · 0 comments
Owner

Problem

docnm_kwd ist ein Keyword-Feld in Elasticsearch — matched nur exakt oder per Wildcard. Der Ordnerpfad/Dateiname enthält aber die wichtigsten Suchbegriffe (Thema, Ort, Dokumenttyp, Personen), z. B.:

Kambodscha_Arakawa__Kaufvertrag 2. Wohnung.txt
Arakawa_Wohnung-D1603__Mietvertrag Ramirez Antonio Englisch.txt
LVM Ford-Transit__Beitragsrechnung 11-2023.txt

Die Hybrid-Suche (_es_hybrid_search in tools/rag.py) trifft diese Dokumente nur, wenn der Suchbegriff zufällig im Chunk-Content vorkommt oder manuell als Subquery hartcodiert ist (_WIDE_SUBQUERIES_IMMOBILIEN etc.). Das skaliert nicht.

Lösung

  1. Neues Feld docnm_text (Typ text, deutscher Analyzer) im Mapping anlegen
  2. Einmaliger Reindexdocnm_kwd Wert in docnm_text kopieren, dabei __ und _ als Trennzeichen behandeln
  3. Boost in _es_hybrid_search auf docnm_text (z. B. 4.0)
  4. Handverdrahtete Subqueries (_WIDE_SUBQUERIES_IMMOBILIEN) können danach großteils entfallen

Erwartetes Ergebnis

Fragen wie „welche Wohnungen habe ich in Kambodscha" finden die Arakawa-Dokumente ohne Spezial-Subqueries, weil Kambodscha, Arakawa, Wohnung, Kaufvertrag als einzelne Terme im Text-Feld matchen.

Betrifft

  • homelab-ai-bot/tools/rag.py (Suche + Mapping-Update)
  • Elasticsearch-Index ragflow_61f51c8c279011f1a174bd19863ba33e
## Problem `docnm_kwd` ist ein Keyword-Feld in Elasticsearch — matched nur exakt oder per Wildcard. Der Ordnerpfad/Dateiname enthält aber die wichtigsten Suchbegriffe (Thema, Ort, Dokumenttyp, Personen), z. B.: ``` Kambodscha_Arakawa__Kaufvertrag 2. Wohnung.txt Arakawa_Wohnung-D1603__Mietvertrag Ramirez Antonio Englisch.txt LVM Ford-Transit__Beitragsrechnung 11-2023.txt ``` Die Hybrid-Suche (`_es_hybrid_search` in `tools/rag.py`) trifft diese Dokumente nur, wenn der Suchbegriff zufällig im Chunk-Content vorkommt oder manuell als Subquery hartcodiert ist (`_WIDE_SUBQUERIES_IMMOBILIEN` etc.). Das skaliert nicht. ## Lösung 1. **Neues Feld `docnm_text`** (Typ `text`, deutscher Analyzer) im Mapping anlegen 2. **Einmaliger Reindex** — `docnm_kwd` Wert in `docnm_text` kopieren, dabei `__` und `_` als Trennzeichen behandeln 3. **Boost in `_es_hybrid_search`** auf `docnm_text` (z. B. 4.0) 4. **Handverdrahtete Subqueries** (`_WIDE_SUBQUERIES_IMMOBILIEN`) können danach großteils entfallen ## Erwartetes Ergebnis Fragen wie „welche Wohnungen habe ich in Kambodscha" finden die Arakawa-Dokumente **ohne** Spezial-Subqueries, weil `Kambodscha`, `Arakawa`, `Wohnung`, `Kaufvertrag` als einzelne Terme im Text-Feld matchen. ## Betrifft - `homelab-ai-bot/tools/rag.py` (Suche + Mapping-Update) - Elasticsearch-Index `ragflow_61f51c8c279011f1a174bd19863ba33e`
orbitalo changed title from RAG: docnm_kwd als analysiertes Text-Feld indexieren to BUG: RAG-Indexstruktur — docnm_kwd nicht durchsuchbar, Grundkonzeptfehler 2026-03-27 09:17:43 +00:00
orbitalo added the
jarvis
prio-1
labels 2026-03-27 09:17:56 +00:00
Sign in to join this conversation.
No milestone
No project
No assignees
1 participant
Notifications
Due date
The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference: orbitalo/homelab-brain#52
No description provided.