[Jarvis] RAGFlow — PDF/Dokument-Wissensbasis mit Qualitaetskontrolle #36

Closed
opened 2026-03-15 14:42:43 +00:00 by orbitalo · 0 comments
Owner

Ziel

RAGFlow als Wissensbasis fuer Jarvis: 20.000+ PDFs indexieren, durchsuchbar machen, mit Qualitaetskontrolle im Dashboard.

Warum RAGFlow

  • 75.000+ GitHub Stars, produktionsreif
  • Chunk-Preview: Sehen wie jedes PDF zerlegt wird
  • Traceable Answers: Quellenangabe bei jeder Antwort
  • Manuelle Korrektur: Schlechtes Chunking korrigieren
  • PDF-Parser: Tabellen, Bilder, OCR, Layout-Erkennung
  • REST API fuer Bot-Integration
  • MCP-Support

Repo: https://github.com/infiniflow/ragflow

Architektur

Jarvis Bot
    | Frage braucht Dokument-Wissen
    v
RAGFlow API (KI-Tower)
    | Semantische Suche ueber alle Dokumente
    | Quellenangabe + Chunk-Referenz
    v
Jarvis LLM -> Antwort mit Quelle

Setup (auf KI-Tower pve-mu-4)

  • Docker Compose (RAGFlow + Elasticsearch/Infinity + Redis + MySQL)
  • RAM: ~2-4 GB
  • GPU: Optional (beschleunigt OCR + Embedding)
  • Storage: abhaengig von PDF-Menge

Bot-Integration

  • Neues LLM-Tool search_documents in llm.py
  • Tool ruft RAGFlow API auf
  • Ergebnis mit Quellenangabe an User
  • LLM entscheidet: Memory (persoenlich) vs RAGFlow (Dokumente)

Zwei Wissensquellen

Quelle Inhalt Wo
Memory Service (CT 117) Persoenliches: Fakten, Termine, Praeferenzen pve-hetzner
RAGFlow Dokumente: PDFs, Vertraege, Anleitungen, Rechnungen KI-Tower

Dashboard-Features

  • PDF hochladen (einzeln oder Batch)
  • Chunk-Vorschau pro Dokument
  • Qualitaet pruefen: hat er den Inhalt richtig zerlegt?
  • Manuelle Korrektur moeglich
  • Suche testen im Browser
  • Quellenangabe bei jeder Antwort

Aufwand

Task Zeit
RAGFlow auf KI-Tower installieren 1-2h
Erste PDFs hochladen + pruefen 2-3h
Bot-Integration (search_documents Tool) 2-3h
Bulk-Import 20.000 PDFs 1-2 Tage (laeuft durch)
Gesamt 1-2 Tage Setup + Import-Zeit

Abhaengigkeiten

  • KI-Tower (#20) aufgesetzt
  • Docker + Docker Compose
  • Optional: Ollama (#22) als lokales LLM fuer RAGFlow

Frueher: Dify (CT 102)

Dify war ein Versuch der nicht funktionierte — von ~20.000 Dateien kam nichts brauchbares an. CT 102 existiert nicht mehr. RAGFlow ersetzt diesen Ansatz.

## Ziel RAGFlow als Wissensbasis fuer Jarvis: 20.000+ PDFs indexieren, durchsuchbar machen, mit Qualitaetskontrolle im Dashboard. ## Warum RAGFlow - 75.000+ GitHub Stars, produktionsreif - **Chunk-Preview**: Sehen wie jedes PDF zerlegt wird - **Traceable Answers**: Quellenangabe bei jeder Antwort - **Manuelle Korrektur**: Schlechtes Chunking korrigieren - **PDF-Parser**: Tabellen, Bilder, OCR, Layout-Erkennung - REST API fuer Bot-Integration - MCP-Support Repo: https://github.com/infiniflow/ragflow ## Architektur ``` Jarvis Bot | Frage braucht Dokument-Wissen v RAGFlow API (KI-Tower) | Semantische Suche ueber alle Dokumente | Quellenangabe + Chunk-Referenz v Jarvis LLM -> Antwort mit Quelle ``` ## Setup (auf KI-Tower pve-mu-4) - Docker Compose (RAGFlow + Elasticsearch/Infinity + Redis + MySQL) - RAM: ~2-4 GB - GPU: Optional (beschleunigt OCR + Embedding) - Storage: abhaengig von PDF-Menge ## Bot-Integration - Neues LLM-Tool `search_documents` in llm.py - Tool ruft RAGFlow API auf - Ergebnis mit Quellenangabe an User - LLM entscheidet: Memory (persoenlich) vs RAGFlow (Dokumente) ## Zwei Wissensquellen | Quelle | Inhalt | Wo | |---|---|---| | Memory Service (CT 117) | Persoenliches: Fakten, Termine, Praeferenzen | pve-hetzner | | RAGFlow | Dokumente: PDFs, Vertraege, Anleitungen, Rechnungen | KI-Tower | ## Dashboard-Features - PDF hochladen (einzeln oder Batch) - Chunk-Vorschau pro Dokument - Qualitaet pruefen: hat er den Inhalt richtig zerlegt? - Manuelle Korrektur moeglich - Suche testen im Browser - Quellenangabe bei jeder Antwort ## Aufwand | Task | Zeit | |---|---| | RAGFlow auf KI-Tower installieren | 1-2h | | Erste PDFs hochladen + pruefen | 2-3h | | Bot-Integration (search_documents Tool) | 2-3h | | Bulk-Import 20.000 PDFs | 1-2 Tage (laeuft durch) | | **Gesamt** | **1-2 Tage Setup + Import-Zeit** | ## Abhaengigkeiten - KI-Tower (#20) aufgesetzt - Docker + Docker Compose - Optional: Ollama (#22) als lokales LLM fuer RAGFlow ## Frueher: Dify (CT 102) Dify war ein Versuch der nicht funktionierte — von ~20.000 Dateien kam nichts brauchbares an. CT 102 existiert nicht mehr. RAGFlow ersetzt diesen Ansatz.
orbitalo added the
jarvis
label 2026-03-15 14:42:43 +00:00
orbitalo changed title from [Jarvis] Admin-Dashboard — Prompt-Editor, Memory-Verwaltung, PDF-Upload, Test-Chat to [Jarvis] RAGFlow — PDF/Dokument-Wissensbasis mit Qualitaetskontrolle 2026-03-15 15:19:36 +00:00
Sign in to join this conversation.
No milestone
No project
No assignees
1 participant
Notifications
Due date
The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference: orbitalo/homelab-brain#36
No description provided.