Agentic RAG selbst gehostet: Mit RAGFlow, Onyx und Haystack zur air-gapped Wissensbasis
2026 verschiebt sich der Diskurs spürbar: Statt eines einzelnen Retrieval-Schritts reasoniert ein Agent, sucht iterativ und nutzt Tools – Agentic RAG löst klassisches RAG ab. Für datensensible Mittelständler ist die entscheidende Eigenschaft, dass sich das vollständig air-gapped und permission-aware über die eigenen Dokumente betreiben lässt. Mit Onyx, RAGFlow und Haystack als Open-Source-Bausteine.
Jahrelang galt eine einfache Pipeline als Goldstandard: Frage rein, ein Suchschritt über die Vektordatenbank, Treffer ans Modell, Antwort raus. Diese Form von Retrieval-Augmented Generation (RAG) hat viele Unternehmen weit gebracht. Doch sie stößt an Grenzen, sobald Fragen mehrere Dokumente kombinieren, Zwischenschritte erfordern oder die Wissensbasis stark wächst. Genau hier setzt 2026 die nächste Generation an.
Statt eines einzigen Retrieval-Schritts reasoniert ein Agent, plant seine Suche, wählt Werkzeuge und arbeitet iterativ – Agentic RAG löst klassisches RAG ab. Das Entscheidende für den deutschen Mittelstand: Diese Architektur lässt sich vollständig air-gapped und permission-aware über die eigenen Dokumente betreiben. In diesem Artikel zeigen wir, wie Sie mit den Open-Source-Bausteinen Onyx, RAGFlow und Haystack eine souveräne Wissensbasis aufbauen – ohne dass ein einziges Dokument die Cloud sieht.
Klassisches RAG vs. Agentic RAG
Klassisches RAG arbeitet als Single-Shot-System: Die Nutzerfrage wird einmal in einen Vektor übersetzt, das Retrieval liefert die Top-Treffer, und das Sprachmodell formuliert daraus eine Antwort. Das funktioniert hervorragend bei klar umrissenen Fragen – versagt aber, sobald eine Frage mehrere Recherchewege erfordert oder das erste Suchergebnis nur ein Zwischenschritt ist. Die technischen Grundlagen dieses Aufbaus haben wir im Artikel zum RAG-System selbst bauen ausführlich beschrieben.
Agentic RAG dreht dieses Prinzip um. Hier steuert ein Agent den Ablauf: Er reasoniert über die Frage, entscheidet, welches Werkzeug er als Nächstes braucht, und ruft Tools wie search, find, open und summarize auf. Findet die erste Suche nicht genug, formuliert er die Anfrage um, öffnet ein konkretes Dokument oder fasst einen langen Abschnitt zusammen – so lange, bis die Antwort belegt ist. Statt Single-Shot also iteratives, werkzeuggestütztes Retrieval (toloka.ai).
| Merkmal | Klassisches RAG | Agentic RAG |
|---|---|---|
| Retrieval-Strategie | Single-Shot, ein Suchschritt | Iterativ, mehrere Schritte |
| Steuerung | Feste Pipeline | Agent plant & entscheidet |
| Werkzeuge | Keine | search · find · open · summarize |
| Komplexe Mehrschritt-Fragen | Schwach | Stark |
| Quellenbeleg | Treffer als Kontext | Citation-Grounding pro Schritt |
Der Diskurs in der Branche spiegelt diese Verschiebung wider: VentureBeat bezeichnet 2026 die „Context Architecture" als Ablösung des klassischen RAG, und arbeiten wie arXiv 2605.05538 untersuchen Agentic RAG gezielt für Enterprise Knowledge Bases. Für Unternehmen heißt das: Wer heute eine Wissensbasis aufbaut, sollte die agentische Architektur von Anfang an mitdenken.
Warum air-gapped für den Mittelstand zählt
Eine Wissensbasis ist nur so wertvoll wie die Dokumente, die sie indexiert – und das sind oft die sensibelsten Daten des Unternehmens: Konstruktionsunterlagen, Verträge, Personalakten, Forschungsergebnisse. Bei einem cloudbasierten System verlassen Embeddings, Suchanfragen und teils die Dokumente selbst das Unternehmensnetz. Für regulierte Branchen und datensensible Mittelständler ist das schlicht keine Option.
Air-gapped bedeutet die strikteste Form der Trennung: Das System hat keinerlei Verbindung zum Internet. Embedding-Modell, Vektordatenbank, Sprachmodell und Agent laufen ausschließlich auf eigener Infrastruktur. Kombiniert mit permission-aware Retrieval – das die Zugriffsrechte jedes Nutzers respektiert – entsteht eine Wissensbasis, die sowohl technisch isoliert als auch rechtlich differenziert arbeitet.
Air-Gap = höchste Stufe der Datensouveränität. Während On-Premise bereits bedeutet, dass die Daten im eigenen Rechenzentrum liegen, geht air-gapped einen Schritt weiter: Es gibt keinen technischen Pfad nach außen. Für KRITIS-Betreiber, Rüstung, Pharma, Banken und den datensensiblen Mittelstand ist das oft die einzige zulässige Betriebsform – und mit Agentic RAG erstmals ohne Funktionsverlust umsetzbar. Sensible Dokumente verlassen das eigene Netz zu keinem Zeitpunkt.
Wir setzen diesen Anspruch in der Praxis um – von der Architektur bis zum Betrieb. Mehr dazu auf unseren Seiten zu Air-Gapped KI und On-Premise-KI.
Onyx: MIT-lizenziert mit 40+ Connectoren
Onyx (vormals Danswer) ist eine der ausgereiftesten Open-Source-Plattformen für unternehmensweite KI-Suche und steht unter der freizügigen MIT-Lizenz. Damit eignet sich Onyx auch für den kommerziellen Einsatz ohne Lizenzkosten – ein wichtiges Argument für den Mittelstand. Im Kern bringt Onyx über 40 Enterprise-Connectoren mit, die Quellsysteme wie Confluence, SharePoint, Google Drive, Slack, Jira oder Dateifreigaben anbinden.
Technisch setzt Onyx auf hybride Suche: Die Plattform kombiniert semantische Suche über einen OpenSearch-basierten Vektorstore mit klassischer Keyword-Suche. Das Besondere im air-gapped Kontext: Onyx übernimmt die Berechtigungen der angebundenen Quellsysteme und setzt permission-aware Retrieval durch – ein Mitarbeiter sieht nur, was er auch im Quellsystem sehen darf. Als Sprachmodell lässt sich jedes beliebige LLM über lokale Inferenz einbinden.
| Kernfeature | Bedeutung im air-gapped Betrieb |
|---|---|
| MIT-Lizenz | Kommerzieller Einsatz ohne Lizenzkosten, volle Kontrolle über den Code |
| 40+ Connectoren | Anbindung interner Quellsysteme ohne Cloud-Umweg |
| Hybride Suche (OpenSearch) | Semantik plus Keyword über lokalen Vektorstore |
| Permission-aware Retrieval | Zugriffsrechte der Quellsysteme werden übernommen |
| Beliebige LLMs | Lokale Inferenz mit Llama, Mistral, Qwen u. a. |
Ein typisches Beispiel-Setup: Onyx im eigenen Rechenzentrum, OpenSearch als Vektordatenbank, ein lokales Embedding-Modell wie BGE-M3 für die Vektorisierung und ein quantisiertes Llama- oder Mistral-Modell für die Generierung. Die Connectoren synchronisieren periodisch die internen Quellen – alles innerhalb des isolierten Netzes.
RAGFlow und Haystack als Bausteine
Onyx ist nicht die einzige Option – und nicht für jeden Anwendungsfall die beste. Zwei weitere Open-Source-Projekte verdienen genaue Betrachtung.
RAGFlow: stark bei dokumentenlastigen Wissensbasen
RAGFlow ist auf tiefes Dokumentenverständnis spezialisiert. Es kombiniert hochwertiges Chunking mit Layout-Erkennung (Tabellen, Formulare, Spalten) und liefert agentisches Retrieval mit starkem Citation-Grounding. Jede Aussage wird auf die konkrete Quellstelle zurückgeführt – ideal für Wissensbasen mit vielen komplex strukturierten PDFs wie technischen Handbüchern, Normen oder Verträgen.
Haystack: das flexible Pipeline-Framework
Haystack von deepset ist kein fertiges Produkt, sondern ein Framework zum Bau eigener Pipelines. Komponenten für Retrieval, Reranking, Embedding und Generierung lassen sich frei verschalten. Wer eine maßgeschneiderte Architektur mit voller Kontrolle über jeden Schritt braucht – etwa eigene Agenten-Logik oder spezielle Bewertungsmetriken – ist mit Haystack am besten bedient.
| Tool | Charakter | Ideal für |
|---|---|---|
| Onyx | Fertige Plattform, MIT-Lizenz | Viele Quellsysteme, permission-aware Suche |
| RAGFlow | Dokumenten-Spezialist | Große PDF-Bestände, starkes Citation-Grounding |
| Haystack | Pipeline-Framework | Eigene Architektur, maximale Kontrolle |
In der Praxis schließen sich die drei nicht aus: Haystack kann etwa die Orchestrierung übernehmen, während ein lokaler Vektorstore über Hybrid-Search und Vektorsuche die Treffer liefert. Welche Kombination optimal ist, hängt von Integrationsbedarf, Dokumentenmenge und gewünschter Kontrolle ab.
Air-gapped Deployment: Docker, Kubernetes, Terraform
Der entscheidende Vorteil aller drei Werkzeuge: Sie lassen sich vollständig offline betreiben. Es gibt keine Abhängigkeit von einer externen API, keinen Telemetrie-Zwang, keinen Cloud-Endpunkt. Drei Deployment-Wege haben sich etabliert.
Schritt 1: Docker Compose für den Einstieg
Für Pilotprojekte und kleinere Installationen ist Docker Compose der schnellste Weg. Ein einziges Compose-File startet alle Komponenten: Vektorstore, Embedding-Service, lokales LLM (z. B. über Ollama oder vLLM), die RAG-Anwendung selbst und das Frontend. Die Container-Images werden einmalig in einer Staging-Umgebung gezogen und dann in das air-gapped Netz übertragen – danach läuft alles ohne jeden Internetzugang.
Schritt 2: Kubernetes/Helm für den Produktivbetrieb
Für skalierbaren Betrieb mit Hochverfügbarkeit empfiehlt sich Kubernetes mit Helm-Charts. Embedding- und LLM-Inferenz lassen sich getrennt skalieren, GPU-Knoten gezielt zuweisen. Eine private Container-Registry im eigenen Netz versorgt den Cluster mit Images – ohne dass je ein Pull aus dem Internet nötig wäre.
Schritt 3: Terraform für reproduzierbare Infrastruktur
Wer Infrastruktur als Code pflegt, beschreibt die gesamte Wissensbasis – Netz, Knoten, Storage, Registry – in Terraform. So wird das air-gapped Deployment reproduzierbar, auditierbar und versionierbar. Identische Umgebungen für Test und Produktion entstehen per Knopfdruck.
Null Internet-Abhängigkeit. In allen drei Varianten gilt: lokale LLMs, lokale Vektordatenbank, lokales Embedding-Modell. Kein Schritt der Pipeline benötigt eine Internetverbindung. Den passenden technischen Unterbau – von GPU-Servern bis zur isolierten Netzarchitektur – beschreiben wir in unserem Beitrag zum air-gapped KI-Stack und auf der Seite zu Air-Gapped KI.
Qualität sichern: Grounding und Zitate
Die größte Sorge bei generativer KI bleibt die Halluzination – frei erfundene, aber plausibel klingende Aussagen. Agentic RAG begegnet dem mit Citation-Grounding: Jede Aussage der Antwort wird an eine konkrete Quellstelle gebunden. Das Modell zitiert, statt zu raten. Findet der Agent keinen Beleg, sucht er weiter oder gibt offen an, dass die Wissensbasis keine Antwort hergibt.
Das iterative Retrieval hebt die Antwortqualität zusätzlich: Reicht der erste Treffer nicht, verfeinert der Agent die Anfrage, öffnet weitere Dokumente und fasst zusammen. Zwei bewährte Qualitätshebel verstärken den Effekt:
- Reranking: Ein nachgelagertes Modell sortiert die Roh-Treffer nach tatsächlicher Relevanz – die besten Passagen landen oben im Kontext.
- Hybrid-Search: Die Kombination aus semantischer und Keyword-Suche fängt sowohl Bedeutung als auch exakte Fachbegriffe, Artikelnummern oder Paragraphen ab.
Praxisbeispiel: Mittelständischer Anlagenbauer, air-gapped Onyx
Ein Anlagenbauer mit rund 250 Mitarbeitern betreibt eine air-gapped Wissensbasis über etwa 80.000 technische Dokumente, Prüfprotokolle und Lieferantenverträge. Ein Servicetechniker fragt: „Welches Drehmoment gilt für die Flanschverbindung an Baureihe X-200 nach dem letzten Engineering-Change?" Der Agent sucht zunächst nach der Baureihe, findet zwei widersprüchliche Werte, öffnet daraufhin gezielt das Änderungsprotokoll, erkennt das jüngste Datum und fasst zusammen – inklusive Quellenangabe: „45 Nm laut Engineering-Change ECN-2024-118, S. 3." Die Berechtigungsprüfung stellt zugleich sicher, dass der Techniker nur Dokumente seines Werks sieht. Kein Wert verlässt das Netz, jede Aussage ist belegt.
Fazit: Wissensmanagement ohne Cloud
Wissensverwaltung zählt laut Bitkom zu den Top-Wachstumsfeldern für KI im Unternehmen – und Agentic RAG ist der Hebel, um dieses Feld datensouverän zu besetzen. Die Architektur liefert genau das, was klassisches RAG bei komplexen Fragen vermissen ließ: iteratives, werkzeuggestütztes Retrieval mit belegbaren Antworten. Und mit Onyx, RAGFlow und Haystack steht dafür ein ausgereiftes Open-Source-Fundament bereit, das sich vollständig air-gapped betreiben lässt.
Für den Mittelstand bedeutet das: Sie machen Ihr wertvollstes Wissen befragbar, ohne es jemals aus der Hand zu geben. Permission-aware Retrieval respektiert dabei jede interne Berechtigung. Der Aufbau einer solchen Wissensbasis ist anspruchsvoll – von der Auswahl der Tools über das Chunking bis zum air-gapped Deployment. Wir empfehlen einen begleiteten Aufbau, der die Architektur von Anfang an auf Datensouveränität und Qualität auslegt. Wie Sie Ihr Unternehmenswissen dauerhaft sichern und nutzbar machen, zeigen wir Ihnen gerne im Detail.
Häufig gestellte Fragen zu Agentic RAG
Was unterscheidet Agentic RAG von klassischem RAG?
Klassisches RAG führt einen einzelnen Retrieval-Schritt aus und übergibt das Ergebnis ans Modell. Agentic RAG hingegen lässt einen Agenten reasonieren, der iterativ sucht, Dokumente öffnet, zusammenfasst und bei Bedarf nachfragt – mit Tools wie search, find, open und summarize. Das liefert bei komplexen Fragen über große Wissensbasen deutlich bessere, besser belegte Antworten.
Kann ich Agentic RAG vollständig ohne Internet betreiben?
Ja. Mit Open-Source-Tools wie Onyx, RAGFlow oder Haystack lässt sich ein air-gapped Deployment über Docker Compose, Kubernetes oder Terraform realisieren – mit lokalen LLMs, lokaler Vektordatenbank und lokalem Embedding-Modell. Es besteht keinerlei Internet-Abhängigkeit, sodass sensible Dokumente das eigene Netz nie verlassen.
Was bedeutet permission-aware Retrieval?
Permission-aware Retrieval bedeutet, dass die Wissensbasis die Zugriffsrechte der jeweiligen Nutzer respektiert: Ein Mitarbeiter erhält nur Antworten aus Dokumenten, die er auch sehen darf. Tools wie Onyx setzen das über die übernommenen Berechtigungen der angebundenen Quellsysteme um – entscheidend für Datenschutz und Vertraulichkeit im Unternehmen.
Welches Tool soll ich wählen – Onyx, RAGFlow oder Haystack?
Onyx eignet sich gut als fertige Plattform mit vielen Enterprise-Connectoren und permission-aware Suche. RAGFlow glänzt bei dokumentenlastigen Wissensbasen mit starkem Citation-Grounding. Haystack ist das flexibelste Pipeline-Framework für eigene Architekturen. Die Wahl hängt von Integrationsbedarf, Dokumentenmenge und gewünschter Kontrolle ab.
Agentic RAG air-gapped für Ihr Unternehmen
Wir bauen Ihre permission-aware Wissensbasis – mit Onyx, RAGFlow oder Haystack, vollständig air-gapped und DSGVO-konform. Kostenlose Erstberatung, Pilot in wenigen Wochen.