Chunk Overlap

RAG

Chunk Overlap sorgt dafür, dass benachbarte Textabschnitte einen gemeinsamen Textanteil teilen und kein wichtiger Kontext an Segmentgrenzen verloren geht.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Was ist Chunk Overlap?

Wenn ein langer Text in Chunks aufgeteilt wird, entstehen an den Schnittgrenzen potenzielle Informationslücken: Ein Satz beginnt am Ende von Chunk A und endet am Anfang von Chunk B. Wird Chunk A abgerufen, fehlt die Fortsetzung; wird Chunk B abgerufen, fehlt der Anfang. Chunk Overlap löst dieses Problem, indem jeder Chunk einen Teil des vorherigen Chunks wiederholt — typischerweise 10 bis 20 % der Chunk-Größe.

Beispiel: Bei einer Chunk-Größe von 500 Tokens und einem Overlap von 50 Tokens beginnt Chunk 2 bereits mit den letzten 50 Tokens von Chunk 1. Sätze und Absätze, die über eine Grenze reichen, sind damit in mindestens einem Chunk vollständig enthalten.

Wieviel Overlap ist sinnvoll?

Die Wahl des Overlap-Wertes ist ein Trade-off:

  • Kein Overlap (0 %): Maximale Speichereffizienz, aber Risiko fehlender Kontextbrücken an Grenzen.
  • Geringer Overlap (10–15 %): Guter Standard für die meisten Texte — schließt Satzbrüche ab, ohne den Index unnötig aufzublähen.
  • Hoher Overlap (30–50 %): Sinnvoll bei sehr dichten, technischen Texten oder wenn einzelne Sätze entscheidend sind; erhöht Indexgröße und Retrieval-Kosten merklich.
  • Dynamischer Overlap: Moderne Splitting-Bibliotheken passen den Overlap anhand von Satzgrenzen an, statt starr nach Zeichenzahl zu überlappen.

Faustformel

10–15 % Overlap sind für die meisten Anwendungsfälle ein guter Ausgangspunkt. Bei stark strukturierten Dokumenten mit klaren Abschnittsgrenzen kann der Overlap auf nahe null reduziert werden.

Relevanz für den Mittelstand

Wer RAG-Systeme auf technischen Handbüchern, Vertragswerken oder Wiki-Artikeln aufbaut, sollte Chunk Overlap nicht ignorieren. Ein fehlender Overlap führt häufig dazu, dass Fragen, deren Antwort über eine Chunk-Grenze reicht, unvollständig beantwortet werden. Die Konfiguration des Overlaps ist Teil der initialen Chunking-Strategie und sollte mit realen Testfragen validiert werden.

← Zurück zum Glossar