Chunking
RAGChunking zerlegt große Textdokumente in strukturierte Abschnitte, damit KI-Systeme relevante Passagen gezielt abrufen können.
Was ist Chunking?
Chunking bezeichnet die Methode, umfangreiche Dokumente — Handbücher, Verträge, Wissensdatenbanken — in kleinere, semantisch sinnvolle Textabschnitte (Chunks) aufzuteilen. Diese Chunks werden anschließend als Vektoren eingebettet und in einer Vektordatenbank gespeichert. Beim späteren Abruf (Retrieval) sucht das System nicht das gesamte Dokument, sondern nur die relevantesten Chunks und reicht diese als Kontext an das Sprachmodell weiter.
Die Chunk-Größe ist ein entscheidender Parameter: Zu große Chunks enthalten zu viel irrelevanten Text; zu kleine Chunks verlieren semantischen Zusammenhang. Typische Größen liegen zwischen 256 und 1024 Tokens, je nach Dokumenttyp und Anwendungsfall.
Chunking-Strategien im Überblick
Es gibt verschiedene Ansätze, die sich in Präzision und Aufwand unterscheiden:
- Fixed-Size Chunking: Gleichmäßige Aufteilung nach Zeichenzahl oder Token-Anzahl — einfach, aber ohne Rücksicht auf Satzgrenzen.
- Recursive Character Splitting: Aufteilung an natürlichen Grenzen (Absätze, Sätze) mit konfigurierbarer Größe — guter Standard für die meisten Texte.
- Semantic Chunking: KI-basiertes Erkennen thematischer Abschnitte, unabhängig von formalen Grenzen — höchste Qualität, aber rechenintensiver.
- Document-Structure-Based: Aufteilung entlang vorhandener Strukturen wie Überschriften, Kapitel oder Tabellenzeilen — ideal für strukturierte Dokumente.
Faustregel für die Praxis
Ein guter Ausgangspunkt sind Chunks von 512 Tokens mit 10–15 % Überlappung. Wer FAQ-Artikel oder kurze Absätze indiziert, wählt kleinere Chunks; wer technische Spezifikationen oder Gesetzestexte verarbeitet, profitiert von größeren zusammenhängenden Einheiten.
Relevanz für den Mittelstand
Unternehmen, die interne Wissensdatenbanken, Produktdokumentationen oder Compliance-Unterlagen per RAG nutzbar machen wollen, sollten die Chunking-Strategie nicht als technisches Detail abtun. Schlechtes Chunking ist eine der häufigsten Ursachen für unbrauchbare Antworten eines KI-Assistenten. Eine sorgfältige Aufteilung nach Dokumentstruktur verbessert die Antwortqualität deutlich — ohne zusätzliche Modellkosten.
← Zurück zum Glossar