Distillation
DestillationÜbertragung des Wissens eines großen Modells auf ein kleineres. Das kleine Modell wird vom großen unterrichtet.
Was ist Distillation?
Distillation (Destillation, auch Knowledge Distillation) ist ein Verfahren, bei dem das Wissen eines großen, leistungsfähigen KI-Modells (Teacher) auf ein kleineres, effizienteres Modell (Student) übertragen wird. Das Ziel ist ein kompakteres Modell, das einen Großteil der Leistung des Originals beibehält, aber deutlich weniger Rechenressourcen benötigt. Distillation ist eine der wichtigsten Methoden, um große Modelle für den praktischen Einsatz handhabbar zu machen.
Wie funktioniert Distillation?
Beim klassischen Verfahren wird das Student-Modell nicht direkt auf den originalen Trainingsdaten trainiert, sondern lernt, die Ausgaben des Teacher-Modells nachzuahmen. Der entscheidende Trick: Das Student-Modell lernt nicht nur die finalen Vorhersagen (z.B. „Kategorie A"), sondern die vollständige Wahrscheinlichkeitsverteilung über alle Klassen – die sogenannten Soft Labels. Diese Verteilungen enthalten weit mehr Information als harte Labels, etwa dass ein Bild „zu 80% Katze, zu 15% Luchs und zu 5% Hund" ist. Um diese Verteilungen aussagekräftiger zu machen, wird ein Temperature-Parameter erhöht, der die Wahrscheinlichkeiten „weicher" macht. Das Student-Modell erfasst so feinere Zusammenhänge und Ähnlichkeiten zwischen Kategorien, die in binären Labels verloren gehen. Bekannte Beispiele sind DistilBERT (40% kleiner als BERT bei 97% der Leistung) und verschiedene destillierte Varianten großer Sprachmodelle.
Warum ist Distillation wichtig?
Große KI-Modelle mit Milliarden von Parametern bieten herausragende Leistung, sind aber für viele Unternehmensanwendungen zu langsam, zu teuer oder zu groß. Distillation löst dieses Dilemma: Ein destilliertes Modell kann auf günstigerer Hardware laufen, antwortet schneller und eignet sich damit für latenzempfindliche Anwendungen oder Edge-AI-Szenarien. Für Unternehmen bedeutet das eine erhebliche Reduktion der Betriebskosten bei minimal geringerer Genauigkeit – oft der entscheidende Faktor, um ein KI-Projekt wirtschaftlich tragfähig in Produktion zu bringen.
Verwandte Begriffe
Quantisierung, Fine-Tuning, Edge AI, Inferenz, Parameter, BERT
← Zurück zum Glossar