SFT – Supervised Fine-Tuning

Training

Kontrolliertes Nachtraining mit beschrifteten Beispielen, das einem Modell beibringt, erwünschtes Verhalten nachzuahmen.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Was ist SFT?

Supervised Fine-Tuning bezeichnet das Nachtraining eines vortrainierten Sprachmodells auf einem kuratierten Datensatz aus Eingabe-Ausgabe-Paaren. Das Modell lernt, auf gegebene Prompts mit den gewünschten Ausgaben zu antworten – nach dem klassischen Schema des überwachten Lernens.

SFT ist typischerweise der erste Schritt nach dem Pretraining und vor weiterführenden Alignment-Verfahren wie RLHF oder DPO. Es bringt dem Modell bei, Anweisungen zu befolgen (Instruction Following), bestimmte Formate einzuhalten oder in einem spezifischen Stil zu antworten.

Ablauf und Datenanforderungen

SFT-Datensätze bestehen aus Prompt-Completion-Paaren. Qualität schlägt Quantität: Einige tausend hochwertige, diverse Beispiele übertreffen oft Hunderttausende rauschbehafteter Datenpunkte. Der Trainingsprozess minimiert den Cross-Entropy-Loss zwischen Modellausgabe und Zielantwort.

  • Typische Datenmenge: 1.000–100.000 Beispiele für aufgabenspezifisches Fine-Tuning
  • Datenqualität entscheidend: konsistente Formatierung, korrekte Antworten, repräsentative Abdeckung
  • Kombinierbar mit PEFT-Methoden (LoRA) für ressourcenschonendes Training
  • Risiko: Overfitting auf Trainingsbeispiele, wenn Daten zu homogen sind

Abgrenzung zum Pretraining

Pretraining erzeugt allgemeines Sprachverständnis auf riesigen Textmengen. SFT formt daraus ein aufgabentaugliches Modell – wie die Berufsausbildung nach der Schulzeit.

Relevanz für den Mittelstand

SFT ist der direkteste Weg, ein Basismodell an Unternehmenssprache, interne Prozesse oder spezifische Ausgabeformate anzupassen. Für KMU empfiehlt sich ein kurierter Datensatz aus realen Unternehmensbeispielen (E-Mails, Tickets, Produktbeschreibungen) kombiniert mit einer PEFT-Methode wie LoRA, um Kosten und Hardware-Anforderungen gering zu halten.

← Zurück zum Glossar