Masked Language Modeling
TrainingDas Trainingsprinzip hinter BERT und ähnlichen Modellen: Zufällig verdeckte Wörter im Text werden aus dem beidseitigen Kontext vorhergesagt.
Was ist Masked Language Modeling?
Masked Language Modeling (MLM) ist eine selbstüberwachte Trainingsaufgabe, die 2018 mit BERT (Bidirectional Encoder Representations from Transformers) eingeführt wurde. Das Prinzip: Zufällig werden ca. 15 % der Tokens in einem Text durch ein spezielles [MASK]-Token ersetzt. Die Aufgabe des Modells ist es, die ursprünglichen Tokens allein aus dem umgebenden Kontext zu rekonstruieren.
Entscheidend ist das Wort bidirektional: Beim Vorhersagen eines maskierten Tokens kann das Modell sowohl vorherige als auch nachfolgende Tokens berücksichtigen. Das unterscheidet MLM fundamental von autoregressivem Training, das nur auf den linken Kontext zugreift. Ergebnis sind Modelle, die Texte tief verstehen, aber nicht autoregressive generieren können.
MLM vs. Next-Token-Prediction im Vergleich
Die Wahl des Trainingsziels bestimmt, wofür ein Modell geeignet ist. MLM und NTP erzeugen grundlegend unterschiedliche Modelltypen mit komplementären Stärken.
- MLM: Bidirektionaler Kontext — stark bei Verstehen, schwach bei Generierung
- NTP: Unidirektionaler Kontext (links nach rechts) — stark bei Generierung und Reasoning
- MLM-Modelle (BERT, RoBERTa) dominieren bei Klassifikation, NER, Sentiment-Analyse
- NTP-Modelle (GPT, LLaMA) sind universeller einsetzbar, auch für Generierung
- Hybride wie UniLM kombinieren beide Ansätze für Encoder-Decoder-Aufgaben
BERT-Nachfolger und Weiterentwicklungen
RoBERTa (Facebook, 2019) optimierte BERTs MLM-Training: mehr Daten, längere Trainingszeiten, kein Next-Sentence-Prediction. Ergebnis: deutlich bessere Benchmarks. DeBERTa (Microsoft, 2020) fügte disentangled Attention hinzu. Diese Modelle sind 2026 weiterhin relevant für Klassifikations- und Extraktionsaufgaben im Unternehmensumfeld.
Relevanz für den Mittelstand
MLM-basierte Modelle wie BERT und seine Varianten sind oft die bessere Wahl, wenn es nicht um Textgenerierung geht, sondern um Verstehen: Dokumentenklassifikation, Sentimentanalyse von Kundenfeedback, Named-Entity-Recognition in Verträgen oder Ähnlichkeitssuche in Produktkatalogen. Sie sind kleiner, schneller und günstiger in der Inferenz als große generative Modelle — ein wichtiges Argument für den kosteneffizienten Betrieb im Mittelstand.
← Zurück zum Glossar