Masked Language Modeling

Training

Das Trainingsprinzip hinter BERT und ähnlichen Modellen: Zufällig verdeckte Wörter im Text werden aus dem beidseitigen Kontext vorhergesagt.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Was ist Masked Language Modeling?

Masked Language Modeling (MLM) ist eine selbstüberwachte Trainingsaufgabe, die 2018 mit BERT (Bidirectional Encoder Representations from Transformers) eingeführt wurde. Das Prinzip: Zufällig werden ca. 15 % der Tokens in einem Text durch ein spezielles [MASK]-Token ersetzt. Die Aufgabe des Modells ist es, die ursprünglichen Tokens allein aus dem umgebenden Kontext zu rekonstruieren.

Entscheidend ist das Wort bidirektional: Beim Vorhersagen eines maskierten Tokens kann das Modell sowohl vorherige als auch nachfolgende Tokens berücksichtigen. Das unterscheidet MLM fundamental von autoregressivem Training, das nur auf den linken Kontext zugreift. Ergebnis sind Modelle, die Texte tief verstehen, aber nicht autoregressive generieren können.

MLM vs. Next-Token-Prediction im Vergleich

Die Wahl des Trainingsziels bestimmt, wofür ein Modell geeignet ist. MLM und NTP erzeugen grundlegend unterschiedliche Modelltypen mit komplementären Stärken.

MLM: Bidirektionaler Kontext — stark bei Verstehen, schwach bei Generierung
NTP: Unidirektionaler Kontext (links nach rechts) — stark bei Generierung und Reasoning
MLM-Modelle (BERT, RoBERTa) dominieren bei Klassifikation, NER, Sentiment-Analyse
NTP-Modelle (GPT, LLaMA) sind universeller einsetzbar, auch für Generierung
Hybride wie UniLM kombinieren beide Ansätze für Encoder-Decoder-Aufgaben

BERT-Nachfolger und Weiterentwicklungen

RoBERTa (Facebook, 2019) optimierte BERTs MLM-Training: mehr Daten, längere Trainingszeiten, kein Next-Sentence-Prediction. Ergebnis: deutlich bessere Benchmarks. DeBERTa (Microsoft, 2020) fügte disentangled Attention hinzu. Diese Modelle sind 2026 weiterhin relevant für Klassifikations- und Extraktionsaufgaben im Unternehmensumfeld.

Relevanz für den Mittelstand

MLM-basierte Modelle wie BERT und seine Varianten sind oft die bessere Wahl, wenn es nicht um Textgenerierung geht, sondern um Verstehen: Dokumentenklassifikation, Sentimentanalyse von Kundenfeedback, Named-Entity-Recognition in Verträgen oder Ähnlichkeitssuche in Produktkatalogen. Sie sind kleiner, schneller und günstiger in der Inferenz als große generative Modelle — ein wichtiges Argument für den kosteneffizienten Betrieb im Mittelstand.

← Zurück zum Glossar

Masked Language Modeling

Was ist Masked Language Modeling?

MLM vs. Next-Token-Prediction im Vergleich

BERT-Nachfolger und Weiterentwicklungen

Relevanz für den Mittelstand

Verwandte Begriffe