BERT
Bidirectional Encoder Representations from TransformersSprachmodell von Google (2018), das Text in beide Richtungen liest. Basis für viele NLP-Anwendungen.
Was ist BERT?
BERT (Bidirectional Encoder Representations from Transformers) ist ein von Google 2018 veröffentlichtes Sprachmodell, das einen Durchbruch im Bereich Natural Language Processing markierte. Im Gegensatz zu früheren Modellen, die Text nur in eine Richtung lesen, verarbeitet BERT den Kontext gleichzeitig von links und rechts. Dadurch versteht es die Bedeutung eines Wortes nicht nur aus dem Vorgängertext, sondern aus dem gesamten Satzumfeld.
Wie funktioniert BERT?
BERT basiert auf der Encoder-Komponente der Transformer-Architektur und wird in zwei Schritten eingesetzt. Im Pre-Training lernt das Modell auf riesigen Textmengen, indem es zufällig maskierte Wörter vorhersagen muss (Masked Language Modeling) und erkennt, ob zwei Sätze zusammengehören (Next Sentence Prediction). Im zweiten Schritt, dem Fine-Tuning, wird das vortrainierte Modell auf eine spezifische Aufgabe angepasst – etwa Sentimentanalyse, Fragebeantwortung oder Named Entity Recognition. Dabei genügen oft wenige tausend gelabelte Beispiele, weil BERT bereits ein tiefes Sprachverständnis mitbringt. Im Unterschied zu GPT-Modellen ist BERT nicht für Textgenerierung konzipiert, sondern für Aufgaben, die ein genaues Verständnis bestehender Texte erfordern.
Warum ist BERT wichtig?
BERT hat gezeigt, dass ein einmal vortrainiertes Modell auf viele verschiedene Aufgaben übertragen werden kann – ein Konzept, das heute als Transfer Learning Standard ist. Für Unternehmen sind BERT-basierte Modelle besonders relevant, weil sie effizient und kostengünstig einsetzbar sind: Während große generative Modelle für einfache Klassifikationsaufgaben überdimensioniert und teuer sind, liefern BERT-Varianten wie DistilBERT oder RoBERTa bei Aufgaben wie Dokumentenklassifikation, Sentimentanalyse oder semantischer Suche hervorragende Ergebnisse bei einem Bruchteil der Rechenkosten.
Verwandte Begriffe
Transformer, NLP, Fine-Tuning, Embedding, GPT, Transfer Learning
← Zurück zum Glossar