Pre-Training

Training

Erstes Training auf riesigen Datenmengen. Modell lernt allgemeines Sprachverstaendnis. Basis fuer Fine-Tuning.

Was ist Pre-Training?

Pre-Training (Vortraining) ist die erste und aufwendigste Phase beim Erstellen eines KI-Modells, insbesondere bei großen Sprachmodellen (LLMs). Dabei wird ein neuronales Netz auf riesigen Datenmengen trainiert -- bei Sprachmodellen typischerweise Milliarden von Textdokumenten aus dem Internet, Büchern und anderen Quellen. Das Modell lernt dabei allgemeine Muster der Sprache, Faktenwissen und logische Zusammenhänge, ohne auf eine bestimmte Aufgabe spezialisiert zu sein. Das Ergebnis ist ein sogenanntes Foundation Model, das anschließend per Fine-Tuning für spezifische Anwendungen angepasst werden kann.

Wie funktioniert Pre-Training?

Beim Pre-Training eines Sprachmodells wird dem Modell eine einfache, aber wirkungsvolle Aufgabe gestellt: das nächste Wort in einem Text vorherzusagen. Aus dem Satz "Die Katze sitzt auf dem..." lernt es, dass "Dach", "Tisch" oder "Sofa" wahrscheinliche Fortsetzungen sind, aber "Quantenphysik" eher nicht. Durch Milliarden solcher Vorhersagen entwickelt das Modell ein tiefes Verständnis von Grammatik, Bedeutung, Logik und sogar Weltwissen. Dieser Prozess erfordert enorme Rechenressourcen: Das Training eines großen Modells kann Monate dauern, tausende GPUs gleichzeitig beanspruchen und viele Millionen Euro kosten. Deshalb wird das Pre-Training nur von wenigen großen Unternehmen wie OpenAI, Google, Anthropic oder Meta durchgeführt.

Warum ist Pre-Training wichtig?

Pre-Training ist der Schlüssel zum Erfolg moderner KI, weil es das Paradigma "einmal aufwendig trainieren, vielfach nutzen" ermöglicht. Ein vortrainiertes Modell kann anschließend mit relativ wenig Aufwand und Daten auf spezifische Unternehmensaufgaben angepasst werden -- vom Kundenservice-Chatbot über die Vertragsanalyse bis zur Codegenerierung. Für Unternehmen bedeutet das: Sie müssen kein eigenes Modell von Grund auf trainieren (was kaum erschwinglich wäre), sondern können auf bestehende vortrainierte Modelle aufbauen und diese über Fine-Tuning oder Few-Shot Learning an ihre Bedürfnisse anpassen.

Verwandte Begriffe

Fine-Tuning · Foundation Model · Large Language Model (LLM) · Transformer · GPU · Transfer Learning

Mehr dazu in unserem Blogartikel: Fine-Tuning von LLMs

← Zurück zum Glossar