LLM – Large Language Model

Kernkonzept

Ein Large Language Model (LLM) ist ein KI-System, das auf riesigen Textmengen trainiert wurde und natürliche Sprache verstehen sowie generieren kann. LLMs sind die Technologie hinter ChatGPT, Claude und ähnlichen Assistenten.

Was ist ein LLM?

Large Language Models sind neuronale Netze mit Milliarden von Parametern, die darauf trainiert wurden, menschliche Sprache zu verarbeiten. Sie können:

Texte verstehen und zusammenfassen
Fragen beantworten und Informationen extrahieren
Neue Texte generieren – von E-Mails bis zu Code
Zwischen Sprachen übersetzen
Komplexe Anweisungen befolgen

Der Begriff "Large" bezieht sich auf die Modellgrösse: Während frühe Sprachmodelle Millionen Parameter hatten, arbeiten moderne LLMs mit Hunderten Milliarden Parametern. GPT-4 wird auf etwa 1,7 Billionen Parameter geschätzt.

Wie funktionieren LLMs?

Die meisten modernen LLMs basieren auf der Transformer-Architektur. Das Kernprinzip ist verblüffend einfach:

Das Grundprinzip: Next Token Prediction

Ein LLM lernt, das nächste Wort (oder Token) in einer Sequenz vorherzusagen. Durch das Training auf Billionen von Wörtern entwickelt es ein statistisches "Verständnis" von Sprache, Fakten und Zusammenhängen.

Der Attention-Mechanismus ermöglicht es dem Modell, relevante Teile des Inputs zu gewichten. Bei der Frage "Wer war der erste Mensch auf dem Mond?" erkennt das Modell, dass "erste", "Mensch" und "Mond" zusammengehören.

Vom Text zur Antwort

Tokenisierung: Der Eingabetext wird in Tokens zerlegt
Embedding: Tokens werden in numerische Vektoren umgewandelt
Verarbeitung: Dutzende Transformer-Schichten verarbeiten die Vektoren
Ausgabe: Das Modell berechnet Wahrscheinlichkeiten für das nächste Token
Sampling: Ein Token wird ausgewählt, der Prozess wiederholt sich

Training und Daten

LLMs durchlaufen typischerweise mehrere Trainingsphasen:

1. Pre-Training

Das Modell lernt Sprache aus riesigen, unstrukturierten Textmengen – Websites, Bücher, Wikipedia, Code-Repositories. Diese Phase erfordert enorme Rechenleistung: Tausende GPUs über Wochen bis Monate.

2. Fine-Tuning

Das vortrainierte Modell wird auf spezifische Aufgaben angepasst – z.B. Frage-Antwort-Paare oder Instruktionen. Mehr dazu unter Fine-Tuning.

3. RLHF (Reinforcement Learning from Human Feedback)

Menschen bewerten Modellantworten, und das Modell lernt, bevorzugte Antworten zu generieren. Dies macht LLMs "hilfreicher" und sicherer. Siehe RLHF.

Bekannte LLMs im Vergleich

Modell	Anbieter	Besonderheit	Zugang
GPT-4	OpenAI	Sehr breit einsetzbar, multimodal	API, ChatGPT
Claude 3	Anthropic	200k Token Kontext, sicherheitsfokussiert	API, claude.ai
Gemini	Google	Multimodal (Text, Bild, Video)	API, Gemini App
Llama 3	Meta	Open Source, lokal nutzbar	Download, API
Mistral	Mistral AI	Effizient, europäisch	Open Source, API

Anwendungen in Unternehmen

LLMs sind keine Spielerei – sie verändern Arbeitsprozesse in vielen Branchen:

Kundenservice: Chatbots, die komplexe Anfragen verstehen
Wissensmanagement: Fragen an Dokumentensammlungen stellen (RAG)
Content-Erstellung: Texte, Zusammenfassungen, Übersetzungen
Code-Assistenz: Programmierung beschleunigen
Analyse: Verträge, Berichte, Feedback auswerten

Praxisbeispiel

Ein Maschinenbauer nutzt ein LLM, um Service-Techniker zu unterstützen: Techniker beschreiben ein Problem in natürlicher Sprache, das System durchsucht Handbücher und Serviceberichte und liefert relevante Lösungsvorschläge.

Grenzen und Risiken

LLMs können halluzinieren

LLMs generieren plausibel klingende, aber faktisch falsche Informationen. Sie "erfinden" Quellen, Zitate oder Fakten. Kritische Prüfung bleibt unverzichtbar. Mehr unter Halluzination.

Weitere Einschränkungen

Wissens-Cutoff: LLMs kennen keine Ereignisse nach ihrem Trainingszeitpunkt
Kein echtes Verstehen: LLMs verarbeiten Muster, sie "denken" nicht
Kontext begrenzt: Auch große Context Windows haben Grenzen
Datenschutz: Cloud-LLMs senden Daten an externe Server
Bias: Trainingsdaten können Vorurteile enthalten

LLMs lokal betreiben

Für sensible Unternehmensdaten ist die Cloud problematisch. Alternativen:

Open-Source-Modelle: Llama, Mistral, Qwen laufen lokal
Quantisierung: Reduziert Speicherbedarf erheblich
Tools wie Ollama: Vereinfachen lokalen Betrieb
On-Premise-Server: Professionelle Infrastruktur im eigenen Rechenzentrum

Mehr dazu auf unserer Seite On-Premise KI.

← Zurück zum Glossar