LLM – Large Language Model

Kernkonzept

Ein Large Language Model (LLM) ist ein KI-System, das auf riesigen Textmengen trainiert wurde und natürliche Sprache verstehen sowie generieren kann. LLMs sind die Technologie hinter ChatGPT, Claude und ähnlichen Assistenten.

Was ist ein LLM?

Large Language Models sind neuronale Netze mit Milliarden von Parametern, die darauf trainiert wurden, menschliche Sprache zu verarbeiten. Sie können:

  • Texte verstehen und zusammenfassen
  • Fragen beantworten und Informationen extrahieren
  • Neue Texte generieren – von E-Mails bis zu Code
  • Zwischen Sprachen übersetzen
  • Komplexe Anweisungen befolgen

Der Begriff "Large" bezieht sich auf die Modellgrösse: Während frühe Sprachmodelle Millionen Parameter hatten, arbeiten moderne LLMs mit Hunderten Milliarden Parametern. GPT-4 wird auf etwa 1,7 Billionen Parameter geschätzt.

Wie funktionieren LLMs?

Die meisten modernen LLMs basieren auf der Transformer-Architektur. Das Kernprinzip ist verblüffend einfach:

Das Grundprinzip: Next Token Prediction

Ein LLM lernt, das nächste Wort (oder Token) in einer Sequenz vorherzusagen. Durch das Training auf Billionen von Wörtern entwickelt es ein statistisches "Verständnis" von Sprache, Fakten und Zusammenhängen.

Der Attention-Mechanismus ermöglicht es dem Modell, relevante Teile des Inputs zu gewichten. Bei der Frage "Wer war der erste Mensch auf dem Mond?" erkennt das Modell, dass "erste", "Mensch" und "Mond" zusammengehören.

Vom Text zur Antwort

  1. Tokenisierung: Der Eingabetext wird in Tokens zerlegt
  2. Embedding: Tokens werden in numerische Vektoren umgewandelt
  3. Verarbeitung: Dutzende Transformer-Schichten verarbeiten die Vektoren
  4. Ausgabe: Das Modell berechnet Wahrscheinlichkeiten für das nächste Token
  5. Sampling: Ein Token wird ausgewählt, der Prozess wiederholt sich

Training und Daten

LLMs durchlaufen typischerweise mehrere Trainingsphasen:

1. Pre-Training

Das Modell lernt Sprache aus riesigen, unstrukturierten Textmengen – Websites, Bücher, Wikipedia, Code-Repositories. Diese Phase erfordert enorme Rechenleistung: Tausende GPUs über Wochen bis Monate.

2. Fine-Tuning

Das vortrainierte Modell wird auf spezifische Aufgaben angepasst – z.B. Frage-Antwort-Paare oder Instruktionen. Mehr dazu unter Fine-Tuning.

3. RLHF (Reinforcement Learning from Human Feedback)

Menschen bewerten Modellantworten, und das Modell lernt, bevorzugte Antworten zu generieren. Dies macht LLMs "hilfreicher" und sicherer. Siehe RLHF.

Bekannte LLMs im Vergleich

Modell Anbieter Besonderheit Zugang
GPT-4 OpenAI Sehr breit einsetzbar, multimodal API, ChatGPT
Claude 3 Anthropic 200k Token Kontext, sicherheitsfokussiert API, claude.ai
Gemini Google Multimodal (Text, Bild, Video) API, Gemini App
Llama 3 Meta Open Source, lokal nutzbar Download, API
Mistral Mistral AI Effizient, europäisch Open Source, API

Anwendungen in Unternehmen

LLMs sind keine Spielerei – sie verändern Arbeitsprozesse in vielen Branchen:

  • Kundenservice: Chatbots, die komplexe Anfragen verstehen
  • Wissensmanagement: Fragen an Dokumentensammlungen stellen (RAG)
  • Content-Erstellung: Texte, Zusammenfassungen, Übersetzungen
  • Code-Assistenz: Programmierung beschleunigen
  • Analyse: Verträge, Berichte, Feedback auswerten

Praxisbeispiel

Ein Maschinenbauer nutzt ein LLM, um Service-Techniker zu unterstützen: Techniker beschreiben ein Problem in natürlicher Sprache, das System durchsucht Handbücher und Serviceberichte und liefert relevante Lösungsvorschläge.

Grenzen und Risiken

LLMs können halluzinieren

LLMs generieren plausibel klingende, aber faktisch falsche Informationen. Sie "erfinden" Quellen, Zitate oder Fakten. Kritische Prüfung bleibt unverzichtbar. Mehr unter Halluzination.

Weitere Einschränkungen

  • Wissens-Cutoff: LLMs kennen keine Ereignisse nach ihrem Trainingszeitpunkt
  • Kein echtes Verstehen: LLMs verarbeiten Muster, sie "denken" nicht
  • Kontext begrenzt: Auch grosse Context Windows haben Grenzen
  • Datenschutz: Cloud-LLMs senden Daten an externe Server
  • Bias: Trainingsdaten können Vorurteile enthalten

LLMs lokal betreiben

Für sensible Unternehmensdaten ist die Cloud problematisch. Alternativen:

Mehr dazu auf unserer Seite On-Premise KI.

← Zurück zum Glossar