Generative AI: Grundlagen und Konzepte verstehen
Von Transformern bis Diffusionsmodellen: Die technischen Grundlagen hinter ChatGPT, Claude und Stable Diffusion verständlich erklärt - ohne Mathematik-Studium.
Generative AI ist in aller Munde - aber wie funktioniert sie eigentlich? Warum kann ChatGPT plausible Texte schreiben und Stable Diffusion beeindruckende Bilder erzeugen? Dieser Artikel erklärt die wichtigsten Konzepte so, dass auch Nicht-Techniker sie verstehen können.
Was ist Generative AI?
Generative AI bezeichnet KI-Systeme, die neue Inhalte erstellen können - im Gegensatz zu analytischer KI, die bestehende Daten klassifiziert oder Muster erkennt. Die Inhalte können Text, Bilder, Audio, Video oder Code sein.
Generativ vs. Diskriminativ: Klassische ML-Modelle sind oft diskriminativ - sie unterscheiden Kategorien (ist dieses Bild eine Katze oder ein Hund?). Generative Modelle hingegen lernen die Verteilung der Daten und können neue, aehnliche Beispiele erzeugen (erstelle ein Bild einer Katze).
Die wichtigsten Kategorien
- Large Language Models (LLMs) - ChatGPT, Claude, Gemini für Textgenerierung
- Diffusionsmodelle - Stable Diffusion, Midjourney, DALL-E für Bildgenerierung
- Multimodale Modelle - GPT-4V, Claude 3 können Text und Bilder verarbeiten
- Audio-Modelle - Whisper, ElevenLabs für Sprache und Musik
- Video-Modelle - Sora, Runway für Videoerstellung
Die Transformer-Architektur
Transformer sind die Grundlage aller modernen LLMs. Die 2017 von Google eingeführte Architektur revolutionierte die Sprachverarbeitung. Das "T" in GPT steht für Transformer.
Das Konzept: Attention
Der Kernmechanismus ist "Attention" (Aufmerksamkeit). Das Modell lernt, welche Teile des Inputs für die aktuelle Vorhersage relevant sind:
- Self-Attention - Jedes Wort "schaut" auf alle anderen Woerter im Satz
- Gewichtete Beziehungen - Relevante Woerter erhalten mehr "Aufmerksamkeit"
- Kontextverständnis - Ermoeglicht Verständnis von Beziehungen über lange Distanzen
Beispiel: Im Satz "Die Bank am Flussufer war voller Touristen" hilft Attention dem Modell zu verstehen, dass "Bank" hier ein Sitzmoebel ist und keine Finanzinstitution - weil "Flussufer" und "Touristen" mehr Aufmerksamkeit erhalten als ein hypothetischer Finanzkontext.
Warum Transformer so erfolgreich sind
- Parallelisierung - Im Gegensatz zu aelteren RNNs können alle Positionen gleichzeitig verarbeitet werden
- Skalierbarkeit - Mehr Parameter = bessere Leistung (bisher)
- Transfer Learning - Vortrainierte Modelle können auf spezifische Aufgaben angepasst werden
- Lange Kontexte - Können tausende Woerter gleichzeitig berücksichtigen
Wie LLMs trainiert werden
Das Training von LLMs erfolgt in mehreren Phasen:
Phase 1: Pre-Training
Das Modell wird auf riesigen Textmengen trainiert, um Sprache zu verstehen:
- Datenquellen - Buecher, Websites, Wikipedia, Code-Repositories
- Aufgabe - Naechstes Wort vorhersagen (bei GPT) oder maskierte Woerter erraten (bei BERT)
- Umfang - Billionen von Token, tausende GPUs, monatelanges Training
- Ergebnis - Foundation Model mit breitem Sprachverständnis
Phase 2: Fine-Tuning
Das vortrainierte Modell wird auf spezifische Aufgaben angepasst:
- Instruction Tuning - Training auf Anweisungen folgen
- Domain Fine-Tuning - Spezialisierung auf Fachgebiete
- Task-spezifisches Training - Optimierung für bestimmte Aufgaben
Phase 3: RLHF (Reinforcement Learning from Human Feedback)
Menschen bewerten Modellantworten, um die Qualität zu verbessern:
- Ranking - Menschen ranken verschiedene Antworten
- Reward Model - Ein Modell lernt menschliche Praeferenzen
- Optimierung - Das LLM wird optimiert, um höhere Bewertungen zu erhalten
Limitationen: LLMs haben kein echtes Verständnis oder Bewusstsein. Sie modellieren statistische Muster in Sprache - extrem gut, aber ohne echtes "Wissen". Daher auch das Problem der Halluzinationen: Das Modell generiert plausibel klingenden, aber falschen Content.
Diffusionsmodelle für Bildgenerierung
Diffusionsmodelle wie Stable Diffusion funktionieren nach einem anderen Prinzip als LLMs:
Das Grundprinzip
Diffusion basiert auf zwei Prozessen:
- Forward Diffusion - Ein Bild wird schrittweise mit Rauschen ueberlagert, bis nur noch Rauschen uebrig ist
- Reverse Diffusion - Das Modell lernt, diesen Prozess umzukehren - aus Rauschen ein Bild zu rekonstruieren
Nach dem Training kann das Modell aus zufaelligem Rauschen neue Bilder generieren. Der Text-Prompt steuert, welches Bild entstehen soll.
Komponenten eines Diffusionsmodells
- U-Net - Das neuronale Netz, das Rauschen vorhersagt und entfernt
- Text-Encoder - Wandelt Prompts in Vektoren um (oft CLIP)
- VAE (Variational Autoencoder) - Komprimiert Bilder in einen latenten Raum
- Scheduler - Steuert den schrittweisen Entrauschungsprozess
Latent Diffusion: Moderne Modelle wie Stable Diffusion arbeiten nicht direkt mit Pixeln, sondern im "latenten Raum" - einer komprimierten Repraesentation. Das spart enorm Rechenleistung und ermoeglicht hochaufgeloeste Bilder.
Modellgröße und Parameter
Die Größe eines Modells wird in Parametern gemessen - den lernbaren Gewichten des neuronalen Netzes:
Typische Größenordnungen
- Kleine Modelle - 1-7 Milliarden Parameter (Llama 3 8B, Mistral 7B)
- Mittlere Modelle - 13-70 Milliarden Parameter (Llama 3 70B)
- Große Modelle - 100+ Milliarden Parameter (GPT-4 geschaetzt 1+ Trillion)
Mehr Parameter = Besser?
Nicht unbedingt. Die Skalierungsgesetze zeigen:
- Diminishing Returns - Verdopplung der Parameter verdoppelt nicht die Leistung
- Datenqualität wichtiger - Bessere Trainingsdaten helfen mehr als mehr Parameter
- Effizientere Architekturen - Kleinere Modelle können größere schlagen
- Inference-Kosten - Größere Modelle sind teurer im Betrieb
Kontextfenster verstehen
Das Kontextfenster (Context Window) begrenzt, wie viel Text ein Modell gleichzeitig verarbeiten kann:
Was sind Token?
Modelle arbeiten nicht mit Woertern, sondern mit Token - Wortteilen:
- Subword-Tokenisierung - Woerter werden in häufige Teilstuecke zerlegt
- Faustregeln - 1 Token entspricht etwa 4 Zeichen oder 0.75 deutschen Woertern
- Variabilitaet - Häufige Woerter = 1 Token, seltene = mehrere Token
Typische Kontextgrößen
- GPT-3.5 - 16.000 Token
- GPT-4 Turbo - 128.000 Token
- Claude 3 - 200.000 Token
- Gemini 1.5 - bis zu 1 Million Token
Praktische Bedeutung: 200.000 Token entsprechen etwa 500 Seiten Text. Damit können Sie ein ganzes Buch, umfangreiche Codebasen oder viele Dokumente gleichzeitig analysieren lassen.
Wie die Textgenerierung funktioniert
Bei der Inference (Anwendung) generiert das Modell Token für Token:
Der Generierungsprozess
- Input verarbeiten - Der Prompt wird tokenisiert und durch das Modell geschickt
- Wahrscheinlichkeiten berechnen - Für jedes moegliche naechste Token
- Token auswaehlen - Basierend auf Wahrscheinlichkeit und Parametern
- Wiederholen - Bis Endebedingung erreicht (max. Laenge, Stop-Token)
Wichtige Generierungsparameter
- Temperature - Steuert Zufaelligkeit. Niedrig = deterministisch, hoch = kreativ
- Top-P (Nucleus Sampling) - Begrenzt Auswahl auf wahrscheinlichste Token
- Top-K - Waehlt nur aus den K wahrscheinlichsten Token
- Max Tokens - Maximale Laenge der Antwort
Grenzen und Missverständnisse
Um GenAI effektiv zu nutzen, ist es wichtig, ihre Grenzen zu verstehen:
Was LLMs NICHT können
- Echtes Verstehen - Kein semantisches Verständnis, nur Mustererkennung
- Zuverlässige Fakten - Kein Zugriff auf Wahrheit, nur auf Trainingsdaten
- Logisches Reasoning - Komplexe mehrstufige Logik oft fehlerhaft
- Aktuelle Informationen - Wissen endet mit Trainingszeitpunkt
- Mathematik - Berechnungen sind häufig falsch (ausser mit Tools)
Häufige Missverständnisse
- "Die KI denkt" - Nein, sie berechnet Wahrscheinlichkeiten
- "Die KI weiss" - Sie modelliert Muster in Trainingsdaten
- "Die KI luegt" - Sie hat kein Konzept von Wahrheit oder Luege
- "Die KI ist intelligent" - Sie zeigt Verhalten, das intelligent wirkt
Halluzinationen: LLMs generieren manchmal plausibel klingende, aber voellig erfundene Informationen. Das ist kein Bug, sondern eine Eigenschaft des Designs - das Modell optimiert auf "klingt richtig", nicht auf "ist richtig".
Aktuelle Entwicklungen und Trends
Die Entwicklung schreitet rasant voran. Diese Trends praegen die nahe Zukunft:
- Multimodalitaet - Modelle verstehen Text, Bild, Audio und Video gleichzeitig
- Agentic AI - KI-Agenten, die eigenstaendig Aufgaben loesen und Tools nutzen
- Kleinere, effizientere Modelle - Bessere Leistung bei weniger Parametern
- On-Device AI - Modelle, die lokal auf Smartphones und Laptops laufen
- Reasoning-Verbesserungen - Chain-of-Thought, Tree-of-Thought für bessere Logik
- RAG-Integration - Retrieval-Augmented Generation für aktuelle, faktische Antworten
Lesen Sie mehr dazu in unserem Artikel KI-Trends 2026: Was uns erwartet.
Generative AI im Unternehmenseinsatz
Für Unternehmen stellt sich nicht die Frage, ob generative KI relevant ist, sondern wie sie am besten eingesetzt wird. Die wichtigsten Einsatzbereiche im Überblick:
Content-Erstellung und Marketing
Generative KI kann Produktbeschreibungen, Social-Media-Posts, Newsletter und Blogartikel erstellen oder ueberarbeiten. Der Schluessel liegt im richtigen Prompt Engineering: Je praeziser die Anweisung, desto besser das Ergebnis. Wichtig ist, dass menschliche Redakteure die Qualität prüfen und den Unternehmenstton sicherstellen.
Dokumentenverarbeitung und Wissensmanagement
Mit RAG-Systemen können Unternehmen ihre internen Dokumente durchsuchbar machen. Mitarbeiter stellen Fragen in natuerlicher Sprache und erhalten praezise Antworten basierend auf den unternehmenseigenen Dokumenten. Das spart Stunden an manueller Recherche pro Woche.
Code-Generierung und Softwareentwicklung
Tools wie GitHub Copilot zeigen, wie generative KI die Softwareentwicklung beschleunigt. Entwickler können Boilerplate-Code generieren lassen, Tests erstellen und Dokumentation automatisieren. Die Produktivitätssteigerung liegt bei erfahrenen Entwicklern typischerweise bei 30-50 Prozent.
Datenschutz und Sicherheit
Beim Einsatz generativer KI in Unternehmen ist Datenschutz zentral. Sensible Unternehmensdaten sollten nicht an Cloud-Dienste gesendet werden. On-Premise-Lösungen mit Open-Source-Modellen bieten volle Kontrolle über die Daten und erfuellen die Anforderungen der DSGVO. Erfahren Sie mehr in unserer KI-Beratung.
Häufig gestellte Fragen
Was ist der Unterschied zwischen generativer und analytischer KI?
Analytische KI klassifiziert bestehende Daten und erkennt Muster, zum Beispiel Spam-Erkennung oder Betrugsdetektion. Generative KI erstellt neue Inhalte wie Texte, Bilder, Code oder Audio. Beide haben unterschiedliche Einsatzgebiete: Analytische KI eignet sich für Entscheidungsunterstützung, generative KI für Content-Erstellung und kreative Aufgaben.
Wie funktioniert die Transformer-Architektur hinter ChatGPT?
Transformer nutzen den Attention-Mechanismus, bei dem jedes Wort die Beziehung zu allen anderen Woertern im Text bewertet. Das ermoeglicht ein tiefes Kontextverständnis. Im Gegensatz zu aelteren Architekturen können Transformer alle Woerter parallel verarbeiten, was das Training auf riesigen Datenmengen ermoeglicht. Das "T" in GPT steht für Transformer.
Was bedeutet Temperature bei der KI-Textgenerierung?
Temperature steuert die Zufaelligkeit der KI-Ausgabe. Ein niedriger Wert (z.B. 0.1) macht die Antworten deterministischer und faktentreuer, ideal für Sachfragen. Ein hoher Wert (z.B. 0.9) erhoeht die Kreativitaet und Variabilitaet, geeignet für kreatives Schreiben. Für Geschaeftsanwendungen empfehlen sich niedrige bis mittlere Temperature-Werte.
Kann generative KI für Unternehmen sicher eingesetzt werden?
Ja, mit den richtigen Maßnahmen. Dazu gehoeren On-Premise-Deployment für volle Datenkontrolle, RAG-Systeme für faktenbasierte Antworten, klare Nutzungsrichtlinien und Human-in-the-Loop-Prozesse für kritische Anwendungen. Die Wahl zwischen Cloud- und On-Premise-Lösungen haengt von Datenschutzanforderungen und Budget ab.
Generative AI in Ihrem Unternehmen einsetzen?
Wir helfen Ihnen, die richtige KI-Technologie für Ihre Anwendungsfälle zu identifizieren und erfolgreich zu implementieren.