Diffusion Model

Bildgenerierung

KI-Architektur für Bildgenerierung. Lernt, Rauschen schrittweise zu entfernen. Basis von DALL-E, Stable Diffusion, Midjourney.

Was ist ein Diffusion Model?

Ein Diffusion Model (Diffusionsmodell) ist eine KI-Architektur zur Generierung von Bildern, Videos und anderen Medien. Das Grundprinzip: Das Modell lernt, schrittweise Rauschen aus Daten zu entfernen, und kann diesen Prozess dann umkehren, um aus purem Rauschen neue Inhalte zu erzeugen. Diffusion Models bilden die technische Grundlage hinter Stable Diffusion, DALL-E und Midjourney – den bekanntesten Systemen zur KI-gestützten Bildgenerierung.

Wie funktioniert ein Diffusion Model?

Das Training eines Diffusion Models erfolgt in zwei Phasen. Im Forward-Prozess wird einem Bild schrittweise über viele Iterationen zufälliges Rauschen hinzugefügt, bis es vollständig in Rauschen aufgelöst ist. Das Modell – typischerweise ein spezielles neuronales Netz namens U-Net – lernt dann, in jedem Schritt das hinzugefügte Rauschen vorherzusagen und zu entfernen. Bei der Generierung startet das Modell mit purem, zufälligem Rauschen und entfernt in vielen kleinen Schritten (oft 20 bis 50) das Rauschen, bis ein kohärentes Bild entsteht. Um den Generierungsprozess zu steuern, werden Text-Prompts über sogenannte Cross-Attention-Mechanismen eingebunden: Das Modell entrauscht dabei gezielt in Richtung des beschriebenen Bildes. Neuere Varianten wie Latent Diffusion arbeiten nicht direkt mit Pixeln, sondern in einem komprimierten Latent Space, was die Berechnung erheblich beschleunigt.

Warum sind Diffusion Models wichtig?

Diffusion Models haben die kreative Arbeit in vielen Branchen grundlegend verändert. Marketing-Teams generieren Produktbilder und Kampagnenmotive in Minuten statt Tagen, Architekturbüros erstellen Visualisierungen aus Textbeschreibungen und E-Commerce-Unternehmen produzieren Produktfotos in beliebigen Varianten. Für Unternehmen bedeutet das einen massiven Effizienzgewinn bei visuellen Inhalten. Gleichzeitig werfen Diffusion Models wichtige Fragen zu Urheberrecht, Authentizität und Bias auf, die bei geschäftlicher Nutzung berücksichtigt werden müssen.

Verwandte Begriffe

Stable Diffusion, Generative AI, Latent Space, GAN, Prompt

← Zurück zum Glossar