Softmax
AktivierungFunktion, die Zahlen in Wahrscheinlichkeiten umwandelt (Summe = 1). Letzte Schicht in Klassifikationsmodellen.
Was ist Softmax?
Die Softmax-Funktion ist eine mathematische Funktion, die eine beliebige Liste von Zahlen (sogenannte Logits) in eine Wahrscheinlichkeitsverteilung umwandelt. Das Ergebnis sind Werte zwischen 0 und 1, die sich zu 1 (also 100 %) summieren. Softmax wird in nahezu allen neuronalen Netzen eingesetzt -- als letzte Schicht in Klassifikationsmodellen, im Self-Attention-Mechanismus von Transformern und bei der Token-Auswahl in Sprachmodellen.
Ein Beispiel: Ein Sprachmodell berechnet die Rohwerte [2,5; 1,0; 0,1] für drei mögliche nächste Wörter. Die Softmax-Funktion wandelt diese in die Wahrscheinlichkeiten [0,78; 0,17; 0,05] um -- das erste Wort ist am wahrscheinlichsten.
Wie funktioniert Softmax?
Softmax berechnet für jeden Eingabewert die Exponentialfunktion (e hoch x) und teilt das Ergebnis durch die Summe aller Exponentialwerte. Größere Eingabewerte erhalten dadurch überproportional höhere Wahrscheinlichkeiten, während kleine Werte nahe null gedrückt werden. Die Funktion verstärkt also Unterschiede -- das wahrscheinlichste Ergebnis wird deutlich hervorgehoben.
Im Self-Attention-Mechanismus berechnet Softmax die Aufmerksamkeitsgewichte: Für jedes Token wird bestimmt, wie viel Aufmerksamkeit auf jedes andere Token gerichtet werden soll. Die Rohwerte (Dot-Products von Query und Key) werden durch Softmax in eine Wahrscheinlichkeitsverteilung umgewandelt, sodass die Gewichte sich zu 1 summieren. Der Temperature-Parameter beeinflusst dabei die "Schärfe" der Verteilung: Niedrige Temperature erzeugt spitzere Verteilungen (ein Token dominiert), hohe Temperature verteilt die Wahrscheinlichkeiten gleichmäßiger.
Warum ist Softmax wichtig?
Softmax ist eine Schlüsselkomponente in praktisch jedem modernen KI-Modell. In Klassifikationsmodellen liefert sie interpretierbare Wahrscheinlichkeiten: Statt eines abstrakten Scores erhalten Sie eine klare Aussage wie "87 % Wahrscheinlichkeit für Kategorie A". Das ermöglicht fundierte Entscheidungen, etwa indem nur Vorhersagen mit ausreichend hoher Konfidenz automatisch verarbeitet werden.
Für Unternehmen ist das Verständnis von Softmax hilfreich, weil es erklärt, warum KI-Modelle Wahrscheinlichkeiten ausgeben können und wie diese zu interpretieren sind. Wenn ein Modell "Spam mit 95 % Wahrscheinlichkeit" ausgibt, basiert das auf der Softmax-Funktion. Das Verständnis dieser Konfidenzwerte ist entscheidend für die Festlegung von Schwellenwerten in automatisierten Prozessen.
Verwandte Begriffe
Self-Attention · Temperature · Sampling · Classification · Neural Network
← Zurück zum Glossar