Aktivierungsfunktion

Architektur

Mathematische Funktionen in neuronalen Netzen, die Nichtlinearität einführen und damit das Erlernen komplexer Muster erst ermöglichen.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Warum Nichtlinearität entscheidend ist

Ein neuronales Netz ohne Aktivierungsfunktionen wäre mathematisch äquivalent zu einer einzigen linearen Transformation — egal wie viele Schichten es hat. Es könnte keine komplexen, nichtlinearen Muster in Daten erlernen. Aktivierungsfunktionen lösen das: Sie entscheiden für jeden Wert in einer Schicht, wie stark er weitergegeben wird, und bringen dabei eine nichtlineare Verzerrung ein.

Das Prinzip ist analog zu biologischen Neuronen, die erst ab einer bestimmten Reizschwelle feuern. Die Wahl der Aktivierungsfunktion hat erheblichen Einfluss auf Trainingsgeschwindigkeit, Stabilität und die erreichbare Modellqualität.

Die wichtigsten Aktivierungsfunktionen

Während Sigmoid und Tanh in frühen Netzen dominierten, hat sich ReLU als Standardwahl durchgesetzt — und in modernen LLMs haben sich SwiGLU und GELU als leistungsfähigste Varianten etabliert.

  • ReLU (Rectified Linear Unit): max(0,x) — einfach, schnell, aber leidet unter dem Dying-ReLU-Problem
  • GELU (Gaussian Error Linear Unit): glatte Approximation von ReLU, Standard in BERT und GPT
  • SwiGLU: Kombination aus Swish-Aktivierung und Gated Linear Unit; verwendet in LLaMA, Mistral, PaLM — state of the art für LLMs
  • Sigmoid: klassisch für binäre Ausgaben, heute kaum noch in versteckten Schichten
  • Softmax: Spezialfall für die Ausgabeschicht zur Wahrscheinlichkeitsberechnung über Token-Vokabular

SwiGLU in modernen LLMs

Die meisten leistungsstarken Modelle ab 2023 (LLaMA 2/3, Mistral, Qwen, Gemma) verwenden SwiGLU in den Feedforward-Blöcken. Empirisch übertrifft SwiGLU andere Funktionen bei gleichem Rechenbudget — ein Beispiel dafür, wie scheinbar technische Details erhebliche Qualitätsunterschiede erklären.

Relevanz für den Mittelstand

Für Anwender, die vorgefertigte Modelle nutzen, ist die Aktivierungsfunktion ein Implementierungsdetail des jeweiligen Modells. Relevant wird sie beim Aufbau eigener Netzwerke oder beim Vergleich von Architekturen: Ein Modell mit SwiGLU-Aktivierung ist bei gleicher Parameterzahl in der Regel leistungsfähiger als eines mit ReLU. Beim Fine-Tuning oder Transfer Learning sollte die Aktivierungsfunktion der Ursprungsarchitektur beibehalten werden.

← Zurück zum Glossar