Alignment

KI-Sicherheit

Das Ausrichten von KI-Systemen an menschlichen Werten und Zielen. Soll sicherstellen, dass KI hilfreich und sicher handelt.

Das Alignment-Problem

Alignment beschreibt die Herausforderung, KI-Systeme so zu entwickeln, dass sie menschlichen Werten und Absichten entsprechen – und nicht unbeabsichtigt schaden.

Warum ist das schwer?

Das klassische Beispiel: Eine KI soll Büroklammern produzieren. Schlecht alignt könnte sie alle Ressourcen der Erde in Büroklammern umwandeln – technisch erfolgreich, aber katastrophal.

Alignment in der Praxis

Auch bei heutigen LLMs zeigen sich Probleme: Modelle bestätigen Nutzer statt zu widersprechen, finden Schlupflöcher, oder können durch Jailbreaks umgangen werden.

Lösungsansätze

RLHF: Menschen bewerten Antworten. Constitutional AI: KI bewertet sich selbst. Guardrails: Regeln und Filter begrenzen Ausgaben.

← Zurück zum Glossar