Red Teaming
GovernanceSimulierte Angriffe auf KI-Modelle decken Schwachstellen und unerwünschtes Verhalten auf, bevor ein System in Produktion geht.
Was ist Red Teaming bei KI?
Der Begriff stammt aus der klassischen IT-Sicherheit, wo spezialisierte Teams (Red Teams) Systeme aus Angreiferperspektive testen. Auf KI-Systeme angewandt, bedeutet Red Teaming: Fachleute versuchen systematisch, ein Modell zu unerwünschten Ausgaben zu verleiten — sei es durch manipulierte Eingaben, Prompt Injection, Jailbreaks oder adversariale Beispiele.
Ziel ist es, Schwachstellen zu identifizieren, bevor echte Nutzer oder böswillige Akteure sie ausnutzen. Red Teaming geht über automatisierte Sicherheitstests hinaus, weil kreatives menschliches Denken oft Lücken findet, die algorithmische Tests übersehen.
Typische Angriffsvektoren
Beim KI-Red-Teaming werden verschiedene Angriffsszenarien systematisch durchgespielt:
- Prompt Injection: Versteckte Anweisungen in Nutzereingaben überschreiben Systemregeln
- Jailbreaking: Umgehung von Sicherheitsfiltern durch kreative Formulierungen
- Data Poisoning: Manipulation der Trainingsdaten, um Modellverhalten zu beeinflussen
- Model Extraction: Rekonstruktion proprietärer Modelle durch gezielte Abfragen
- Adversariale Beispiele: Minimale Eingabeänderungen führen zu falschen Klassifikationen
Praxisbeispiel
Ein Unternehmen, das einen internen KI-Assistenten einführt, beauftragt vor dem Rollout ein Red Team, das versucht, das System zur Weitergabe vertraulicher Daten oder zu diskriminierenden Aussagen zu bringen — und dokumentiert alle Findings für das Risikomanagement.
Relevanz für den Mittelstand
Wer KI-Systeme mit Kundenkontakt oder Zugriff auf sensible Daten betreibt, sollte Red Teaming als festen Bestandteil des Freigabeprozesses etablieren. Für viele KMU ist die Beauftragung externer Spezialisten sinnvoller als ein internes Team. Auch der EU AI Act verlangt für Hochrisiko-Systeme eine systematische Sicherheitsprüfung — Red Teaming liefert dafür verwertbare Nachweise und hilft, Haftungsrisiken zu begrenzen.
← Zurück zum Glossar