Computer Use
Agentic AIFähigkeit von KI-Agenten, grafische Benutzeroberflächen eigenständig zu bedienen — sie sehen den Bildschirm und steuern Maus und Tastatur.
Was ist Computer Use?
Computer Use bezeichnet eine Klasse von KI-Agenten, die einen Computer über dessen grafische Benutzeroberfläche (GUI) bedienen können — so wie ein Mensch es tut. Der Agent nimmt Screenshots des Bildschirms als Input, interpretiert UI-Elemente und gibt Aktionen wie Mausklicks, Tastatureingaben oder Scrollbewegungen aus.
Anthropic hat Computer Use im Oktober 2024 mit Claude 3.5 Sonnet als öffentliche Beta eingeführt. Im Unterschied zu API-basierter Automatisierung funktioniert Computer Use auch mit Legacy-Applikationen, die keine programmatische Schnittstelle bieten.
Technisches Funktionsprinzip
Computer Use nutzt multimodale KI-Modelle und kombiniert drei Fähigkeiten:
- Screen Understanding: Das Modell analysiert Screenshots und lokalisiert Buttons, Felder und Texte
- Action Generation: Ausgabe präziser Koordinaten und Aktionstypen (click, type, scroll, key)
- Feedback-Loop: Nach jeder Aktion wird ein neuer Screenshot aufgenommen und ausgewertet
- Fehlerkorrektur: Wenn eine Aktion nicht das erwartete Ergebnis bringt, passt der Agent seinen Plan an
Besonderes Risikoprofil
Computer Use ist mächtig, aber auch gefährlich: Ein Agent mit Computerzugriff kann Dateien löschen, E-Mails versenden oder Bestellungen auslösen. Strikte Sandboxing und Human-in-the-Loop-Freigaben sind unverzichtbar.
Relevanz für den Mittelstand
Computer Use erschließt Automatisierungspotenzial für Systeme ohne API — z.B. ältere ERP-Module, Windows-Desktopanwendungen oder schlecht dokumentierte Web-Portale. Das ist für den Mittelstand besonders interessant, da Legacy-Software weit verbreitet ist. Gleichzeitig erfordert Computer Use zwingend eine isolierte Testumgebung, exaktes Berechtigungsmanagement und schrittweise Einführung mit menschlicher Überwachung.
← Zurück zum Glossar