Speech-to-Text
MultimodalKI-Technologie zur automatischen Umwandlung von Sprache in Text – Grundlage für Transkription, Voicebot und Sprachassistenten.
Was ist Speech-to-Text?
Speech-to-Text (STT), auch Automatic Speech Recognition (ASR) genannt, bezeichnet KI-Systeme, die Audioeingaben in maschinenlesbaren Text umwandeln. Moderne STT-Modelle wie OpenAIs Whisper, Googles Speech-to-Text API oder AssemblyAI erreichen in vielen Sprachen Fehlerraten unter 5 Prozent und unterstützen Echtzeit- wie auch Batch-Transkription.
Technisch basieren aktuelle Systeme auf Transformer-Architekturen, die akustische Merkmale direkt auf Texttokens abbilden – ohne die früheren mehrstufigen Pipelines aus akustischem Modell, Sprachmodell und Decoder.
Wichtige Einsatzfelder
STT ist eine Basistechnologie mit breitem Anwendungsspektrum:
- Meeting-Transkription: automatische Protokollierung von Video- und Telefonkonferenzen
- Callcenter-Analyse: Qualitätssicherung und Sentimentanalyse aus Gesprächsmitschnitten
- Barrierefreiheit: Untertitel und Audiobeschreibungen in Echtzeit
- Sprachsteuerung: Eingabe in ERP, CRM oder Produktionssystemen per Sprache
- Dokumentation: Diktat von Berichten, Befunden oder Protokollen durch Fachpersonal
Whisper als Open-Source-Option
OpenAIs Whisper ist kostenlos und on-premise betreibbar – damit für datenschutzsensible Anwendungen im Mittelstand besonders interessant.
Relevanz für den Mittelstand
Für KMU bietet STT unmittelbaren ROI: Automatische Meeting-Protokolle sparen Stunden pro Woche, Callcenter-Analysen liefern Qualitätsdaten ohne manuelle Auswertung. Datenschutz ist zentral – bei sensiblen Inhalten (Kundentelefonate, medizinische Diktate) empfiehlt sich der Betrieb mit lokalen Modellen wie Whisper auf eigener Infrastruktur, um DSGVO-Anforderungen sicher zu erfüllen.
← Zurück zum Glossar