Speech-to-Text

Multimodal

KI-Technologie zur automatischen Umwandlung von Sprache in Text – Grundlage für Transkription, Voicebot und Sprachassistenten.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Was ist Speech-to-Text?

Speech-to-Text (STT), auch Automatic Speech Recognition (ASR) genannt, bezeichnet KI-Systeme, die Audioeingaben in maschinenlesbaren Text umwandeln. Moderne STT-Modelle wie OpenAIs Whisper, Googles Speech-to-Text API oder AssemblyAI erreichen in vielen Sprachen Fehlerraten unter 5 Prozent und unterstützen Echtzeit- wie auch Batch-Transkription.

Technisch basieren aktuelle Systeme auf Transformer-Architekturen, die akustische Merkmale direkt auf Texttokens abbilden – ohne die früheren mehrstufigen Pipelines aus akustischem Modell, Sprachmodell und Decoder.

Wichtige Einsatzfelder

STT ist eine Basistechnologie mit breitem Anwendungsspektrum:

  • Meeting-Transkription: automatische Protokollierung von Video- und Telefonkonferenzen
  • Callcenter-Analyse: Qualitätssicherung und Sentimentanalyse aus Gesprächsmitschnitten
  • Barrierefreiheit: Untertitel und Audiobeschreibungen in Echtzeit
  • Sprachsteuerung: Eingabe in ERP, CRM oder Produktionssystemen per Sprache
  • Dokumentation: Diktat von Berichten, Befunden oder Protokollen durch Fachpersonal

Whisper als Open-Source-Option

OpenAIs Whisper ist kostenlos und on-premise betreibbar – damit für datenschutzsensible Anwendungen im Mittelstand besonders interessant.

Relevanz für den Mittelstand

Für KMU bietet STT unmittelbaren ROI: Automatische Meeting-Protokolle sparen Stunden pro Woche, Callcenter-Analysen liefern Qualitätsdaten ohne manuelle Auswertung. Datenschutz ist zentral – bei sensiblen Inhalten (Kundentelefonate, medizinische Diktate) empfiehlt sich der Betrieb mit lokalen Modellen wie Whisper auf eigener Infrastruktur, um DSGVO-Anforderungen sicher zu erfüllen.

← Zurück zum Glossar