Hello Voice Agents: OpenAI bringt neue Speech-to-Text- und Text-to-Speech-Modelle

OpenAIs neue Sprachmodelle sorgen für präzisere Transkriptionen auch in lauter Umgebung und ermöglichen Developern die Entwicklung personalisierter Voice Agents – wie du letztere selbst ausprobieren kannst, liest du im Artikel.

Mär 21, 2025 - 12:23
 0
Hello Voice Agents: OpenAI bringt neue Speech-to-Text- und Text-to-Speech-Modelle

In den vergangenen Monaten konzentrierte sich OpenAI eigenen Angaben zufolge vorrangig auf die Entwicklung und Optimierung textbasierter AI Agents – darunter etwa der Operator, welcher neuerdings auch in Deutschland verfügbar ist. Um „tiefergehende, intuitivere Interaktionen“ mit AI Agents zu erleben, sei jedoch eine Kommunikationsweise, die über Text hinausgeht, essentiell. Realisiert wird diese jetzt durch den Launch neuer Speech-to-Text- und Text-to-Speech-Modelle in der API. Diese sollen es Developern ermöglichen, intelligente und anpassbare Voice Agents zu entwickeln. Die Modelle, welche auf GPT-4o und GPT-4o mini basieren, übertreffen laut OpenAI sowohl die Speech-to-Text-Technologie Whisper als auch die bisherigen Text-to-Speech-Modelle des Unternehmens.