Mai 2026
Voice-Plattformen entwickeln sich rasant weiter – hin zu flexiblerer Steuerung, günstigerer Infrastruktur und einer Szenario-Entwicklung mit deutlich weniger Latenz. Zwei Bereiche haben in diesem Monat größere Updates bekommen: die Text-to-Speech-Anbieter und der Szenario-Editor.
Menschlich klingende Stimmen zum Bruchteil der Kosten
Wir haben Unterstützung für die neuen Gemini-Text-to-Speech-Modelle eingeführt. Damit umfasst die Plattform jetzt sechs Voice-Anbieter, mehr als 25 Modelle und über 200 Stimmen.
Diese Modelle klingen natürlicher als die bisherigen Premium-Optionen am Markt – und kosten dabei vier- bis fünfmal weniger.
- Modellauswahl: Kunden können je nach Anforderung zwischen mehreren Sprachmodellen wählen. Flash-Lite ist das schnellste und eignet sich gut für kurze Phrasen. Flash ist das ausgewogene Mittelklasse-Modell mit starker emotionaler Wiedergabe für breitere Dialoganwendungen. Pro ist die fortschrittlichste Option und liefert Premium-Qualität sowie tiefere Konversationsfähigkeiten. Alle drei Modelle unterstützen Prompts im LLM-Stil. Kunden können die Wiedergabe also direkt über Prompts steuern – ohne separate Sprachkonfiguration oder zusätzliches Setup.
- Dynamische Tonalität: Derselbe Voice Agent kann das Register je nach Anwendungsfall wechseln – „einfühlsam“ beim Service-Recovery-Anruf, „formell“ bei der Erinnerung an die Vertragsverlängerung. Eingestellt wird das direkt über den Prompt, ohne separate Sprachkonfiguration. Aktuell verfügbar bei den Gemini-Modellen.
- Realistisches Audio: Die Stimmen enthalten natürliche Atempausen und ein menschliches Sprechtempo. Das klingt deutlich näher an echter Sprache als an synthetischer Wiedergabe.
„Wir haben jedes große TTS-Modell auf dem Markt getestet. Bis zu diesem Jahr waren hochwertige, menschlich klingende Stimmen teuer. Gemini erreicht die Qualität der Premium-Anbieter, kostet aber vier- bis fünfmal weniger“
– Ilya Ostrovskiy, Chief Product Officer bei Apifonica
Neben Gemini haben wir auch die ElevenLabs-Integration um Eleven v3 erweitert. Kunden haben damit in derselben Oberfläche Zugriff auf sechs Modelltypen, darunter latenzarme, mehrsprachige und besonders ausdrucksstarke Varianten. So lässt sich je nach Anwendungsfall die richtige Balance zwischen Latenz und Ausdruckskraft finden.
Praktisch ist auch die neue Funktion zum Herunterladen von Audio-Samples. Kunden können Sprachsamples mit echtem Szenariotext direkt aus der Plattform heraus erzeugen und herunterladen. Für die Feinabstimmung eines komplexen Szenarios ist kein Live-Testanruf mehr nötig. Ergebnis anhören, Dialog anpassen, Sample in derselben Sitzung neu generieren – fertig.
Szenario-Editor: Suche und bessere Übersicht
Große Voice-Szenarien werden schnell komplex und damit unübersichtlich. Die neue Suche im Szenario-Editor löst genau dieses Problem – mit einer globalen Echtzeit-Suche über das gesamte Szenario hinweg.

- Szenario-Suche: Eine Suchleiste im Spotlight-Stil findet jeden Baustein oder Textinhalt innerhalb eines Szenarios sofort – egal wie komplex die Struktur ist.
- Datenauszug auf einen Blick: Werte aus der Entitätsextraktion – Sprachen, CRM-Ticketnummern, kurzum alles, was der Baustein erfasst – erscheinen jetzt direkt auf der Arbeitsfläche. Niemand muss mehr jeden Baustein einzeln aufklappen, um zu sehen, was darin steckt.
- Audio-Samples auf Knopfdruck: Soll eine bestimmte Phrase angehört werden, lässt sich das Audio-Sample über den neuen Download-Button erzeugen und bei Bedarf teilen.
Bei großen Szenarien mit Hunderten von Logikbausteinen ist das ein spürbares Usability-Upgrade.
Was das in der Praxis bedeutet
Zusammen heben diese Updates zwei zentrale Bereiche des Voice-AI-Workflows auf ein neues Niveau:
- Bessere Sprachqualität – ausdrucksstärker und natürlicher
- Schnellere Szenario-Entwicklung und Fehlersuche, auch im großen Maßstab
Der Fokus ist klar: den Weg vom Schreiben eines Szenarios bis zum Hören des Ergebnisses so kurz wie möglich machen.
Sehen Sie sich die neuen Gemini-TTS-Stimmen in Aktion an und legen Sie noch heute noch schneller mit der Entwicklung los.
Vereinbaren Sie einen Termin
