15.08.2018 |
Sprachsteuerung ist DER Trend schlechthin. Ob Alexa, Google Assistant oder Siri: Sie alle verwenden intelligente Sprachfunktionen. Darunter auch die automatische Umwandlung von Text in Sprache – besser bekannt als Text-to-Speech (TTS). Offen zugängliche Schnittstellen zur Technologie der berühmten Sprachassistenten haben es TENIOS ermöglicht, einen Text-to-Speech Service mit aktuell 38 verschiedenen Stimmvarianten in seine Cloud Communications Dienste zu integrieren.
Wie das Ganze funktioniert? Wir gewähren einen Blick hinter die Kulissen und zeigen was alles im TENIOS Sprachassistenten steckt.
Googles API macht’s möglich
Google Assistant. So heißt der große Bruder des Sprachbots von TENIOS. Entwickelt auf Basis von Google Cloud Text-to-Speech, profitiert der TENIOS TTS Service von Deep-Learning Methoden beruhend auf neuronalen Netzen, die den Datenpool kontinuierlich vergrößern und somit die Sprachsynthese zunehmend optimieren.
Ansagen per TTS generieren
Um die Text-to-Speech-Funktion zum Erstellen einer Ansage zu verwenden, wählt man innerhalb des TENIOS Kundenportals zunächst den Reiter „Ansagen“ aus. Dort hat man die Auswahl zwischen dem Upload einer Audio-Datei („Von Datei“) und dem Service „Text zu Sprache“. Nach einem Klick auf den entsprechenden Button, erscheint folgende Benutzeroberfläche:
Der Text zur Sprachumwandlung kann nun im Textfeld eingegeben werden. Die gewünschte Stimme ist per Dropdown-Menü wählbar. Nach einem Klick auf Speichern, ist die statische Ansage im Benutzerportal abgelegt und kann jederzeit im Routingplan ausgewählt werden.
Der SAY-Block im Routingplan
Um die Text-to-Speech-Funktion flexibel innerhalb des Routingplans zu aktivieren, steht dem Nutzer die Auswahl des sogenannten Sagen- oder auch SAY-Blocks zur Verfügung. Dieser lässt sich im TENIOS Kundenportal als Baustein an beliebiger Stelle im „Rufnummern-Routing“ einfügen. Als Beispiel die Begrüßung bei TENIOS – nun in englischer Sprache:
Im Gegensatz zur Generierung über den Ansagen-Reiter, können die im SAY-Block erstellten Ansagen nicht für die weitere Nutzung an anderer Stelle abgespeichert werden.
SSML macht Stimmen realistischer denn je
Google arbeitet stetig an der Optimierung seiner Sprachsoftware und hat spätestens mit Google Duplex bewiesen, dass Maschinen nicht wie Maschinen klingen müssen. Die Sprachausgabe wird zunehmend lebensechter und das ist auch gut so: 62% der Kunden legen im Kontakt mit einer Künstlichen Intelligenz (KI) Wert auf eine menschenähnliche Stimme, so das Ergebnis einer Umfrage von Capgemini.
Soll nun ein bestimmtes Wort besonders betont werden, kommen sogenannte SSML-Tags zum Einsatz. SSML steht dabei für Speech Synthesis Markup Language: Die auf XML basierende Auszeichnungssprache enthält Befehle, die z.B. die Tonhöhe oder Sprechgeschwindigkeit einer Sprachausgabe steuern. Eine Übersicht aller verfügbaren SSML-Tags in TENIOS Cloud Communications finden Sie in unserer Übersicht.
Mit dem Tag <emphasis> lässt sich beispielsweise die Art der Betonung individuell anpassen. Das Attribut „level“ gibt an, wie stark die Betonung sein soll:
In diesem Fall wird das Wort „TENIOS“ stark betont.
Bei längeren Ansagetexten kann es sinnvoll sein, den Text mithilfe von Sprechpausen zu strukturieren. Hier besteht die Möglichkeit den SSML-Tag <break> zu implementieren. In nachfolgendem Beispiel wird nach dem ersten Satz eine 3-sekündige Pause generiert:
Auch hier stehen dem Nutzer Attribute zur Verfügung, die die Länge der Pause entweder gemessen in „time“ oder in „strength“ definieren.
Text-to-Speech worldwide
Neben Deutsch und Englisch, stehen im TENIOS TTS Service noch weitere 16 Sprachen zur Verfügung. Somit eignet sich die Sprachfunktion auch ideal für den internationalen Kundendialog. Mehr zu den umfangreichen Stimmvariationen von TENIOS Text-to-Speech erfahren Sie in diesem Artikel.
Insgesamt 38 Stimmen in 18 verschiedenen Sprachen stehen in der TENIOS Cloud zur Verfügung
Apropos international: TENIOS bietet neben Text-to-Speech auch die Vorzüge einer automatischen Spracherkennung. Die integrierte Automatic-Speech-Recognition (ASR) erkennt Sprachen aus über 80 Ländern.