Glossar

Text-to-Speech (TTS)

Text-to-Speech (TTS), ist eine Technologie, die Text in natürlich gesprochene Sprache umwandelt. Mittels Text-to-Speech können geschriebene Inhalte wie Textnachrichten, E-Mails, Webseiten, eBooks und mehr in hochwertige Audioausgaben umgewandelt werden. Diese audiovisuelle Darstellung erleichtert es insbesondere Menschen die Schwierigkeiten beim Lesen oder Sehprobleme haben, Informationen auf natürliche Weise aufzunehmen.

Zurück zum Glossar

Wie wandeln Text-to-Speech-Systeme Texte in Sprache um?

Ein Sprachsynthesesystem besteht grundsätzlich aus zwei Komponenten, der Natural Language Processing (NLP) Komponente, die den ausgewählten Text analysiert und interpretiert, und der Digital Signal Processing (DSP) Komponente, die das akustische Sprachsignal erzeugt.

NLP-Komponente

Die NLP-Komponente wandelt den Text in seine Lautschrift um. Dazu wird die gesamte Zeichenkette in einzelne Tokens oder Laute zerlegt und nach einem festgelegten Regelwerk oder Lexikon verarbeitet. Auf diese Weise werden Aussprache, Betonung und Satzmelodie korrekt ermittelt, so dass anschließend eine flüssig und natürlich klingende Lautfolge erzeugt werden kann.

DSP-Komponente

Die DSP-Komponente ist für die eigentliche Generierung der Lautfolge zuständig. Dafür kommen zwei unterschiedliche Ansätze in Frage: die artikulatorische Synthese, welche die menschliche Lauterzeugung maschinell zu imitieren versucht, und die Signalmodellierung, welche zuvor aufgezeichnete Signale modifiziert und kombiniert. Beide Ansätze greifen auf Datenbanken zurück, welche charakteristische Informationen über Sprachsegmente enthalten. Diese werden dann für die Erzeugung der gewünschten Äußerungen miteinander verknüpft.

TeamViewer Alternative von STARFACE

Update der STARFACE App für Windows: Softphone erhält KI und mehr

DECT Telefonie für Unternehmen ideal einsetzen

Text-to-Speech (TTS)

Wie wandeln Text-to-Speech-Systeme Texte in Sprache um?