Technologien

Amazon Polly

Bewerten:

Amazon Polly ist ein weiterer Service aus der AWS-Suite, der Deep-Learning-Mechanismen zur Umwandlung von Text in Sprache verwendet. Die Text-to-Speech-Technologie wandelt verschiedene Arten von Inhalten in realistische und lebensechte, synthetische Sprache um.

Unternehmen können damit Artikel auf einer Website vorlesen, Hörbücher einsprechen oder einen Assistenten für den Kundenservice erstellen.

Der Amazon Polly-Service bietet vier Sprach-Engines, die sich in ihrer Komplexität unterscheiden. Sie reichen von einer Standardstufe synthetischer Sprache — der Standard-Engine — bis hin zu fortgeschritteneren Engines wie der Neural-Engine, der Long-Form-Engine und der Generative-Engine.

Was ist Amazon Polly?

Wie bereits in der Einleitung erwähnt, ist Amazon Polly ein fortschrittlicher Sprachsynthesizer. Es handelt sich um einen Cloud-Service, der geschriebenen Text in möglichst natürlich klingende Sprache umwandelt. Amazon Polly ermöglicht es Organisationen, das Engagement und die Zugänglichkeit der angebotenen Inhalte zu erhöhen.

Der Dienst bietet Zugang zu verschiedenen Stimmen (männlich und weiblich), deren Intonation angepasst werden kann. So können Unternehmen den Sprachsynthesizer an ihre geschäftlichen Bedürfnisse anpassen. Darüber hinaus haben die Benutzer Zugang zu 4 verschiedenen Sprach-Engines.

Von Amazon Polly angebotene Sprach-Engines

Das Angebot von Amazon Polly umfasst den Zugang zu 4 Sprach-Engines. Sie unterscheiden sich darin, wie natürlich die synthetisierte Stimme klingt und in der Anzahl der verfügbaren Sprachen.

Standard-Engine

Die Standard-Engine ist die grundlegendste Sprach-Engine von Amazon Polly. Sie unterstützt auch die größte Anzahl von Sprachen. Mit ihr können Sie 40 Sprachen und ihre Varianten (britisches Englisch, amerikanisches Englisch, australisches Englisch usw.) verwenden.

Die Standard-Engine kombiniert die Phoneme der aufgenommenen Sprache und erzeugt natürliche Klänge. Sie können aus 40 weiblichen Stimmen und 20 männlichen Stimmen wählen. Für Deutsch können Sie zum Beispiel die Stimmen von Marlene oder Hans wählen.

Neural-Engine

Die neuronale Engine ist fortschrittlicher als die Standard-Engine und verwendet eine ausgefeiltere Technologie zur Erzeugung von Sprache. Um die Komplexität der menschlichen Sprache besser zu imitieren, verwendet die neuronale Engine ein neuronales Netzwerk und einen Vocoder. Das neuronale Netz wandelt eine Folge von Phonemen in eine Folge von Spektrogrammen um, sodass der Vocoder sie in ein Audiosignal umwandeln kann. Dadurch kann Amazon Polly qualitativ hochwertige Sprache erzeugen, die der natürlichen menschlichen Sprache ähnlicher ist.

Die neuronale Engine unterstützt 35 Sprachen. Deutsche Benutzer können zwischen 4 verschiedenen Stimmen (männlich und weiblich) wählen.

Long-Form-Engine

Die Long-Form-Engine dient der Sprachsynthese, um die Aufmerksamkeit der Zuhörer für längere Inhalte (Artikel in Blogs, Hörbücher usw.) zu erhalten. Mithilfe dieser Engine können Unternehmen eine Stimme erzeugen, die menschlicher, ausdrucksstärker und gefühlsbetonter ist.

Die Maschine kann phonetische und akustische Elemente der menschlichen Sprache kombinieren, um natürlich klingende Sprache zu erzeugen. Mithilfe der Texteinbettung können die Benutzer der Maschine Anweisungen zur Intonation und Betonung bestimmter Wörter geben. Sie können auch angeben, wo die Maschine entsprechende Pausen machen soll.

Diese Sprach-Engine ist derzeit nur für Englisch und Spanisch verfügbar. Für jede Sprache gibt es eine Reihe von Sprachvarianten.

Generative-Engine

Die Generative-Engine ist die fortschrittlichste Sprach-Engine, die Amazon Polly bietet. Die von dieser Engine erzeugte Sprache ist der menschlichen Sprache am ähnlichsten, ahmt ihre Emotionalität nach und zeichnet sich durch Anpassungsfähigkeit aus.

Die Engine verwendet einen Transformator, um Sprache zu erzeugen, indem sie eine Milliarde Parameter verarbeitet. Dadurch kann sie mit größeren Sprachdaten lernen, um Sprache zu erzeugen. Dadurch kann sie für Anwendungsfälle eingesetzt werden, bei denen eine sehr natürlich klingende Stimme wichtig ist (z. B. im Kundendienst).

Die Generative-Engine unterstützt Englisch, Französisch, Spanisch, Deutsch und Italienisch. Jede Sprache hat ihre eigenen Sprachvarianten.

Amazon Polly und Amazon Lex — ein Duo, das eine umfassende Kommunikationsschnittstelle schafft

Amazon Polly funktioniert gut mit anderen AWS-Services, einschließlich Amazon Lex. Amazon Lex verarbeitet Text und erkennt automatisch Sprache, wodurch es möglich wird, eine Konversationsschnittstelle in eine Anwendung zu integrieren. Dank der Fähigkeit von Amazon Lex, natürliche Sprache zu verstehen, kann es eine Konversation auf eine menschenähnliche Weise führen. Es erkennt die Absichten des Benutzers und passt seine Antworten genau an.

Amazon Lex nutzt Amazon Polly zur Sprachsynthese, sodass diese Dienste fast untrennbar miteinander verbunden sind. Dadurch können Unternehmen Anwendungen erstellen, die mit Benutzern in mehreren Sprachen und Sprachstilen kommunizieren.

Amazon Polly ist keine computergenerierte Stimme, sondern verwendet aufgezeichnete Sprachsequenzen von echten Menschen, die Muttersprachler ihrer jeweiligen Sprache sind. Daher sind die im Dienst verfügbaren Stimmen den menschlichen Stimmen sehr ähnlich. Dadurch haben die Kunden das Gefühl, dass sie mit einem echten Menschen sprechen oder ihm zuhören.

Vorzüge von Amazon Polly

Amazon Polly hat außerdem die folgenden Vorzüge:

Hochwertige Sprachsynthese

Amazon Polly bietet eine hochwertige Text-zu-Sprache-Umwandlung. Mit der Option, verschiedene Sprach-Engines zu wählen, können Unternehmen die Fähigkeiten ihres Sprachsynthesizers an die geschäftlichen Anforderungen anpassen. Darüber hinaus zeichnen sich die Engines von Amazon Polly durch eine klare Aussprache von einfachen Texten sowie von Akronymen, Zahlen, Daten, Abkürzungen usw. aus.

Viele Sprachen und Stimmen zur Auswahl

Amazon Polly unterstützt insgesamt 40 Sprachen, einschließlich ihrer Varianten (z. B. amerikanisches/britisches Englisch). Je nach gewählter Sprach-Engine haben die Benutzer Zugriff auf eine unterschiedliche Auswahl an Sprachen. Englisch und Spanisch funktionieren mit allen verfügbaren Engines. Für jede Sprache gibt es außerdem eine Reihe von weiblichen und männlichen Stimmen zur Auswahl.

Außerdem können Sie mit Amazon Polly den Sprachstil auswählen. Für die englische Sprache können Sie zum Beispiel eine Nachrichtensprecher-Stimme auswählen, die den Inhalt im Stil eines Nachrichtensprechers vorliest.

Integration mit der AWS-Cloud

Die Umwandlung von Text in Sprache erfordert eine Menge an Rechenressourcen, insbesondere bei großen Projekten. Die AWS-Cloud kümmert sich jedoch um dieses Problem und stellt die Cloud-Umgebung bereit. Außerdem kann Amazon Polly mit anderen Amazon-Diensten wie Amazon Lex, Amazon Connect oder Amazon S3 integriert werden.

Geringe Latenzzeit

Amazon Polly reagiert extrem schnell und eignet sich gut für Anwendungsfälle, bei denen Gespräche mit Benutzern erforderlich sind.

Was sind die Anwendungsfälle von Amazon Polly?

Sie können Amazon Polly überall dort einsetzen, wo die Umwandlung von Text in Sprache die Kundenbindung erhöht und die Zugänglichkeit von Produkten verbessert. Im Folgenden beschreiben wir einige Beispiele.

Inhalte erstellen

Amazon Polly kann die Zugänglichkeit von Inhalten für Menschen mit Behinderungen verbessern oder für Menschen, die es einfach vorziehen, sich längere Texte anzuhören, anstatt sie zu lesen. Sie können den Dienst nutzen, um Blogartikel zu lesen und Hörbücher zu erstellen. Zum Beispiel nutzen die Washington Post und USA Today Amazon Polly.

Nachrichtensendungen

Sie können Amazon Polly verwenden, um Text wie ein professioneller Nachrichtensprecher zu lesen, wenn Sie Nachrichtenartikel in amerikanischem/britischem Englisch oder Spanisch schreiben. Dies erhöht die Einbindung des Publikums und ermöglicht es Ihnen, den Text in ein ansprechendes Video mit Erzählung umzuwandeln.

Kundenservice

Amazon Polly, kombiniert mit Amazon Connect und Amazon Lex, kann einen fortschrittlichen Kundendienst-Assistenten schaffen. Die Verwendung natürlicherer Stimmen im Kundenservice verringert die Frustration der Kunden und ermöglicht es Ihnen, ihre Probleme schneller zu lösen.

Bildung

Der Amazon Polly Sprachsynthesizer ist auch für den Einsatz im Unterricht geeignet. Mit ihm können Sie schnell Tutorials oder andere Lernvideos erstellen. Ein gutes Beispiel ist die Duolingo-Anwendung, die Amazon Polly zur Umwandlung von Text in Sprache verwendet. Der Dienst ermöglicht es Ihnen auch, Animationen zu vertonen und so Lerninhalte für Kinder zu erstellen.

Zusammenfassung

Amazon Polly ist ein AWS-Service, der Text in Sprache umwandelt. Er kann natürlich klingende synthetische Sprache erzeugen, die sich nicht wie ein Roboter anhört. Dank Deep Learning erzeugt Amazon Polly qualitativ hochwertige Sprache, die das Sprechen von Menschen nachahmt.

Amazon Polly bietet verschiedene Sprach-Engines für viele verschiedene Anwendungsfälle. Je nach Geschäftsanforderungen können Unternehmen virtuelle Kundendienstassistenten, Anwendungen und Lehrvideos erstellen und den Zugang zu Inhalten für ein breites Publikum sicherstellen.

Vorteile der Verwendung von Amazon Polly

Spracherzeugung in 40 Sprachen
Amazon Polly unterstützt 40 Sprachen, was Ihnen ermöglicht, Inhalte mit globaler Reichweite zu erstellen. Jede Sprache hat verschiedene Sprachvarianten (weiblich und männlich). Englisch und Spanisch sind in allen Sprach-Engines verfügbar.
Natürlich klingende Stimme
Amazon Polly ermöglicht es Ihnen, Inhalte mit einer natürlich klingenden menschlichen Stimme zu lesen. Dadurch sprechen die Benutzer nicht mit einem emotionslosen Roboter, sondern mit einem Assistenten, der menschliche Emotionen nachahmt.
Viele Anwendungsfälle zu einem niedrigen Preis
Sie können Amazon Polly für viele Anwendungsfälle nutzen — vom Lesen von Artikeln bis zum umfassenden Kundensupport. Gleichzeitig zahlen Unternehmen dank des flexiblen Pay-as-you-go-Modells nur für die Ressourcen, die sie nutzen. Wie andere AWS-Services bietet auch Amazon Polly eine kostenlose Stufe.
Was ist TTS?
Mit der Text-to-Speech-Technologie (TTS) können Sie Text in Sprache umwandeln. Es handelt sich um einen Sprachsynthesizer, der Inhalte in Audioform vorlesen kann. Synthesizer sind vielseitig einsetzbar, vom Lesen von Websites bis zum Kundendienst.
Ist Amazon Polly kostenlos?
Amazon Polly bietet eine kostenlose Stufe, mit der Sie in den ersten 12 Monaten 5 Millionen Zeichen pro Monat umwandeln können. Das kostenlose Limit ist je nach gewählter Sprach-Engine unterschiedlich.
Warum sollten Sie Amazon Polly verwenden?
Amazon Polly ermöglicht es Unternehmen, ansprechendere Inhalte zu erstellen, die das Publikum auf einer emotionalen Ebene ansprechen. Außerdem verbessert es die Zugänglichkeit digitaler Produkte, wodurch sie eine größere Gruppe potenzieller Kunden erreichen können.