Technologie

Amazon Polly

Oceń:

Amazon Polly to kolejna usługa z pakietu AWS, która wykorzystuje mechanizmy głębokiego uczenia (z ang. deep learning) do konwersji tekstu na mowę. Technologia text-to-speech (TTS) zamienia różnego rodzaju treści w realistycznie brzmiącą syntetyczną mowę.

Organizacje mogą ją wykorzystywać do czytania artykułów na stronie internetowej, narracji audiobooków lub do stworzenia asystenta obsługi klienta.

Usługa Amazon Polly oferuje cztery silniki głosowe (voice engine), które różnią się pod względem zaawansowania. Od standardowego poziomu syntezy mowy—standard engine— po bardziej zaawansowane silniki takie jak neural engine, long-form engine i generative engine.

Czym jest Amazon Polly?

Jak wspomnieliśmy we wstępie Amazon Polly to rozbudowany syntezator mowy. Jest to usługa chmurowa, której zadaniem jest przekonwertowanie tekstu pisanego w jak najbardziej naturalną mowę. Pozwala to organizacjom na zwiększenie zainteresowania i dostępności oferowanych treści.

Usługa zapewnia dostęp do różnego rodzaju głosów (męskich i żeńskich), których intonacje można dopasowywać. Pozwala to na dostosowanie syntezatora do potrzeb biznesowych. Dodatkowo użytkownicy mają dostęp do 4 różnych silników głosowych.

Silniki głosowe (voice engines) oferowane w ramach Amazon Polly

W ofercie Amazon Polly znajdziesz dostęp do 4 silników głosowych (z ang. voice engines). Różnią się one w zakresie naturalności brzmienia syntezowanego głosu oraz pod względem obsługiwanych języków.

Standard Engine

Standardowy silnik jest najbardziej podstawowym silnikiem głosowym dostępnym w Amazon Polly. Jednocześnie współpracuje z największą ilością języków. W ramach niego możesz korzystać z 40 różnych języków i ich odmian (brytyjski angielski, amerykański angielski, australijski angielski itd.).

Standardowy silnik łączy fonemy nagranej mowy i produkuje naturalnie brzmiące dźwięki. Do wyboru jest 40 kobiecych głosów i 20 męskich. Język polski także jest dostępny i można wybrać spośród głosów Ewy, Mai, Jacka i Jana.

Neural Engine

Silnik neuronowy jest bardziej zaawansowany od standardowego silnika i wykorzystuje bardziej rozwiniętą technologię do produkcji mowy. Aby lepiej oddać zawiłość ludzkiej mowy, silnik neuronowy korzysta z sieci neuronowej i vocodera. Sieć neuronowa zamienia sekwencje fonemów w sekwencje spektrogramów po to, aby vocoder mógł je przekształcić w sygnał audio. Wskutek tego Amazon Polly jest w stanie wyprodukować mowę lepszej jakości, która jest bardziej podobna do naturalnej ludzkiej mowy.

Silnik neuronowy obsługuje 35 języków w tym język polski i głos o imieniu Ola.

Long-form Engine

Long-form engine jest przeznaczony do syntezy mowy, której zadaniem jest utrzymywanie uwagi słuchaczy dłuższych treści (np., artykuły na blogu, audiobooki itp.). Za pomocą tego silnika organizacje mogą stworzyć głos, który jest bardzo ludzki, ekspresywny i wyczulony na emocje.

Silnik ten potrafi łączyć fonetyczne i akustyczne elementy ludzkiej mowy tak, aby wyprodukować naturalnie brzmiącą mowę. Za pomocą odpowiedniego osadzania tekstu użytkownik może poinstruować silnik i dać mu wskazówki do tego, jak powinien intonować i podkreślać dane słowa. Można także wskazać mu, gdzie powinien robić odpowiednie pauzy.

Ten silnik głosowy jest obecnie dostępny tylko dla języka angielskiego i hiszpańskiego. Każdy z nich ma kilka wariantów głosowych.

Generative Engine

Silnik generatywny jest najbardziej zaawansowanym silnikiem głosowym w ofercie Amazon Polly. Mowa wygenerowana przez ten silnik jest najbardziej podobna do ludzkiej. Naśladuje emocjonalność wypowiedzi i cechuje się umiejętnością adaptacji.

Do generowania mowy wykorzystuje transformer, który przetwarza miliardy parametrów. Daje mu to możliwość uczenia się na większej ilość danych głosowych do produkcji mowy. Dzięki temu znajdzie zastosowanie w przypadkach użycia gdzie wysoce naturalnie brzmiący głos jest niezbędny (np., obsługa klienta).

Silnik generatywny obsługuje język angielski, francuski, hiszpański, niemiecki i włoski. Każdy z nich ma też swoje warianty głosowe.

Amazon Polly i Amazon Lex duet, który tworzy wszechstronny interfejs konwersacyjny

Amazon Polly świetnie komunikuje się z innymi usługami z oferty AWS w tym z Amazon Lex. Amazon Lex to usługa, która przetwarza tekst i automatycznie rozpoznaje mowę i umożliwia wbudowanie interfejsu konwersacyjnego do aplikacji. Dzięki temu, że Amazon Lex rozumie język naturalny potrafi prowadzić rozmowę w sposób podobny do człowieka. Rozpoznaje intencje rozmówcy i adekwatnie dostosowuje swoje odpowiedzi.

Amazon Lex do syntezy mowy wykorzystuje Amazon Polly dlatego te dwie usługi są niemal nierozerwalne. Pozwala to na tworzenie aplikacji, które mogą komunikować się z użytkownikami w wielu językach i stylach mowy.

Amazon Polly nie generuje głosu komputerowo, do mówienia wykorzystuje nagrane sekwencje głosowe prawdziwych ludzi, którzy są rodzimymi użytkownikami języka. Sprawia to, że głosy dostępne w usłudze są łudząco podobne do ludzkich głosów. Dzięki temu klienci mogą czuć się, jakby rozmawiali lub słuchali prawdziwego człowieka.

Zalety Amazon Polly

Amazon Polly posiada też takie zalety jak:

Synteza głosu wysokiej jakości

Amazon Polly oferuje konwersje tekstu na mowę wysokiej jakości. Dzięki opcji wyboru różnych silników głosowych organizacje mogą dostosować możliwości swojego syntezatora mowy do potrzeb biznesowych. Ponadto silniki Amazon Polly cechują się wyraźną wymową nie tylko zwykłego tekstu, ale także akronimów, liczb, dat, skrótów itp.

Wybór wielu języków i głosów

W sumie Amazon Polly wspiera 40 języków w tym język polski. W zależności od wybranego silnika głosowego użytkownicy mają dostęp do różnego wachlarza języków. Język polski jest obsługiwany w standardowym i neuronowym silniku. Każdy język ma też do wyboru kilka wariantów głosowych męskich i żeńskich.

Ponadto Amazon Polly umożliwia wybranie stylu mowy. Na przykład w języku angielskim można wybrać „prezentera wiadomości”, który odczyta treści w typowy dla prezenterów sposób.

Integracja z chmurą AWS

Konwertowanie tekstu na mowę wymaga dużych nakładów zasobów obliczeniowych. Szczególnie dla dużych przedsięwzięć. Jednak chmura AWS bierze ten problem na siebie i udostępnia swój chmurowy ekosystem. Dodatkowo umożliwia Amazon Polly integracje z innymi usługami Amazonu takimi jak Amazon Lex, Amazon Connect czy Amazon S3.

Niskie opóźnienia

Amazon Polly niezwykle szybko udziela odpowiedzi, dzięki temu dobrze sprawdza się w przypadkach użycia polegających na rozmowie z użytkownikiem.

Jakie są przypadki użycia Amazon Polly?

Amazon Polly można zastosować wszędzie tam, gdzie konwersja tekstu na mowę zwiększy zainteresowanie klientów i poprawi dostępność produktów. Poniżej opisujemy kilka przykładów.

Tworzenie treści

Amazon Polly może zwiększyć dostępność treści dla osób z niepełnosprawnościami lub osób, które po prostu lubią słuchać długich tekstów, zamiast je czytać. W związku z tym usługę można wykorzystać do odczytywania artykułów na blogu oraz tworzenia audiobooków. Z możliwości Amazon Polly korzysta na przykład Washington Post i USA Today.

Prezentacja wiadomości

Jeśli tworzysz artykuły prasowe w języku angielskim to możesz wykorzystać Amazon Polly do odczytywania tekstu niczym rasowy prezenter wiadomości. Zwiększy to zainteresowanie odbiorców, a nawet pozwoli ci na przemianę tekstu w angażujące wideo z narracją.

Obsługa klienta

Amazon Polly w połączeniu z Amazon Connect i Amazon Lex jest w stanie stworzyć rozwiniętego asystenta obsługi klienta. Zastosowanie bardziej naturalnych głosów w obszarze obsługi klienta redukuje frustracje klientów i sprawia, że ich problemy mogą zostać rozwiązane szybciej.

Edukacja

Syntezator mowy Amazon Polly nadaje się także do zastosowania w edukacji. Dzięki niemu można szybko stworzyć tutoriale czy inne filmy edukacyjne. Dobrym przykładem jest tutaj aplikacja Duolingo, która wykorzystuje Amazon Polly do zamiany tekstu na mowę. Usługa pozwala też na podłożenie głosów pod animacje, umożliwiając tworzenie edukacyjnego contentu dla dzieci.

Podsumowanie

Amazon Polly to usługa Amazon AWS zamieniająca tekst na mowę. Jest w stanie uzyskać naturalnie brzmiącą syntetyczną mowę, która nie brzmi jak robot. Dzięki zastosowaniu głębokiego uczenia Amazon Polly produkuje wysokiej jakości mowę, która naśladuję sposób wypowiadania się ludzi.

Amazon Polly oferuje wybór różnych silników głosowych, które można zastosować do wielu przypadków użycia. W zależności od potrzeb biznesowych organizacje mogą tworzyć wirtualnych asystentów obsługi klienta, aplikacje i filmiki edukacyjne oraz zapewnić dostęp do treści wielu odbiorcom.

Korzyści z używania Amazon Polly

Generowanie mowy w 40 językach
Amazon Polly obsługuje 40 języków. Pozwala to na tworzenie treści o zasięgu globalnym. Każdy język posiada też różne warianty głosowe (męskie i żeńskie). Język polski jest także dostępny dla silnika standardowego i neuronowego.
Naturalnie brzmiący głos
Amazon Polly daje możliwość odczytywania treści naturalnym ludzkim głosem. Dzięki temu użytkownicy nie rozmawiają z beznamiętnym robotem tylko z asystentem, który naśladuje ludzkie emocje.
Wiele zastosowań w niskiej cenie
Amazon Polly można wykorzystać do wielu przypadków użycia od czytania artykułów po kompleksową obsługę klienta. Jednocześnie organizacje płacą tylko za zużyte zasoby dzięki elastycznemu modelu pay-as-you-go. Tak jak inne usługi AWS Amazon Polly oferuje darmową wersję próbną.
Czym jest TTS?
Zamiana tekstu na mowę, czyli text-to-speech (TTS) to rozwiązanie umożliwiające transformację tekstów pisanych na mowę. Jest to syntezator mowy, który może odczytywać treści w formie audio. Syntezatory mają szerokie zastosowanie od czytania stron internetowych po obsługę klienta.
Czy Amazon Polly jest darmowe?
Amazon Polly oferuje dostęp do darmowej wersji próbnej, w ramach której można przetwarzać 5 milionów znaków miesięcznie przez pierwsze 12 miesięcy. Darmowy limit różni się w zależności od wybranego silnika głosowego.
Dlaczego powinieneś korzystać z Amazon Polly?
Amazon Polly oferuje organizacjom możliwość tworzenia bardziej angażującej treści, która łączy się z odbiorcą na poziomie emocjonalnym. Ponadto zwiększa dostępność cyfrowych produktów, dzięki czemu mogą one trafić do szerszej grupy potencjalnych klientów.