Technologie
Amazon Polly
Amazon Polly to kolejna usługa z pakietu AWS, która wykorzystuje mechanizmy głębokiego uczenia (z ang. deep learning) do konwersji tekstu na mowę. Technologia text-to-speech (TTS) zamienia różnego rodzaju treści w realistycznie brzmiącą syntetyczną mowę.
Organizacje mogą ją wykorzystywać do czytania artykułów na stronie internetowej, narracji audiobooków lub do stworzenia asystenta obsługi klienta.
Usługa Amazon Polly oferuje cztery silniki głosowe (voice engine), które różnią się pod względem zaawansowania. Od standardowego poziomu syntezy mowy—standard engine— po bardziej zaawansowane silniki takie jak neural engine, long-form engine i generative engine.
Czym jest Amazon Polly?
Jak wspomnieliśmy we wstępie Amazon Polly to rozbudowany syntezator mowy. Jest to usługa chmurowa, której zadaniem jest przekonwertowanie tekstu pisanego w jak najbardziej naturalną mowę. Pozwala to organizacjom na zwiększenie zainteresowania i dostępności oferowanych treści.
Usługa zapewnia dostęp do różnego rodzaju głosów (męskich i żeńskich), których intonacje można dopasowywać. Pozwala to na dostosowanie syntezatora do potrzeb biznesowych. Dodatkowo użytkownicy mają dostęp do 4 różnych silników głosowych.
Silniki głosowe (voice engines) oferowane w ramach Amazon Polly
W ofercie Amazon Polly znajdziesz dostęp do 4 silników głosowych (z ang. voice engines). Różnią się one w zakresie naturalności brzmienia syntezowanego głosu oraz pod względem obsługiwanych języków.
Standard Engine
Standardowy silnik jest najbardziej podstawowym silnikiem głosowym dostępnym w Amazon Polly. Jednocześnie współpracuje z największą ilością języków. W ramach niego możesz korzystać z 40 różnych języków i ich odmian (brytyjski angielski, amerykański angielski, australijski angielski itd.).
Standardowy silnik łączy fonemy nagranej mowy i produkuje naturalnie brzmiące dźwięki. Do wyboru jest 40 kobiecych głosów i 20 męskich. Język polski także jest dostępny i można wybrać spośród głosów Ewy, Mai, Jacka i Jana.
Neural Engine
Silnik neuronowy jest bardziej zaawansowany od standardowego silnika i wykorzystuje bardziej rozwiniętą technologię do produkcji mowy. Aby lepiej oddać zawiłość ludzkiej mowy, silnik neuronowy korzysta z sieci neuronowej i vocodera. Sieć neuronowa zamienia sekwencje fonemów w sekwencje spektrogramów po to, aby vocoder mógł je przekształcić w sygnał audio. Wskutek tego Amazon Polly jest w stanie wyprodukować mowę lepszej jakości, która jest bardziej podobna do naturalnej ludzkiej mowy.
Silnik neuronowy obsługuje 35 języków w tym język polski i głos o imieniu Ola.
Long-form Engine
Long-form engine jest przeznaczony do syntezy mowy, której zadaniem jest utrzymywanie uwagi słuchaczy dłuższych treści (np., artykuły na blogu, audiobooki itp.). Za pomocą tego silnika organizacje mogą stworzyć głos, który jest bardzo ludzki, ekspresywny i wyczulony na emocje.
Silnik ten potrafi łączyć fonetyczne i akustyczne elementy ludzkiej mowy tak, aby wyprodukować naturalnie brzmiącą mowę. Za pomocą odpowiedniego osadzania tekstu użytkownik może poinstruować silnik i dać mu wskazówki do tego, jak powinien intonować i podkreślać dane słowa. Można także wskazać mu, gdzie powinien robić odpowiednie pauzy.
Ten silnik głosowy jest obecnie dostępny tylko dla języka angielskiego i hiszpańskiego. Każdy z nich ma kilka wariantów głosowych.
Generative Engine
Silnik generatywny jest najbardziej zaawansowanym silnikiem głosowym w ofercie Amazon Polly. Mowa wygenerowana przez ten silnik jest najbardziej podobna do ludzkiej. Naśladuje emocjonalność wypowiedzi i cechuje się umiejętnością adaptacji.
Do generowania mowy wykorzystuje transformer, który przetwarza miliardy parametrów. Daje mu to możliwość uczenia się na większej ilość danych głosowych do produkcji mowy. Dzięki temu znajdzie zastosowanie w przypadkach użycia gdzie wysoce naturalnie brzmiący głos jest niezbędny (np., obsługa klienta).
Silnik generatywny obsługuje język angielski, francuski, hiszpański, niemiecki i włoski. Każdy z nich ma też swoje warianty głosowe.
Amazon Polly i Amazon Lex duet, który tworzy wszechstronny interfejs konwersacyjny
Amazon Polly świetnie komunikuje się z innymi usługami z oferty AWS w tym z Amazon Lex. Amazon Lex to usługa, która przetwarza tekst i automatycznie rozpoznaje mowę i umożliwia wbudowanie interfejsu konwersacyjnego do aplikacji. Dzięki temu, że Amazon Lex rozumie język naturalny potrafi prowadzić rozmowę w sposób podobny do człowieka. Rozpoznaje intencje rozmówcy i adekwatnie dostosowuje swoje odpowiedzi.
Amazon Lex do syntezy mowy wykorzystuje Amazon Polly dlatego te dwie usługi są niemal nierozerwalne. Pozwala to na tworzenie aplikacji, które mogą komunikować się z użytkownikami w wielu językach i stylach mowy.
Amazon Polly nie generuje głosu komputerowo, do mówienia wykorzystuje nagrane sekwencje głosowe prawdziwych ludzi, którzy są rodzimymi użytkownikami języka. Sprawia to, że głosy dostępne w usłudze są łudząco podobne do ludzkich głosów. Dzięki temu klienci mogą czuć się, jakby rozmawiali lub słuchali prawdziwego człowieka.
Zalety Amazon Polly
Amazon Polly posiada też takie zalety jak:
Synteza głosu wysokiej jakości
Amazon Polly oferuje konwersje tekstu na mowę wysokiej jakości. Dzięki opcji wyboru różnych silników głosowych organizacje mogą dostosować możliwości swojego syntezatora mowy do potrzeb biznesowych. Ponadto silniki Amazon Polly cechują się wyraźną wymową nie tylko zwykłego tekstu, ale także akronimów, liczb, dat, skrótów itp.
Wybór wielu języków i głosów
W sumie Amazon Polly wspiera 40 języków w tym język polski. W zależności od wybranego silnika głosowego użytkownicy mają dostęp do różnego wachlarza języków. Język polski jest obsługiwany w standardowym i neuronowym silniku. Każdy język ma też do wyboru kilka wariantów głosowych męskich i żeńskich.
Ponadto Amazon Polly umożliwia wybranie stylu mowy. Na przykład w języku angielskim można wybrać „prezentera wiadomości”, który odczyta treści w typowy dla prezenterów sposób.
Integracja z chmurą AWS
Konwertowanie tekstu na mowę wymaga dużych nakładów zasobów obliczeniowych. Szczególnie dla dużych przedsięwzięć. Jednak chmura AWS bierze ten problem na siebie i udostępnia swój chmurowy ekosystem. Dodatkowo umożliwia Amazon Polly integracje z innymi usługami Amazonu takimi jak Amazon Lex, Amazon Connect czy Amazon S3.
Niskie opóźnienia
Amazon Polly niezwykle szybko udziela odpowiedzi, dzięki temu dobrze sprawdza się w przypadkach użycia polegających na rozmowie z użytkownikiem.
Jakie są przypadki użycia Amazon Polly?
Amazon Polly można zastosować wszędzie tam, gdzie konwersja tekstu na mowę zwiększy zainteresowanie klientów i poprawi dostępność produktów. Poniżej opisujemy kilka przykładów.
Tworzenie treści
Amazon Polly może zwiększyć dostępność treści dla osób z niepełnosprawnościami lub osób, które po prostu lubią słuchać długich tekstów, zamiast je czytać. W związku z tym usługę można wykorzystać do odczytywania artykułów na blogu oraz tworzenia audiobooków. Z możliwości Amazon Polly korzysta na przykład Washington Post i USA Today.
Prezentacja wiadomości
Jeśli tworzysz artykuły prasowe w języku angielskim to możesz wykorzystać Amazon Polly do odczytywania tekstu niczym rasowy prezenter wiadomości. Zwiększy to zainteresowanie odbiorców, a nawet pozwoli ci na przemianę tekstu w angażujące wideo z narracją.
Obsługa klienta
Amazon Polly w połączeniu z Amazon Connect i Amazon Lex jest w stanie stworzyć rozwiniętego asystenta obsługi klienta. Zastosowanie bardziej naturalnych głosów w obszarze obsługi klienta redukuje frustracje klientów i sprawia, że ich problemy mogą zostać rozwiązane szybciej.
Edukacja
Syntezator mowy Amazon Polly nadaje się także do zastosowania w edukacji. Dzięki niemu można szybko stworzyć tutoriale czy inne filmy edukacyjne. Dobrym przykładem jest tutaj aplikacja Duolingo, która wykorzystuje Amazon Polly do zamiany tekstu na mowę. Usługa pozwala też na podłożenie głosów pod animacje, umożliwiając tworzenie edukacyjnego contentu dla dzieci.
Podsumowanie
Amazon Polly to usługa Amazon AWS zamieniająca tekst na mowę. Jest w stanie uzyskać naturalnie brzmiącą syntetyczną mowę, która nie brzmi jak robot. Dzięki zastosowaniu głębokiego uczenia Amazon Polly produkuje wysokiej jakości mowę, która naśladuję sposób wypowiadania się ludzi.
Amazon Polly oferuje wybór różnych silników głosowych, które można zastosować do wielu przypadków użycia. W zależności od potrzeb biznesowych organizacje mogą tworzyć wirtualnych asystentów obsługi klienta, aplikacje i filmiki edukacyjne oraz zapewnić dostęp do treści wielu odbiorcom.