Google vyvinul nový systém hlasové syntézy, který má být v budoucnu použit u hlasových asistentů budoucnosti. Nový engine má označení Tacotron 2 a podle doposud zveřejněných výsledků testování je jeho hlasový výstup nerozlišitelný od skutečného lidského hlasu. Jak již napovídá číslovka 2 v názvu, jedná se o druhou generaci syntetizační technologie, která se skládá ze dvou neurálních sítí.
První se stará o převod textu do speciální spektrogramu, druhá s označením WaveNet, která jej převádí do skutečného „mluveného“ slova. Engine zatím funguje pouze v angličtině, a to zatím pouze s ženským hlasem. Podle textové předlohy umí Tacotron 2 přidat nuanci i akcent (pokud je slovo převedeno do kapitálek). Dokonce se zvládne vyvarovat i některých „překliků“ v písmenech, takže nakonec přečte slova správně.
Ukázky Tacotronu 2 v angličtině:
„He Reads books.“ - wav
„Thisss isrealy awhsome“ - wav (eliminace chyb)
„This is your personal assistant, Google Home.“ - wav (dělení vět čárkami)
„The buses aren't the PROBLEM, they actually provide a SOLUTION.“ - wav (důraz)
„The buses aren't the problem, they actually provide a solution.“ - wav (důraz chybí)
„Peter Piper picked a peck of pickled peppers. How many pickled peppers did Peter Piper pick?“ - wav (jazykolam)
„That girl did a video about Star Wars lipstick.“ - wav (věta čtená člověkem)
„That girl did a video about Star Wars lipstick.“ - wav (věta čtená syntézou)
Představení funkce Google Assistant:
Nová verze hlasové syntézy bude zřejmě v následujících letech nasazena u hlasového asistenta Google Assistant. Prvním krokem však bude rozšíření syntézy o další světové jazyky. Samotná angličtina totiž nestačí.
Zdroj Google github via Phonearena