Každý operačný systém a často aj výrobca telefónov má dnes už svojho hlasového asistenta. A každý taktiež špecifický znie. Najznámejším je určite Siri spoločnosti Apple na telefónoch iPhone a na Android telefónoch určite Google Asistent. Všetci asistenti ale stále znejú trochu strojovo a neprirodzene. To by mala zmeniť nová hlasová technológia Tacotron 2 od spoločnosti Google.
Nová generácia hlasovej technológie je tvorená dvoma neurónovými sieťami. Prvá sieť konvertuje text do špeciálneho spektogramu a druhá tento spektogram prečíta a prednesie ho s hlasom nerozoznateľným od ľudského. Momentálne technológia funguje len v angličtine a so ženským hlasom. Na nasledujúcich vetách sa môžete presvedčiť o vyspelosti technológie. Prvý hlas je ľudský a druhý umelý patriaci technológii Tacotron 2:
“That girl did a video about Star Wars lipstick.”
“This is your personal assistant, Google Home.”
“The buses aren’t the problem, they actually provide a solution.”
“I’m too busy for romance.”
zdroj: PhoneArena
ano, ukazkove precitane vety monotonnym hlasom su nerozoznatelne. Na druhu stranu, mal som pocit, ze pocujem pocitac, ked som pocul vetu od ‘cloveka’. Lebo to je proste zarecitovana veta. IRL takto ludia nikdy nerozpravaju. Ludia davaju rozne intonacie a prizvuky na rozne casti viet a slov podla toho aku myslienku chcu vyjadrit, podla toho ako isti alebo neisti su si svojim tvrdenim a podobne. Vo vysloveni nejakej vety (mimo obycajneho precitania textu bez akehokolvek kontextu tym najmonotonnejsim moznym hlasom) je zakodovanych omnoho viacej informacii, nez obsah vety samotnej a to sa este zrejme tak skoro nedockame, kym toto AI bude vediet spravit. Nechajme sa prekvapit.
Este jedna vec, ten clanok v tej podobe ako teraz mate napisany vzbudzuje dojem, ze vsetky ukazky v clanku su tak, ze prva ukazka je clovek a druha je Tacotron 2. Actually, drviva vacsina ukazok v tomto clanku su Tacotron 2 a jedine uplne prva nahravka je clovek.