Alžbeta Harry Gavendová

DeepMind tvorí jeden z najreálnejších generátorov reči

Speech. Conceptual computer artwork representing speech. An electrical wave (orange) corresponds to the sound waves (voices) produced by the wire- frame human heads (blue).

Spoločnosti DeepMind, ktorú kúpil Google pred 2 rokmi, sa podarilo dosiahnuť úspech v rámci generovania hlasu. Ich počítačový hlas umelej inteligencie znie až o 50% realistickejšie ako čokoľvek, čo je doteraz známe. Systém sa nazýva WaveNet a napodobňuje ľudskú reč tak, že porozumieva, ako sformovať jednotlivé zvukové vlny. Hlas vytvára na základe napodobňovania odobratých vzoriek hlasu reálnej ľudskej reči a rovno ich modeluje do zvukových kriviek. Podľa googláckych testov znela angličtina i mandarínska čínština ľuďom omnoho skutočnejšie, ako iné typy programov prevádzajúcich text na reč. Stále sa to síce nedalo porovnať s ozajstným ľudským hlasom, no pokrok je nesmierny.

A prečo je okolo toho taký rozruch? Prevod textu na reč a umelo tvorený hlas totiž budú tvoriť čoraz dôležitejšiu časť výpočtovej techniky. Už dnes sa pritom často sa spoliehame na asistentov v podobe Google Assistant, Microsoft Cortana, Apple Siri či Amazon Alexa. Ak nepatríte k používateľom týchto asistentov a máte pochybnosti o ich praktickom využívaní tak vedzte, že napríklad medzinárodný riaditeľ Google Play Mark Bennett povedal na Android developerskej konferencii minulý týždeň správu, že už 20% hľadaní cez mobil využívajúcich Google sú vykonané cez hlasové povely. Nie cez text.

WaveNet má zatiaľ nevýhodu v tom, že systém vyžaduje príliš veľa výpočtovej sily. Pre tvorbu zvukových kriviek potrebuje neustále prepočítavanie a predikciu.

Zdroj: bloomberg.com

DeepMindGoogle

Disqus Comments Loading...