Невронната мрежа беше научена да копира човешкия глас почти перфектно - Алтернативен изглед

Съдържание:

Невронната мрежа беше научена да копира човешкия глас почти перфектно - Алтернативен изглед
Невронната мрежа беше научена да копира човешкия глас почти перфектно - Алтернативен изглед

Видео: Невронната мрежа беше научена да копира човешкия глас почти перфектно - Алтернативен изглед

Видео: Невронната мрежа беше научена да копира човешкия глас почти перфектно - Алтернативен изглед
Видео: Privacy, Security, Society - Computer Science for Business Leaders 2016 2024, Април
Anonim

Миналата година компанията за изкуствен интелект DeepMind сподели подробности за новия си проект WaveNet, неврологична мрежа за дълбоко обучение, използвана за синтезиране на реалистична човешка реч. Наскоро беше пусната подобрена версия на тази технология, която ще се използва като основа на цифровия мобилен асистент Google Assistant.

Система за синтез на глас (известна още като функция на текст в реч, TTS) обикновено се изгражда около един от двата основни метода. Конкакативният (или компилационен) метод включва изграждането на фрази чрез събиране на отделни парчета от записани думи и части, записани по-рано с участието на гласов актьор. Основният недостатък на този метод е необходимостта непрекъснато да се заменя звуковата библиотека при всякакви актуализации или промени.

Друг метод се нарича параметричен TTS и неговата характеристика е използването на параметри набори, с които компютърът генерира желаната фраза. Недостатъкът на метода е, че най-често резултатът се проявява под формата на нереалистичен или така наречения роботизиран звук.

WaveNet, от друга страна, произвежда звукови вълни от нулата, използвайки конволюционна система от невронни мрежи, където звукът се генерира в няколко слоя. Първо, за да се обучи платформата за синтезиране на "жива" реч, се "захранва" огромно количество проби, като същевременно се отбелязва кои звукови сигнали звучат реалистично и кои не. Това дава на синтезатора на глас способността да възпроизвежда натуралистична интонация и дори детайли като удрящи устни. В зависимост от това кои образци на реч се изпълняват през системата, това й позволява да развие уникален „акцент“, който в дългосрочен план може да се използва за създаване на много различни гласове.

Рязко на езика

Може би най-голямото ограничение на системата WaveNet беше, че тя изискваше огромно количество изчислителна мощност, за да работи, и дори когато това условие беше изпълнено, тя не се различаваше по скорост. Например, отне около 1 секунда време, за да генерира 0,02 секунди звук.

След година работа, инженерите на DeepMind все пак намериха начин да подобрят и оптимизират системата, така че сега тя да е в състояние да издава суров звук от една секунда само за 50 милисекунди, което е 1000 пъти по-бързо от първоначалните му възможности. Нещо повече, специалистите успяха да увеличат честотата на аудио дискретизация от 8-битово до 16-битово, което се отрази положително върху тестовете, включващи слушатели. Тези успехи проправиха пътя на WaveNet да се интегрира в потребителски продукти като Google Assistant.

Промоционално видео:

В момента WaveNet може да се използва за генериране на английски и японски гласове чрез Google Assistant и всички платформи, които използват този цифров асистент. Тъй като системата може да създаде специален тип гласове, в зависимост от това какъв набор от образци му е предоставен за обучение, в близко бъдеще Google най-вероятно ще въведе поддръжка за синтезиране на реалистична реч в WaveNet на други езици, включително като ги отчита. местни диалекти.

Речевите интерфейси стават все по-често срещани в голямо разнообразие от платформи, но изразеният им неестествен характер на звука изключва много потенциални потребители. Усилията на DeepMind за подобряване на тази технология със сигурност ще допринесат за по-широкото приемане на такива гласови системи, както и за подобряване на потребителското изживяване от тяхната употреба.

Примери за синтезиран говор на английски и японски език чрез невронната мрежа WaveNet можете да намерите, като следвате тази връзка.

Николай Хижняк