Кога изкуственият интелект ще започне да озвучава поредицата - Алтернативен изглед

Съдържание:

Кога изкуственият интелект ще започне да озвучава поредицата - Алтернативен изглед
Кога изкуственият интелект ще започне да озвучава поредицата - Алтернативен изглед

Видео: Кога изкуственият интелект ще започне да озвучава поредицата - Алтернативен изглед

Видео: Кога изкуственият интелект ще започне да озвучава поредицата - Алтернативен изглед
Видео: Какво знае естественият интелект за изкуствения 2024, Април
Anonim

Руските издателства вече експериментират с машинно записване на аудиокниги, в бъдеще изкуственият интелект може да бъде поверен да превежда сериали и да ги дублира с гласовете на любимите си актьори. За характеристиките на такива технологии и колко време ще отнеме създаването им.

Устната реч става писмена

В YouTube се създават автоматични субтитри за видеоклипове чрез разпознаване на глас и софтуер за превод от реч в текст. Тя се основава на самоучещи се невронни мрежи. Тази опция е на повече от десет години, но резултатът все още е далеч от идеалния. По-често, отколкото не, можете да хванете само общото значение на казаното. Каква е трудността?

Да речем, обяснява Андрей Филченков, ръководител на лабораторията за машинно обучение в университета ITMO, че изграждаме алгоритъм за разпознаване на речта. Това изисква обучение на невронна мрежа върху голям масив от данни.

Това ще отнеме стотици хиляди часове записи на реч и тяхното правилно сравнение с текстове, включително маркиране на началото и края на фразите, смяна на събеседниците и т.н. Това се нарича заграждение. Колкото е по-голям, толкова по-добре е обучението на невронната мрежа. Наистина са създадени големи корпуси за английския език, така че разпознаването е много по-добро. Но за руски или, да речем, испански, има много по-малко данни, а за много други езици няма никакви данни.

„И резултатът е подходящ“, заключава ученият.

„Освен това ние оценяваме значението на една дума, фраза във филм не само по звук, интонацията на актьора и неговите изражения на лицето също са важни. Как тълкувате това? - допълва Сергей Аксенов, доцент в катедра „Информационни технологии“на Томския политехнически университет.

Промоционално видео:

„Как да се справим с характеристиките на свободното говорене? Размита артикулация, скица, пресичания, паузи? В крайна сметка, в зависимост от това, значението се променя, както в "не можеш да бъдеш помилван". Как да научите машина да определя къде говорителят има запетая? А в поезията? " - изброява Марина Болсуновская, ръководител на лабораторията „Индустриални поточни системи за обработка на данни“на Центъра на NTI SPbPU.

Най-успешните проекти, според експерта, са в тесни райони. Например, система за разпознаване на професионалната реч на лекарите с помощта на медицински термини, разработена от групата на компаниите RTC, помага на лекарите да водят медицинска история.

„Тук можете ясно да очертаете темата и да подчертаете ключови думи в речта. Лекарят специално подчертава определени раздели с интонация: оплаквания на пациентите, диагноза “, пояснява Болсуновская.

Друг проблем е посочен от Михаил Бурцев, ръководител на лабораторията за нервни системи и задълбочено обучение в MIPT. Факт е, че засега машината е по-успешна в разпознаването на текст, когато един човек говори, отколкото няколко, както във филмите.

Превод с контекст

Нека вземем например англоезично видео, изрезка от телевизионния сериал „Игра на тронове“и включете автоматични руски субтитри. Това, което виждаме, вероятно ще ни накара да се смеем.

Все още от * Game of Thrones *
Все още от * Game of Thrones *

Все още от * Game of Thrones *.

В машинния превод обаче технологията постигна впечатляващ успех. Така че Google Translate превежда текстове на общи езици доста поносимо, често се изисква само минимално редактиране.

Факт е, че невронната мрежа-преводач също се обучава на голям масив от първоначални, правилно етикетирани данни - паралелен корпус, който показва как всяка фраза на оригиналния език трябва да изглежда на руски.

„Изграждането на такива сгради е много трудоемко, скъпо и отнема време, отнема месеци и години. За да тренираме невронна мрежа, се нуждаем от текстове с големина на Александрийската библиотека. Моделите са универсални, но много зависи от езика. Ако предоставите много данни, например в Авар, и преводът ще бъде висококачествен, но за Avar просто няма такова количество данни “, казва Андрей Филченков.

„Преводът е отделен продукт, който е свързан с оригинала, но не е равен с него“, казва Иля Мирин, директор на Училището по цифрова икономика към Далекоизточния федерален университет. - Типичен пример са преводите на Дмитрий Пучков (Гоблин) на чужди филми през 90-те години. Едва след работата му стана ясно какво се случва там. Не можахме да открием нищо адекватно от VHS версиите. Алтернативно, опитайте се да преведете на език, който добре знаете, нещо от The Master и Margarita. Например „в черно наметало с кървава подплата“. Машината не може да направи това."

Невронните мрежи се учат добре от много типични примери, но филмите са пълни със сложни значения и конотации, шеги, които не са достъпни за машината - не може да ги различи.

„Във всеки епизод на анимационния сериал Футурама има препратка към класическото американско кино - Казабланка, Роман Холидей и т.н. В такива моменти, за да улови и преопакова смисъла за тези, които не са гледали тези филми, преводачът трябва да излезе с близък аналог от руския контекст. Неправилен машинен превод може да бъде много обезкуражаващ за зрителя “, продължава Мирин.

Според него качеството на машинния превод е близо 80 процента, останалото е специфичност, която трябва да се добави ръчно, с участието на експерти. "И ако 20-30 процента от фразите изискват ръчна корекция, тогава каква е ползата от машинен превод?" - казва изследователят.

„Преводът е най-проблемният етап“, съгласен е Сергей Аксенов. - Всичко зависи от семантиката и контекста. Наличните инструменти могат да се използват за превод и машинно гласово действие, например детски анимационни филми с проста лексика. Но с тълкуването на фразеологичните единици, собствените имена, думите, които насочват зрителите към някои културни реалности, възникват трудности."

Във филми и видеоклипове контекстът винаги е визуален и често е придружен от музика и шум. Спекулираме от снимката за какво говори героят. Речта, превърната в текст, е лишена от тази информация, така че преводът е труден. Това е положението за преводачите, които работят с текстови субтитри, без да гледат филма. Те често грешат. Машинен превод е същата история.

AI гласува реч

За да дублирате серия, преведена на руски език, ви е необходим алгоритъм за генериране на естествена реч от текст - синтезатор. Те са създадени от много ИТ компании, включително Microsoft, Amazon, Yandex и се справят доста добре.

Според Андрей Филченков преди няколко години минута дублиране на синтезатор на реч отне няколко часа, сега скоростта на обработка значително се увеличи. Задачата за синтез на реч за някои области, където се изискват неутрални диалози, е решена доста добре.

Мнозина вече приемат за даденост разговор с робот по телефона, изпълнение на команди от автомобилен навигатор, диалог с Алиса в кола на Yandex. Drive. Но за дублиране на телевизионни сериали тези технологии все още не са адекватни.

„Проблемът е в емоцията и актьорството. Научихме се да правим машинния глас човешки, но така, че той все още да звучи подходящо за контекста и да вдъхва доверие, е далеч. Лошата актьорска игра може лесно да убие възприемането на филм “, каза Филченков.

Според Михаил Бурцев синтезът на речта е съвсем реален. Това обаче е изчислително интензивно и не може да се направи в реално време за разумна цена.

„Има алгоритми, които синтезират реч, подобна на тази на конкретен участник. Това е тембърът и начинът на говорене и много повече. Така че всеки чужд актьор всъщност ще говори руски “, прогнозира Бурцев. Той очаква забележим напредък през следващите години.

Сергей Аксенов дава пет до десет години за разработване на инструменти за превод и презапис на сложни произведения от най-разпространените езици като английския. Ученият цитира примера на Skype, който преди няколко години демонстрира възможността за организиране на онлайн уроци за ученици, които говорят различни езици. Но дори и тогава системата няма да е идеална, тя непрекъснато ще трябва да се учи: да придобие речник, да вземе предвид културния контекст.