Невронната мрежа беше научена да "оживява" портрети, базирани само на едно статично изображение - Алтернативен изглед

Невронната мрежа беше научена да "оживява" портрети, базирани само на едно статично изображение - Алтернативен изглед
Невронната мрежа беше научена да "оживява" портрети, базирани само на едно статично изображение - Алтернативен изглед

Видео: Невронната мрежа беше научена да "оживява" портрети, базирани само на едно статично изображение - Алтернативен изглед

Видео: Невронната мрежа беше научена да
Видео: Why I draw with robots | Sougwen Chung 2024, Може
Anonim

Руски специалисти от Центъра за изкуствен интелект на Samsung AI - Москва, в сътрудничество с инженери от Института за наука и технологии „Сколково“, са разработили система, способна да създава реалистични анимирани изображения на човешки лица, базирани само на няколко статични човешки рамки. Обикновено в този случай се изисква използването на големи бази данни с изображения, но в примера, представен от разработчиците, системата е обучена да създава анимирано изображение на човешко лице от само осем статични кадъра, а в някои случаи един е достатъчен. За повече подробности относно развитието вижте статия, публикувана в онлайн хранилището на ArXiv.org.

Image
Image

Като правило е доста трудно да се възпроизведе фотореалистичен персонализиран модул на човешко лице поради високата фотометрична, геометрична и кинематична сложност на възпроизвеждането на човешката глава. Това се обяснява не само със сложността на моделирането на лицето като цяло (има голям брой подходи за моделиране за това), но и със сложността на моделирането на определени характеристики: устната кухина, косата и т.н. Вторият усложняващ фактор е тенденцията ни да улавяме дори незначителни недостатъци в готовия модел на човешките глави. Тази ниска толерантност към грешките при моделиране обяснява настоящото разпространение на не-фотореалистичните аватари, използвани в телеконференциите.

Според авторите системата, наречена Fewshot learning, е способна да създава силно реалистични модели на говорещи глави на хора и дори портретни картини. Алгоритмите синтезират образа на главата на същия човек с линиите на референтното лице, взети от друг фрагмент от видеото, или с помощта на референтните точки на лицето на друг човек. Като източник на материал за обучение на системата, разработчиците са използвали обширна база данни с видео изображения на знаменитости. За да получи възможно най-точната говореща глава, системата трябва да използва повече от 32 изображения.

За да създадат по-реалистични анимирани изображения на лица, разработчиците са използвали предишни разработки в генеративното състезателно моделиране (GAN, където невронната мрежа измисля детайлите на изображението, всъщност става художник), както и машинен мета-метод на обучение, при който всеки елемент от системата е обучен и предназначен да реши някои конкретна задача.

Мета-схема на обучение
Мета-схема на обучение

Мета-схема на обучение.

Image
Image
Image
Image

Промоционално видео:

Три невронни мрежи бяха използвани за обработка на статични изображения на главите на хората и превръщането им в анимирани: Embedder (мрежа за внедряване), Generator (мрежа за генериране) и Discriminator (дискриминатор). Първите дялове изображенията на главата (с приблизителни ориентири на лицето) във вграждащи вектори, които съдържат информация, независима от пози, втората мрежа използва ориентирите за лице, получени от вграждащата се мрежа и генерира нови данни, базирани на тях чрез набор от конволюционни слоеве, които осигуряват устойчивост на промени в мащаба, измествания и др. завои, промяна на ъгъла и други изкривявания на оригиналното изображение на лицето. За оценка на качеството и автентичността на другите две мрежи се използва мрежов дискриминатор. В резултат системата преобразува ориентирите на лицето на човек в персонализирани снимки с реалистичен вид.

Image
Image
Image
Image

Разработчиците подчертават, че тяхната система е в състояние да инициализира параметрите както на генераторната мрежа, така и на дискриминаторната мрежа поотделно за всеки човек от снимката, така че учебният процес може да се основава само на няколко изображения, което увеличава скоростта му, въпреки необходимостта да се изберат десетки милиони параметри.

Николай Хижняк

Препоръчано: