Невронната мрежа чуваше гласовете на хората и рисуваше техните портрети - Алтернативен изглед

Съдържание:

Невронната мрежа чуваше гласовете на хората и рисуваше техните портрети - Алтернативен изглед
Невронната мрежа чуваше гласовете на хората и рисуваше техните портрети - Алтернативен изглед

Видео: Невронната мрежа чуваше гласовете на хората и рисуваше техните портрети - Алтернативен изглед

Видео: Невронната мрежа чуваше гласовете на хората и рисуваше техните портрети - Алтернативен изглед
Видео: Чуваши: откуда произошел этот народ 2024, Може
Anonim

Напоследък невронните мрежи изненадват с уменията си - може ли да повярвате преди десет години, че компютър може да "анимира" портрети на Достоевски и Мерилин Монро? Пригответе се да бъдете изумени допълнително, защото изследователите в MIT създадоха невронна мрежа Speech2Face, която може да рисува портрети на хора само като слушате гласовете им. Технологията далеч не е идеална, но способността й да определя пола, националността и възрастта на човек е впечатляваща.

За обучението на невронната мрежа, AVSpeech комплектът беше използван с милион кратки видеоклипове с хиляди говорещи хора. Записите с видео и звук са разделени, така че системата успя да проучи всеки вид материал възможно най-подробно. На първия етап от работата алгоритъмът VGG-Face изучава видео фрагменти и създава портрети на хората върху тях с пълно лице и неутрални изражения на лицето. Друга част от алгоритъма изследва спектрограмата на гласа и прилага допълнителни промени в получените портрети - в резултат на това се получава приблизителен портрет на всеки говорил човек.

Невронната мрежа за създаване на гласови портрети вече е реалност

Ако сравните лицето на човек с видео и опцията, предложена от алгоритъма, можете да намерите много разлики. Изследователите обаче уверяват, че първоначално не са искали да създадат най-сходния портрет на човек - много фактори влияят на тона и интонацията на човешкия глас, така че те така или иначе не биха получили идеалния резултат. Но невронната мрежа върши отлична работа за това, което е важно за изследователите, а именно точното определяне на пол, националност и възраст.

Image
Image

Авторите на работата отбелязаха, че в момента алгоритъмът е слаб при определяне на възрастта, но те могат да подобрят точността. Установено е също, че алгоритъмът пресъздава по-добре европейски и азиатски лица, но това се дължи само на факта, че учебните видеоклипове имат неравномерен брой лица от различни националности.

Промоционално видео:

Защо се нуждаете от невронна мрежа?

Как тази технология може да бъде полезна в бъдеще? Като алтернатива с помощта на него някой ден може да се създаде услуга, при която виртуалният аватар на потребителя се създава автоматично, въз основа на неговия глас. Новото проучване има и големи научни ползи - изучавайки данните, учените могат да намерят връзката между външния вид на човека и неговия глас. Можете да слушате гласове и да гледате портрети, пресъздадени въз основа на тях, на уебсайта на проекта.

Рамис Ганиев