Изкуственият интелект се е научил правилно да разпознава речта сред шума - Алтернативен изглед

Изкуственият интелект се е научил правилно да разпознава речта сред шума - Алтернативен изглед
Изкуственият интелект се е научил правилно да разпознава речта сред шума - Алтернативен изглед

Видео: Изкуственият интелект се е научил правилно да разпознава речта сред шума - Алтернативен изглед

Видео: Изкуственият интелект се е научил правилно да разпознава речта сред шума - Алтернативен изглед
Видео: ТУТУРУТКА - Асен и Айшето (Asen i Aisheto) Official 2024, Може
Anonim

Виртуалните асистенти и системите за гласово разпознаване са се научили да „разпознават“това, което човек им казва и да следват командите му. Но за правилната работа на същите Siri и Cortana, външният шум може да бъде голям проблем. Експертите от Mitsubishi Electric могат да помогнат за справяне с този технически недостатък, който представи нова технология за отделяне на речта на един човек от общия шум.

Технологията на японската компания се нарича Deep Clustering, чието функциониране е изградено на принципите на машинното обучение. За начало изкуственият интелект се научи да отделя речта на един човек от общия поток от различни звуци и шумове. Невронната мрежа разделя входящите аудио данни на различни елементи и анализира всеки поотделно, след което вече може да обработва човешкия глас. Подобна работа се наблюдава, когато двама или повече събеседници са „свързани“.

По време на демонстрация на технологията от японска компания, системата успя успешно да отдели речта на двама души, които говорят едно и също изречение на различни езици, в един микрофон. Цялата обработка е извършена в реално време, а забавянето не надвишава три секунди. Точността на разпознаване беше 90 процента и когато трима души започнаха да говорят в микрофона, процентът на „попаденията“спадна до 80, което също е добър резултат. Според авторите на проекта Антъни Ветро и Йохей Окато,

„За разлика от отделянето на речта от фоновите шумове, отделянето на речта на един човек от„ гласовия “шум на хората, които говорят едновременно, е много трудна задача, тъй като звуците на гласа на различни хора имат много особености. В повечето системи проблемът с разделянето на гласа се решава чрез инсталиране на два или повече микрофона, но в случай на използване само на един микрофон, само изкуственият интелект може да се справи със задачата за разделяне на гласа. Тази технология може да се използва винаги, когато се изисква висока точност на разпознаване на гласови съобщения. Например в системите за гласов контрол на автомобили, асансьори, домакински и други електронни устройства."

ВЛАДИМИР КУЗНЕЦОВ