Състезателни атаки: защо е лесно да се измами невронната мрежа? - Алтернативен изглед

Съдържание:

Състезателни атаки: защо е лесно да се измами невронната мрежа? - Алтернативен изглед
Състезателни атаки: защо е лесно да се измами невронната мрежа? - Алтернативен изглед

Видео: Състезателни атаки: защо е лесно да се измами невронната мрежа? - Алтернативен изглед

Видео: Състезателни атаки: защо е лесно да се измами невронната мрежа? - Алтернативен изглед
Видео: From an Atheist to Holiness. AllatRa TV 2024, Може
Anonim

През последните години, тъй като системите за задълбочено обучение стават все по-разпространени, учените демонстрират как противоречивите модели могат да засегнат всичко - от обикновен класификатор на изображения до диагностични системи за рак - и дори да създадат опасна за живота ситуация. Въпреки цялата си опасност обаче, състезателните примери са слабо разбрани. И учените се притесниха: може ли да се реши този проблем?

Какво е състезателна атака? Това е начин да измамите невронната мрежа да генерира неправилен резултат. Те се използват главно в научните изследвания за тестване на стабилността на моделите спрямо нестандартни данни. Но в реалния живот, като пример, можете да промените няколко пиксела в образа на панда, така че невронната мрежа да бъде сигурна, че в изображението има гъбон. Въпреки че учените добавят само "шум" към изображението.

Състезателна атака: как да излъжете невронна мрежа?

Нова работа на Масачузетския технологичен институт сочи един възможен начин за преодоляване на този проблем. Решавайки го, бихме могли да създадем много по-надеждни модели на задълбочено обучение, които биха били много по-трудни за манипулиране по злонамерени начини. Но нека първо да разгледаме основите на състезателните модели.

Както знаете, силата на дълбокото обучение идва от превъзходната му способност да разпознава модели (модели, модели, диаграми, модели) в данните. Хранете невронната мрежа десетки хиляди маркирани снимки на животни и тя научава кои модели са свързани с панда и кои са свързани с маймуна. След това тя може да използва тези модели, за да разпознае нови изображения на животни, които никога досега не е виждала.

Но моделите за дълбоко обучение също са много крехки. Тъй като системата за разпознаване на изображения разчита само на пикселни модели, а не на по-концептуално разбиране на това, което вижда, е лесно да го подмамете да видите нещо съвсем различно - само чрез разбиване на моделите по определен начин. Класически пример: Добавете малко шум към изображение на панда и системата го класифицира като гъбон с почти 100-процентова сигурност. Този шум ще бъде съперническата атака.

Image
Image

Промоционално видео:

От няколко години учените наблюдават това явление, особено в системите за компютърно зрение, без всъщност да знаят как да се отърват от такива уязвимости. Всъщност работата, представена миналата седмица на голяма конференция за изследвания на изкуствения интелект - ICLR - поставя под въпрос неизбежността на аварийните атаки. Може да изглежда, че колкото и панда изображения да подадете на класификатора на изображения, винаги ще има някакво възмущение, с което разбивате системата.

Но нова работа от MIT демонстрира, че мислихме погрешно за състезателни атаки. Вместо да измисляме начини да съберем повече от качествени данни, които захранват системата, трябва фундаментално да преосмислим нашия подход за обучението му.

Работата демонстрира това чрез разкриване на доста интересно свойство от състезателни примери, което ни помага да разберем защо те са ефективни. Какъв е трикът: на пръв поглед случаен шум или стикери, които объркват невронната мрежа, всъщност използват много точни, фини модели, които визуализиращата система се е научила да се свързва силно с конкретни обекти. С други думи, машината не се срива, когато виждаме гибон, където виждаме панда. Всъщност тя вижда редовно подреждане на пиксели, невидими за хората, които се появяват много по-често на снимки с гибони, отколкото на снимки с панди по време на тренировка.

Учените демонстрираха това чрез експеримент: те създадоха набор от данни от кучета, които всички бяха променени по такъв начин, че стандартният класификатор на изображения погрешно ги определи като котки. След това маркираха тези изображения с „котки“и ги използваха за обучението на нова невронна мрежа от нулата. След тренировка те показаха на нервната мрежа реални изображения на котки и тя правилно ги определи всички като котки.

Изследователите предположиха, че във всеки набор от данни има два типа корелации: модели, които всъщност корелират със значението на данните, като мустаци в изображения на котки или оцветяване на козината в изображения на панда, и модели, които съществуват в данните за тренировки, но не се разпространяват. в други контексти. Тези последни „заблуждаващи“корелации, нека ги наречем така, се използват при състезателни атаки. Система за разпознаване, обучена да разпознава „подвеждащи“модели, ги намира и смята, че вижда маймуна.

Това ни казва, че ако искаме да премахнем риска от състезателен пристъп, трябва да променим начина, по който тренираме нашите модели. В момента позволяваме на невронната мрежа да избере корелациите, които иска да използва за идентифициране на обекти в изображението. В резултат на това ние нямаме контрол върху установените от тях корелации, независимо дали те са реални или подвеждащи. Ако вместо това обучихме нашите модели да запомнят само реални модели - които са обвързани със смислени пиксели - на теория би било възможно да се създадат системи за дълбоко обучение, които не могат да бъдат объркани.

Когато учените тествали тази идея, използвайки само реални корелации за обучението на своя модел, те реално намалиха нейната уязвимост: тя се манипулираше само 50% от времето, докато модел, обучен на реални и фалшиви корелации, се манипулираше 95% от времето.

Накратко, можете да се защитите от противникови атаки. Но имаме нужда от повече изследвания, за да ги премахнем напълно.

Иля Кел

Препоръчано: