Изкуствен интелект и Джефри Хинтън: Бащата на дълбокото обучение - Алтернативен изглед

Съдържание:

Изкуствен интелект и Джефри Хинтън: Бащата на дълбокото обучение - Алтернативен изглед
Изкуствен интелект и Джефри Хинтън: Бащата на дълбокото обучение - Алтернативен изглед

Видео: Изкуствен интелект и Джефри Хинтън: Бащата на дълбокото обучение - Алтернативен изглед

Видео: Изкуствен интелект и Джефри Хинтън: Бащата на дълбокото обучение - Алтернативен изглед
Видео: Един от кръстниците на изкуствения интелект - Джефри Хинтън 2024, Може
Anonim

Изкуствен интелект. Колко много се говори за него, но още не сме започнали наистина да говорим. Почти всичко, което чувате за напредъка на изкуствения интелект, се основава на пробив, който е на тридесет години. Поддържането на инерцията на прогреса ще изисква заобикаляне на сериозни ограничения и големи ограничения. На следващо място, в първото лице - Джеймс Сомърс.

Стоя там, където скоро ще бъде центърът на света, или просто в голяма стая на седмия етаж на лъскава кула в центъра на Торонто - от коя страна гледате. Придружава ме Джордан Джейкъбс, съосновател на това място: The Vector Institute, който отваря врати тази есен и обещава да бъде глобалният епицентър на изкуствения интелект.

Ние сме в Торонто, защото Джефри Хинтън е в Торонто. И Джефри Хинтън е баща на "задълбоченото обучение", техниката зад AI hype. „След 30 години ще погледнем назад и ще кажем, че Джеф е Айнщайн за AI, задълбочено обучение, каквото и да наричаме изкуствен интелект“, казва Джейкъбс. От всички изследователи на AI, Хинтън е цитиран по-често от тримата, които го следват заедно. Неговите студенти и студенти отиват да работят в лабораторията на AI в Apple, Facebook и OpenAI; Самият Хинтън е водещият учен в екипа на Google Brain AI. Почти всеки напредък в AI през последното десетилетие - в превода, разпознаването на реч, разпознаването на изображения и игрите - има нещо общо с работата на Хинтън.

Институтът Vector, паметник на възхода на идеите на Хинтън, е изследователски център, в който компании от целия САЩ и Канада - като Google, Uber и NVIDIA - спонсорират усилия за комерсиализиране на AI технологиите. Парите се наливат по-бързо, отколкото Джейкъбс може да го поиска; двама негови съоснователи изследваха компании в района на Торонто, а търсенето на експерти от ИИ беше 10 пъти по-голямо от доставките в Канада всяка година. Институтът Vector е в известен смисъл неизползвана девствена земя, за да се опита да мобилизира света около задълбоченото обучение: да инвестира, да преподава, да усъвършенства и прилага тази техника. Изграждат се центрове за данни, небостъргачите се пълнят със стартиращи компании и поколения студенти се наливат в региона.

Когато застанете на пода на Вектора, получавате усещането, че сте в началото на нещо. Но дълбокото учене е в основата си много старо. Пробивната статия на Хинтън, написана с Дейвид Румелхарт и Роналд Уилямс, е публикувана през 1986 година. Работата описана подробно метода за обратно разпространение на грешката (backpropagation), накратко. Backprop, според Джон Коен, е "всичко, което дълбокото обучение се основава - всичко".

В основата си AI днес е задълбочено обучение, а дълбокото обучение е гръб. Което е изумително, като се има предвид, че гръбът е над 30 години. Просто е необходимо да се разбере как се случи това: как технологията може да чака толкова дълго и след това да предизвика експлозия? Защото след като знаете историята на backprop, ще разберете какво се случва с AI сега, а също и че ние може да не сме в началото на революцията. Може би сме в края на един.

Разходката от Vector Institute до офиса на Google на Hinton, където той прекарва по-голямата част от времето си (сега е професор emeritus в Университета в Торонто), е нещо като жива реклама за града, поне през лятото. Става ясно защо Хинтън, който е с произход от Обединеното кралство, се е преместил тук през 80-те години на миналия век, след като работи в университета Карнеги Мелън в Питсбърг.

Промоционално видео:

Може би не сме в самото начало на революцията

Торонто е четвъртият по големина град в Северна Америка (след Мексико Сити, Ню Йорк и Лос Анджелис) и със сигурност е по-разнообразен: повече от половината от населението е родено извън Канада. И можете да го видите, когато се разхождате из града. Тълпата е многонационална. Има безплатно здравеопазване и добри училища, хората са приятелски настроени, политиците са сравнително леви и стабилни; всичко това привлича хора като Хинтън, който казва, че е напуснал САЩ заради Ирангейт (Иран-Контра е голям политически скандал в Съединените щати през втората половина на 80-те години; тогава стана известно, че някои членове на администрацията на САЩ организират тайна доставка на оръжие за Иран, като по този начин нарушава оръжейното ембарго срещу тази страна). Оттук започва разговорът ни преди обяд.

„Мнозина смятат, че САЩ може да нахлуят в Никарагуа“, казва той. "По някаква причина те вярваха, че Никарагуа принадлежи на САЩ." Той казва, че наскоро направи голям пробив в проекта: „Много добър млад инженер започна да работи с мен“, жена на име Сара Сабор. Сабур е иранчанин и му е отказана виза да работи в САЩ. Офисът на Google в Торонто го извади.

Хинтън е на 69 години. Той има остро, тънко английско лице с тънка уста, големи уши и горд нос. Той е роден във Уимбълдън и в разговор напомня на разказвача на детска книга за науката: любопитен, примамлив, опитва се да обясни всичко. Той е забавен и играе малко на публиката. Боли го да седи поради проблеми с гърба, така че не може да лети, а в кабинета на зъболекаря лежи на устройство, което наподобява сърф.

Image
Image

През 80-те години Хинтън беше, както и сега, експерт по невронни мрежи, значително опростен модел на мрежата от неврони и синапси в мозъка ни. По онова време обаче беше категорично съгласие, че невронните мрежи са задънена улица в изследванията на ИИ. Въпреки че първата невронна мрежа, Perceptron, е разработена през 60-те години на миналия век и се счита за първата стъпка към машинното разузнаване на човешко ниво, през 1969 г. Марвин Мински и Сиймор Папер математически доказват, че такива мрежи могат да изпълняват само най-простите функции. Тези мрежи имаха само два слоя неврони: входен слой и изходен слой. Мрежите с голям брой слоеве между входни и изходни неврони на теория биха могли да разрешат голямо разнообразие от проблеми, но никой не знаеше как да ги обучава, така че на практика те бяха безполезни. Поради Perceptrons почти всички са се отказали от идеята за невронните мрежи с няколко изключения.включително Хинтън.

Пробивът на Хинтън през 1986 г. трябваше да покаже, че обратното размножаване може да обучава дълбока невронна мрежа с повече от два или три слоя. Но минаха още 26 години, преди да се увеличи компютърната мощност. В документ от 2012 г. Хинтън и двама студенти от Торонто показаха, че дълбоките невронни мрежи, обучени с бекграуп, превъзхождат най-добрите системи за разпознаване на изображения. Дълбокото обучение започна да придобива сцепление. Светът реши за една нощ, че AI ще поеме сутринта. За Хинтън това беше добре дошла победа.

Поле за изкривяване на реалността

Невронната мрежа обикновено се изобразява като сандвич, слоеве от които се наслагват един върху друг. Тези слоеве съдържат изкуствени неврони, които по същество са малки изчислителни единици, които стрелят - като истински невронови огньове - и предават това вълнение на други неврони, към които са свързани. Възбуждането на неврон е представено с число, да кажем 0,13 или 32,39, което определя степента на възбуждане на неврона. И има още едно важно число във всяка от връзките между двата неврона, което определя колко възбуждане трябва да се прехвърли от един към друг. Това число моделира силата на синапсите между невроните в мозъка. Колкото по-голямо е числото, толкова по-силна е връзката, което означава повече вълнение преминава от една в друга.

Едно от най-успешните приложения на дълбоки невронни мрежи е в разпознаването на изображения. Днес има програми, които могат да разпознаят дали има хот-дог на снимката. Преди десет години те бяха невъзможни. За да ги накарате да работят, първо трябва да направите снимка. За простота, нека кажем, че това е черно-бяло изображение с размери 100 x 100 пиксела. Вие го захранвате към невронната мрежа, като задавате изстрелването на всеки симулиран неврон във входния слой, така че да бъде равен на яркостта на всеки пиксел. Това е долният слой на сандвича: 10 000 неврона (100 х 100), представляващи яркостта на всеки пиксел в изображението.

След това свързвате този голям слой неврони с друг голям слой от неврони, вече по-висок, да речем, няколко хиляди, а те, от своя страна, с друг слой от няколко хиляди неврона, но по-малко и т.н. И накрая, горният слой на сандвича - изходният слой - ще се състои от два неврона - единият представлява хот-дог, а другият не хот-дог. Идеята е да се обучи невронната мрежа да изстреля само първия от тези неврони, ако има хот-дог на снимката, а вторият, ако не. Backprop, техниката за размножаване на гърба, върху която Хинтън е изградил кариерата си, прави точно това.

Image
Image

Backprop е изключително прост, въпреки че работи най-добре с огромни количества данни. Ето защо големите данни са толкова важни за AI - защо Facebook и Google са толкова страстни за това и защо Vector Institute реши да се свърже с четирите най-големи болници в Канада и да сподели данни.

В този случай данните са под формата на милиони изображения, някои с хот-доги, други без; трикът е да маркирате тези изображения като притежаващи хот-доги. Когато за първи път създавате невронна мрежа, връзките между невроните имат произволни тегла - случайни числа, които казват колко възбуждане се предава чрез всяка връзка. Сякаш синапсите на мозъка все още не са настроени. Целта на backprop е да промени тези тегла, така че мрежата да работи: така че когато подадете образа на хот дог до най-долния слой, неврона на хот дог в най-горния слой се задейства.

Да речем, че правите първата снимка с пиано на уроци. Преобразувате интензитета на пикселите от 100 х 100 изображение в 10 000 числа, по един за всеки неврон в долния слой на мрежата. Докато възбуждането се разпространява през мрежата в съответствие със силата на връзката на невроните в съседните слоеве, всичко постепенно стига до последния слой, един от двата неврона, които определят дали има хот-дог на снимката. Тъй като това е картина на пиано, невронът на хот дог трябва да показва нула, а невронът с невръсна куче трябва да показва по-голямо число. Да речем, че нещата не работят така. Да речем, че мрежата греши по отношение на изображението. Backprop е процедура за засилване на силата на всяка връзка в мрежата, която ви позволява да коригирате грешката в дадения пример за обучение.

Как работи? Започвате с последните два неврона и установявате колко грешат: каква е разликата между техния брой стрелба и това, което всъщност трябва да бъде. След това разглеждате всяка връзка, която води до тези неврони - слизане по слоевете - и определяте техния принос към грешката. Продължавате да правите това, докато стигнете до първия набор от връзки в самата дъна на мрежата. На този етап знаете как индивидуалната връзка допринася за цялостната грешка. Накрая, вие променяте всички тегла, за да намалите общия шанс за грешка. Тази т. Нар. „Техника на разпространение на грешки“е, че вие въвеждате грешки обратно през мрежата, започвайки отзад, навън.

Невероятното започва да се случва, когато го правите с милиони или милиарди изображения: мрежата започва да определя добре дали снимката е хот-дог или не. И още по-забележителното е, че отделните слоеве на тези мрежи за разпознаване на изображения започват да „виждат“изображенията по същия начин, както прави нашата собствена визуална система. Тоест първият слой открива контури - невроните се изстрелват, когато има контури, и не се изстрелват, когато не са; следващият слой определя набори от пътеки, като ъгли; следващият слой започва да различава форми; следващият слой намира всевъзможни елементи като "отворена кифла" или "затворена кифла", защото съответните неврони са активирани. Мрежата се организира в йерархични слоеве, без дори да бъде програмирана по този начин.

Истинската интелигентност не се бърка, когато проблемът се промени леко.

Ето това толкова изуми всички. Не толкова невронните мрежи са добри в класифицирането на образи на хот дог: те изграждат представяне на идеи. С текста това става още по-очевидно. Можете да подадете текста на Уикипедия, много милиарди думи, в обикновена невронна мрежа, като я научите да дарява всяка дума с числа, съответстващи на вълненията на всеки неврон в слоя. Ако мислите за всички тези числа като координати в сложно пространство, ще намерите точка, известна в този контекст като вектор, за всяка дума в това пространство. След това тренирате мрежата, така че думите, които се появяват един до друг в страниците на Уикипедия, ще бъдат надарени с подобни координати - и voila, ще се случи нещо странно: думи с подобни значения ще се появяват един до друг в това пространство. „Луд“и „разстроен“ще има; "Три" и "седем" също. Освен това,векторната аритметика ви позволява да извадите вектора "Франция" от "Париж", да го добавите към "Италия" и да намерите "Рим" наблизо. Никой не каза на невронната мрежа, че Рим е за Италия същото, както Париж е за Франция.

"Удивително е", казва Хинтън. "Шокиращо е." Невронните мрежи могат да се разглеждат като опит да се вземат неща - изображения, думи, записи на разговори, медицински данни - и да се поставят в, както казват математиците, многоизмерно векторно пространство, в което близостта или отдалечеността на нещата ще отразяват най-важните аспекти на реалния свят. Хинтън вярва, че това прави мозъкът. „Ако искате да знаете какво е дадена мисъл - казва той, - мога да ви я предам с поредица от думи. Мога да кажа: „Джон си помисли, Но ако попитате: какво се мисли? Какво означава за Джон да има тази мисъл? В края на краищата, в главата му няма встъпителни кавички, „упс“, затварящи кавички, като цяло няма такова нещо. В главата му върви някаква невронна дейност “. Големите снимки на невралната активност, ако сте математик, могат да бъдат заснети във векторното пространство,където активността на всеки неврон ще съответства на число и всяко число ще съответства на координатата на много голям вектор. За Хинтън мисълта е танц на векторите.

Сега е ясно защо векторният институт е наречен така?

Хинтън създава своеобразно поле за изкривяване на реалността, предава се чувство на увереност и ентусиазъм, вдъхвайки убеждението, че за векторите нищо не е невъзможно. В крайна сметка те вече са създали самоуправляващи се автомобили, компютри, откриващи рак, незабавни преводачи на говорими езици.

Едва когато излезете от стаята, си спомняте, че тези системи за дълбоко обучение все още са доста тъпи, въпреки демонстративната си сила на мисъл. Компютър, който вижда купчина понички на масата и автоматично я обозначава като „купчина понички на масата“, изглежда, разбира света; но когато същата програма вижда момиче, което си мие зъбите и казва, че е „момче с бейзболна бухалка“, разбирате колко неуловимо е, ако има такова, това разбиране.

Невронните мрежи са просто безмозъчни и неясни разпознавачи на модели и колко полезни могат да бъдат такива разпознавачи на модели - в края на краищата те се стремят да ги интегрират във всеки софтуер - те в най-добрия случай са ограничена порода интелигентност, която лесно се поддава на хитрост. Дълбоката невронна мрежа, която разпознава изображения, може да бъде напълно объркана, ако промените един пиксел или добавите визуален шум, невидим за хората. Почти толкова често, колкото откриваме нови начини да използваме задълбочено обучение, често се сблъскваме с неговите ограничения. Самоуправляващите се автомобили не могат да шофират в условия, каквито не сме виждали преди. Машините не могат да анализират изречения, които изискват здрав разум и разбиране за това как работи светът.

Image
Image

Дълбокото обучение имитира случващото се в човешкия мозък по някакъв начин, но повърхностно - което може би обяснява защо интелигентността му е толкова повърхностна на моменти. Backprop не е открит по време на потапяне на мозъка, опитвайки се да дешифрира самата мисъл; тя е израснала от модели на обучение на животни чрез опити и грешки в старомодни експерименти. И повечето важни стъпки, които са направени от създаването му, не включват нищо ново за невронауката; това бяха технически подобрения, заслужени от дългогодишна работа на математици и инженери. Това, което знаем за интелигентността, е нищо в сравнение с това, което все още не знаем за него.

Дейвид Дювен, асистент в същия отдел като Хинтън от Университета в Торонто, казва, че задълбоченото обучение е подобно на инженерството преди въвеждането на физиката. „Някой пише произведение и казва:„ Направих този мост и си заслужава! “Друг пише: „Направих този мост и той се срути, но добавих опори и той стои“. И всички полудяват за опорите. Някой добавя арка - и всички са такива: арките са готини! С физиката всъщност можете да разберете какво ще работи и защо. Едва наскоро започнахме да вървим към поне някакво разбиране за изкуствен интелект."

Самият Хинтън казва: „Повечето конференции говорят за извършване на малки промени, вместо да мислят трудно и да задават въпроси:„ Защо това, което правим сега, не работи? Каква е причината за това? Нека се съсредоточим върху това."

Трудно е да придобиеш външна перспектива, когато всичко, което виждаш, е напредък след напредък. Но най-новите постижения в AI са по-малко научни и по-инженерни. Макар да разбираме по-добре какви промени ще подобрят системите за дълбоко обучение, все още имаме неясна представа за това как работят тези системи и дали някога могат да се съберат в нещо толкова мощно, колкото човешкият ум.

Важно е да разберем дали успяхме да извлечем всичко възможно от задния план. Ако е така, тогава ще имаме плато в развитието на изкуствения интелект.

търпение

Ако искате да видите следващия пробив, нещо като рамка за машини с много по-гъвкава интелигентност, на теория трябва да се обърнете към изследвания, подобни на проучванията за бекпроп през 80-те: когато умните хора се отказаха, защото идеите им все още не функционираха. …

Преди няколко месеца посетих Центъра за ум, мозък и машини, многофункционална институция, разположена в MIT, за да гледам как приятелят ми Еял Дехтер защитава дисертацията си в когнитивната наука. Преди началото на представлението съпругата му Ейми, кучето му Руби и дъщеря му Сюзан го подкрепиха и му пожелаха късмет.

Еял започна речта си с увлекателен въпрос: как стана така, че Сюзан, която е само на две години, се научи да говори, да играе, да следва истории? Какво има в човешкия мозък, което му позволява да учи толкова добре? Дали компютърът някога ще се научи да учи толкова бързо и гладко?

Ние разбираме нови явления по отношение на неща, които вече разбираме. Разделяме домейна на парчета и го изследваме парче по парче. Ейал е математик и програмист, той мисли за задачи - като правене на суфле - като сложни компютърни програми. Но не научавате как да си направите суфле, като запаметите стотици минутни програмни инструкции като „завъртете лакътя на 30 градуса, след това погледнете на плота, после протегнете пръста си, после …“. Ако трябваше да правите това във всеки нов случай, обучението ще стане непоносимо и вие ще спрете да се развивате. Вместо това ние виждаме стъпки на високо ниво като „победи белите“в програмата, които самите са съставени от подпрограми като „разбиване на яйцата“и „отделяне на белите от жълтъците“.

Компютрите не правят това и затова изглеждат глупави. За да научите задълбочено да разпознавате хот-дог, трябва да го изхранвате 40 милиона изображения на хот дог. Това, което Сюзан разпозна хот дог, просто й покажи хот-дога. И много преди това тя ще има разбиране за езика, което отива много по-дълбоко от разпознаването на появата на отделни думи заедно. За разлика от компютър, главата й има представа как работи светът. „Изненадва ме, че хората се страхуват, че компютрите ще си свършат работата“, казва Ейал. „Компютрите няма да могат да заменят адвокатите, защото адвокатите правят нещо трудно. Но защото адвокатите слушат и говорят с хората. В този смисъл ние сме много далеч от всичко това."

Истинската интелигентност няма да бъде объркана, ако леко промените изискванията за решаване на проблема. И основната теза на Eyal беше да демонстрира точно това, по принцип, как да накарате компютъра да работи по този начин: ярко прилагайте всичко, което вече знае, за да реши нови проблеми, бързо да се хванете в движение, да станете експерт в напълно нова област.

По същество това нарича алгоритъмът за изследване-компресия. Тя дава на компютъра функцията на програмист, изграждайки библиотека от модулни компоненти за многократна употреба, така че да могат да се създават по-сложни програми. Не знаейки нищо за новия домейн, компютърът се опитва да структурира знанията за него, просто го изучава, консолидира какво е открил и допълнително го изучава, като дете.

Неговият съветник Джошуа Тененбаум е един от най-цитираните изследователи на ИИ. Името на Тененбаум се появи в половината от разговорите, които проведох с други учени. Някои от ключовите хора на DeepMind - екипът за разработка на AlphaGo, който легендарно победи световния шампион през 2016 г., са работили под него. Той участва в стартиране, което се опитва да даде на самоуправляващите се автомобили интуитивно разбиране на основите на физиката и намеренията на други шофьори, за да могат по-добре да предвидят какво се случва в ситуации, с които не са се сблъсквали преди.

Тезата на Еял все още не е приложена на практика, дори не е въведена в програмите. „Проблемите, над които работи Eyal, са много, много трудни“, казва Тененбаум. "Минават много поколения."

Когато седнахме на чаша кафе, Тененбаум каза, че изследва историята на задния план за вдъхновение. От десетилетия бекграпът е форма на готина математика, като повечето от тях не са способни на нищо. Тъй като компютрите станаха по-бързи, а технологията стана по-трудна, нещата се промениха. Той се надява, че нещо подобно ще се случи с неговата работа и работата на неговите студенти, но „може да отнеме още няколко десетилетия“.

За Хинтън той е убеден, че преодоляването на ограниченията на AI означава създаването на "мост между компютърните науки и биологията". Backprop от тази гледна точка беше триумф на биологично вдъхновени изчисления; идеята първоначално не идва от инженерството, а от психологията. Затова сега Хинтън се опитва да повтори този трик.

Днес невронните мрежи са изградени от големи плоски слоеве, но в човешкия неокортекс реалните неврони се подреждат не само хоризонтално, но и вертикално, в колони. Хинтън предполага, за какво са предназначени тези колони - например във визията те ви позволяват да разпознавате обекти, дори когато промените гледната си точка. Така той създава изкуствена версия - и ги нарича „капсули“- за да тества тази теория. Засега нищо не излиза: капсулите не подобриха значително работата на неговите мрежи. Но преди 30 години беше същото с backprop.

"Трябва да работи", казва той за теорията на капсулите, смеейки се на собствената си бравада. "И това, което все още не работи, е само временно дразнене."

Въз основа на материали от Medium.com

Иля Кел