Мечтаят ли невроните за електрически овце? Създателят на първите невронни мрежи разказа за тяхната еволюция и бъдещето - Алтернативен изглед

2024 Автор: Keith Bush | [email protected]. Последно модифициран: 2023-12-16 14:04

Джефри Хинтън е съ-създател на концепцията за задълбочено обучение, носител на наградата Тюринг за 2019 г. и инженер на Google. Миналата седмица, по време на I / O конференция за разработчици, Wired го интервюира и обсъжда своето очарование с мозъка и способността му да моделира компютър въз основа на нервната структура на мозъка. Дълго време тези идеи се смятаха за причудливи. Интересен и забавен разговор за съзнанието, бъдещите планове на Хинтън и дали компютрите могат да бъдат научени да мечтаят.

Какво ще се случи с невронните мрежи?

Нека започнем с дните, когато сте написали първите си, силно влиятелни статии. Всички казаха: "Това е интелигентна идея, но всъщност не можем да проектираме компютрите по този начин." Обяснете защо сте настоявали за себе си и защо сте били толкова сигурни, че сте намерили нещо важно.

Струваше ми се, че мозъкът не може да работи по друг начин. Той трябва да работи, като изучава силата на връзките. И ако искате да накарате устройство да направи нещо умно, имате две възможности: или го програмирате, или то се учи. И никой не е програмирал хора, така че трябваше да учим. Този метод трябваше да бъде правилен.

Обяснете какви са невронните мрежи. Обяснете оригиналната концепция

Приемате сравнително прости обработващи елементи, които много смътно приличат на неврони. Те имат входящи връзки, всяка връзка има тежест и това тегло може да се променя по време на тренировка. Това, което неврона прави, е да предприеме действията по връзките, умножени по теглата, да ги обобщи и след това да реши дали да изпрати данните. Ако сумата е въведена достатъчно голяма, тя прави изход. Ако сумата е отрицателна, тя не изпраща нищо. Това е всичко. Всичко, което трябва да направите, е да свържете облак от тези неврони с тежести и да измислите как да промените тези тегла и тогава те ще направят каквото и да е. Единственият въпрос е как ще промените тежестите.

Промоционално видео:

Кога разбрахте, че това е грубо представяне на това как работи мозъкът?

О, да, първоначално всичко беше предвидено. Проектиран да прилича на мозъка по време на работа.

Така в един момент от кариерата си започнахте да разбирате как работи мозъкът. Може би сте били на дванадесет години, може би на двадесет и пет. Кога решихте да опитате да моделирате компютри като мозъци?

Да веднага. Това беше цялата точка. Цялата тази идея беше да се създаде устройство за обучение, което се учи като мозъка, според идеите на хората за това как мозъкът се учи, като променя силата на връзките. И това не беше моята идея, Тюринг имаше същата идея. Въпреки че Тюринг измисли голяма част от основите на стандартната компютърна наука, той вярваше, че мозъкът е дезорганизирано устройство със случайни тежести и използва усилване за обучение, за да променя връзките, така че може да научи всичко. И той вярваше, че това е най-добрият път към интелигентността.

И вие следвахте идеята на Тюринг, че най-добрият начин да се изгради машина е да я проектирате като човешкия мозък. Ето как работи човешкият мозък, така че нека създадем подобна машина

Да, не само Тюринг мисли така. Мнозина си мислеха така.

Кога дойдоха мрачните времена? Кога се случи, че други хора, които работеха по него и вярваха, че идеята на Тюринг е правилна, започнаха да отстъпват, а вие продължихте да огъвате линията си?

Винаги е имало шепа хора, които са вярвали без значение, особено в областта на психологията. Но сред компютърните учени, предполагам, през 90-те години се случи, че наборите от данни бяха доста малки, а компютрите не бяха толкова бързи. И с малки набори от данни, други методи като поддържащи векторни машини се представиха малко по-добре. Те не бяха толкова смутени от шума. Така че всичко беше тъжно, защото през 80-те години разработихме метод за размножаване на гърба, който е много важен за невронните мрежи. Мислехме, че той ще реши всичко. И бяха озадачени, че той не е решил нищо. Въпросът наистина беше в мащаб, но тогава не го знаехме.

Защо си помислихте, че не работи?

Решихме, че не работи, защото нямахме съвсем правилни алгоритми и не съвсем правилни обективни функции. Дълго време си мислех, че това е така, защото ние се опитвахме да правим контролирано обучение, когато поставяте етикети на данните, а ние трябваше да правим неподдържано обучение, когато се учим от неозначени данни. Оказа се, че въпросът е най-вече в мащаб.

Интересно е. Проблемът беше, че нямате достатъчно данни. Мислехте, че имате правилното количество данни, но сте го маркирали неправилно. Значи просто погрешно диагностицирахте проблема?

Мислех, че грешката е, че изобщо използваме етикети. По-голямата част от обучението ви се случва, без да използвате никакви етикети, просто се опитвате да моделирате структура в данните. Всъщност все още мисля така. Мисля, че тъй като компютрите стават по-бързи, ако компютърът е достатъчно бърз, тогава за всеки набор от данни с даден размер е по-добре да тренирате без надзор. И след като завършите обучението без надзор, можете да научите с по-малко маркери.

Така през 90-те продължавате изследванията си, в академията сте, все още публикувате, но не решавате големи проблеми. Имали ли сте някога момент, когато сте казвали: „Знаеш какво, достатъчно е. Ще се опитам ли да направя нещо друго? Или просто си казахте, че ще продължите да изучавате задълбочено [т.е. концепцията за дълбокото учене, задълбоченото изучаване на невронните мрежи

Да. Нещо подобно трябва да работи. Искам да кажа, връзките в мозъка се учат по някакъв начин, просто трябва да разберем как. И вероятно има много различни начини за укрепване на връзките в обучението мозъкът използва един от тях. Може да има и други начини. Но определено имате нужда от нещо, което може да засили тези връзки по време на учене. Никога не съм се съмнявал в това.

Никога не сте се съмнявали в това. Кога изглеждаше, че работи?

Едно от най-големите разочарования на 80-те беше, че ако направим мрежи с много скрити слоеве, нямаше как да ги обучим. Това не е напълно вярно, защото можете да тренирате сравнително прости процеси като почерк. Но не знаехме как да тренираме най-дълбоките невронни мрежи. И около 2005 г. измислих начин да тренирам дълбоки мрежи без надзор. Въвеждате данни, казвате пиксели и тренирате няколко детектора за детайли, което просто обясни добре защо пикселите са такива, каквито са. След това захранвате данните от тези детектори на части и обучавате друг набор от детектори на части, така че да можем да обясним защо конкретни детектори на части имат специфични корелации. Продължавате да тренирате слой по слой. Но най-интересното бешекоето би могло да се разложи математически и да докаже, че всеки път, когато тренирате нов слой, не е задължително да подобрявате модела на данни, но ще се справите с диапазон от това колко добър е вашият модел. И този диапазон стана по-добър с добавяне на всеки слой.

Какво искаш да кажеш под обхвата на това колко добър е твоят модел?

След като се сдобиете с модела, може да зададете въпроса "Колко необичайно този модел намира тези данни?" Показвате й данните и задавате въпроса: „Намирате ли всичко това както се очаква или е необичайно?“И това може да се измери. И исках да взема модел, добър модел, който гледа данните и казва: „Да, да. Знаех си. Това не е изненадващо ". Винаги е много трудно да се изчисли точно колко необичаен модел ще намери данните. Но можете да изчислите обхвата на това. Можем да кажем, че моделът ще намери тези данни за по-малко необичайни от тези. И може да се покаже, че с добавяне на повече слоеве към детекторите за детайли, моделът се формира и с всеки добавен слой, докато намери данни, диапазонът на разбиране за това колко необичайно намира данните, става по-добър.

И така, около 2005 г. направихте този математически пробив. Кога започнахте да получавате правилни отговори? С какви данни работихте? Първият ви пробив беше с речеви данни, нали?

Бяха просто ръкописни номера. Много просто. И приблизително по същото време започна разработването на графични процесори (графични обработващи единици). И хората, които правеха невронни мрежи, започнаха да използват графични процесори през 2007 г. Имах много добър студент, който започна да използва графични процесори, за да намира пътища във въздушни снимки. Той написа кода, който след това беше приет от други студенти, използващи GPU, за да разпознаят фонеми в речта. Те използваха тази идея за предварителна подготовка. И когато предварителната подготовка беше направена, те просто закачиха етикетите отгоре и използваха обратно размножаване. Оказа се, че е възможно да се създаде много дълбока мрежа, която преди това беше обучена по този начин. И тогава може да се приложи обратното размножаване и то действително работи. В разпознаването на речта се справи чудесно. В началото обаче,не беше много по-добре.

По-добре ли беше от разположението в търговската мрежа за разпознаване на реч? Заобиколени от най-добрите научни трудове за разпознаване на реч?

В сравнително малък набор от данни, наречен TIMIT, той беше малко по-добър от най-добрата академична работа. IBM също свърши много работа.

Хората бързо разбраха, че всичко това - тъй като заобикаля стандартните модели, които са били в разработка от 30 години - ще работи добре, ако се развие малко. Моите възпитаници отидоха в Microsoft, IBM и Google и Google много бързо създадоха работен разпознаващ реч. До 2012 г. тази работа, която беше свършена през 2009 г., беше ударила Android. Android изведнъж е много по-добър в разпознаването на речта.

Разкажете ми за момент, когато вие, които съхранявате тези идеи в продължение на 40 години, публикувате по тази тема в продължение на 20 години, изведнъж заобикаляте колегите си. Какво е това чувство?

Е, по това време бях съхранявал тези идеи само 30 години!

Правилно, нали

Имаше страхотно усещане, че всичко това най-накрая се превърна в истински проблем.

Спомняте ли си кога за първи път получихте данни, показващи това?

Не.

Добре. Така получавате идеята, че това работи с разпознаване на речта. Кога започнахте да прилагате невронни мрежи към други проблеми?

В началото започнахме да ги прилагаме при всякакви други проблеми. Джордж Дал, с когото първоначално работихме върху разпознаването на речта, ги използва, за да предвиди дали молекула може да се свърже с нещо и да се превърне в добро лекарство. И имаше конкуренция. Той просто приложи нашата стандартна технология, изградена за разпознаване на речта, за прогнозиране на лекарствената активност и спечели конкуренцията. Това беше знак, че правим нещо много многостранно. Тогава се появи студент, който каза: „Знаеш ли, Джефе, това нещо ще работи с разпознаването на образа и Фей-Фей Ли създаде подходящ набор от данни за това. Има публичен конкурс, нека направим нещо."

Получихме резултати, които далеч надминаха стандартното компютърно зрение. Беше 2012 година.

Тоест, в тези три области сте се отличили: моделиране на химикали, реч, глас. Къде се провалихте?

Разбирате ли, че неуспехите са временни?

Е, какво разделя областите, където всичко работи най-бързо, и областите, където е необходимо най-дълго? Изглежда визуалната обработка, разпознаването на реч и нещо като основните човешки неща, които правим със сетивно възприятие, се считат за първите бариери, които трябва да преодолеем, нали?

Да и не, защото има и други неща, които правим добре - същите двигателни умения. Ние сме много добри в управлението на двигателя. Нашите мозъци определено са оборудвани за това. И едва сега невронните мрежи започват да се конкурират с най-добрите други технологии за това. Те ще спечелят накрая, но сега тепърва започват да печелят.

Мисля, че мисленето, абстрактното мислене е последното, което научаваме. Мисля, че те ще бъдат сред последните неща, които тези невронни мрежи се научават да правят.

И така продължавате да казвате, че невронните мрежи в крайна сметка ще надделят навсякъде

Е, ние сме невронни мрежи. Всичко, което можем, те могат.

Вярно е, но човешкият мозък е далеч от най-ефективната изчислителна машина, създавана някога

Определено не.

Определено не е моят човешки мозък! Има ли начин да се моделират машини, които са много по-ефективни от човешкия мозък?

Философски нямам възражения срещу идеята, че би могло да има някакъв съвсем различен начин да се направи всичко това. Може би, ако започнете с логиката, опитайте се да автоматизирате логиката, излезете с някаква фантазия за доказване на теорема, причина и след това решите, че именно чрез разсъждения ще стигнете до визуалното възприятие, може би този подход ще спечели. Но не още. Нямам философски възражения срещу подобна победа. Просто знаем, че мозъкът е способен на това.

Но има и неща, които мозъците ни не могат да се справят добре. Означава ли това, че невронните мрежи също няма да могат да се справят добре?

Доста вероятно, да.

И има отделен проблем, който е, че ние не разбираме напълно как работят невронните мрежи, нали?

Да, всъщност не разбираме как работят.

Не разбираме как работят невронните мрежи отгоре надолу. Това е основен елемент от това как работят невронните мрежи, които ние не разбираме. Обяснете това и след това позволете ми да ми зададе следващия въпрос: ако знаем как всичко работи, как става всичко това тогава?

Когато разглеждате съвременни системи за компютърно зрение, повечето от тях са предимно гледащи напред; те не използват връзки за обратна връзка. И тогава има нещо друго в съвременните системи за компютърно зрение, които са много склонни към състезателни грешки. Можете леко да промените няколко пиксела и това, което преди беше изображение на панда и все още изглежда точно като панда за вас, изведнъж ще се превърне в щраус в разбирането ви за невронна мрежа. Очевидно методът за подмяна на пиксели е измислен по такъв начин, че да подмами нервната мрежа да мисли за щраус. Но въпросът е, че все още е панда за вас.

Първоначално смятахме, че всичко работи чудесно. Но след това, изправени пред факта, че гледат панда и са сигурни, че е щраус, се разтревожихме. И мисля, че част от проблема е, че те не се опитват да реконструират от възгледи на високо ниво. Те се опитват да се учат изолирано, където учат само слоевете детектори за детайли и цялата цел е да променяте тежестите, за да станете по-добри в намирането на правилния отговор. Наскоро открихме, или Ник Фрост открихме в Торонто, че добавянето на реконструкция увеличава съпротивителната устойчивост. Мисля, че в човешкото зрение реконструкцията се използва за учене. И понеже научаваме толкова много, докато правим реконструкция, ние сме много по-устойчиви на противникови атаки.

Вярвате, че комуникацията по веригата в невронна мрежа ви позволява да тествате как нещо се реконструира. Проверяваш го и се уверяваш, че е панда, а не щраус

Мисля, че това е важно, да.

Но мозъчните учени не са напълно съгласни с това?

Мозъчните учени не спорят, че ако имате два региона на кората по пътя на възприятието, винаги ще има обратни връзки. Спорят с какво е предназначено. Може да е необходима за внимание, за учене или за реконструкция. Или за трите.

И така не знаем каква е обратната връзка. Изграждате ли новите си невронни мрежи, започвайки от предположението, че … не, дори не е така - изграждате обратна връзка, защото е необходима за реконструкция във вашите невронни мрежи, въпреки че дори не разбирате как работи мозъкът?

Да.

Това не е ли трик? Е, това е, ако се опитвате да направите нещо като мозък, но не сте сигурни дали мозъкът го прави?

Не точно. Не съм в компютърната невронаука. Не се опитвам да моделирам как работи мозъкът. Поглеждам мозъка и казвам: „Тя работи и ако искаме да направим нещо друго, което работи, трябва да гледаме и да бъдем вдъхновени от него“. Вдъхновяваме се от невроните, а не изграждаме неврален модел. По този начин целият модел от неврони, който използваме, е вдъхновен от факта, че невроните имат много връзки и че променят теглата.

Интересно е. Ако бях компютърен учен, работещ по невронни мрежи и искам да заобиколя Джеф Хинтън, една от възможностите би била да се изгради комуникация надолу и да се основава на други модели на мозъчната наука. Въз основа на обучение, а не на реконструкция

Ако имаше по-добри модели, щяхте да спечелите. Да.

Много е, много интересно. Нека да засегнем по-обща тема. Така че, невронните мрежи могат да решат всички възможни проблеми. Има ли загадки в човешкия мозък, които невронните мрежи не могат или не могат да покрият? Например емоции

Не.

Значи любовта може да бъде реконструирана с невронна мрежа? Съзнанието може ли да се реконструира?

Абсолютно. След като разберете какво означават тези неща. Ние сме невронни мрежи, нали? Съзнанието е особено интересна тема за мен. Но … хората всъщност не знаят какво означават под тази дума. Има много различни определения. И мисля, че това е доста научен термин. Следователно, ако преди 100 години питахте хората: какво е животът? Те биха отговорили: „Е, живите същества имат жизнена сила и когато умрат, жизнената сила ги напуска. Това е разликата между живите и мъртвите, или имате жизнеността, или нямате. Сега нямаме жизнена сила, смятаме, че тази концепция е дошла преди науката. И след като започнете да разбирате малко за биохимията и молекулярната биология, вече нямате нужда от жизнена сила, ще разберете как всичко всъщност работи. И същото нещо, мисля, ще се случи със съзнанието. Мисля, че,че съзнанието е опит да се обяснят психичните явления, използвайки едно цяло. И тази същност, не е нужна. След като можете да го обясните, можете да обясните как правим всичко, което прави хората съзнателни същества, да обясните различните значения на съзнанието, без да включваме някакви специални образувания.

Оказва се, че няма емоции, които не биха могли да бъдат създадени? Няма мисъл, която да не може да бъде създадена? Няма какво човешкият ум да е способен на това теоретично да не може да бъде пресъздаден от напълно функционираща невронна мрежа, след като всъщност разберем как работи мозъкът?

Джон Ленън изпя нещо подобно в една от песните си.

На 100% ли сте сигурни в това?

Не, аз съм байесиец, така че съм 99,9% сигурен.

Добре, какво тогава е 0,01%?

Е, можем, например, всички да сме част от по-голяма симулация.

Достатъчно честно. И така, какво научаваме за мозъка от работата си на компютрите?

Е, мисля, че от това, което научихме през последните 10 години, е интересно, че ако вземете система с милиарди параметри и обективна функция - например да попълните празнина в ред от думи - тя работи по-добре, отколкото трябва. Ще работи много по-добре, отколкото може да очаквате. Може да си помислите и много хора в традиционните изследвания на ИИ биха помислили, че можете да вземете система с милиард параметри, да я пуснете на произволни стойности, да измерите градиента на целевата функция и след това да я настроите, за да подобрите целевата функция. Може да си мислите, че безнадежден алгоритъм неизбежно ще се забие. Но не, оказва се, че това е наистина добър алгоритъм. И колкото по-голям е мащабът, толкова по-добре работи. И това откритие беше по същество емпирично. Имаше някаква теория зад всичко това, разбира се, но откритието беше емпирично. И сега,тъй като открихме това, изглежда по-вероятно мозъкът да изчислява градиента на някаква обективна функция и да актуализира теглата и силата на синаптичната връзка, за да бъде в крак с този градиент. Просто трябва да разберем каква е тази целева функция и как се влошава.

Но ние не разбрахме това с примера на мозъка? Не разбирате актуализацията на баланса?

Това беше теория. Много отдавна хората смятаха, че това е възможно. Но на заден план винаги имаше някои компютърни учени, които казаха: "Да, но идеята, че всичко е произволно и ученето се дължи на градиентно спускане няма да работи с милиард параметри. Трябва да свържете много знания." Вече знаем, че това не е така. Можете просто да въведете произволни параметри и да научите всичко.

Нека се потопим малко по-дълбоко. Докато научаваме все повече и повече, вероятно ще продължим да научаваме все повече и повече за това как работи човешкият мозък, докато провеждаме масивни тестове на модели въз основа на разбирането ни за мозъчната функция. След като разберем всичко това по-добре, ще има ли момент, в който по същество пренатоварваме мозъка си, за да станем много по-ефективни машини?

Ако наистина разберем какво се случва, можем да подобрим някои неща като образование. И мисля, че ще се подобрим. Би било много странно най-накрая да разбереш какво се случва в мозъка ти, как се учи, а не да се адаптираш така, че да учиш по-добре.

Как мислите, след няколко години ще използваме наученото за мозъка и как работи дълбокото обучение, за да трансформира образованието? Как бихте сменили класовете?

Не съм сигурен, че ще научим много след няколко години. Мисля, че ще отнеме повече време, за да се промени образованието. Но като говорим за това, [цифровите] асистенти стават доста умни. И когато асистентите могат да разберат разговорите, те могат да говорят и да обучават деца.

И на теория, ако разберем мозъка по-добре, можем да програмираме помощници, за да разговаряме по-добре с децата, въз основа на наученото от тях

Да, но не се замислих много. Правя нещо друго. Но всичко това изглежда доста подобно на истината.

Можем ли да разберем как работят мечтите?

Да, много ме интересуват мечтите. Толкова ме интересува, че имам поне четири различни теории за мечти.

Разкажете ни за тях - за първата, втората, третата, четвъртата

Много отдавна имаше такова нещо, наречено Hopfield network, и те изучаваха спомените като местни атрактори. Хопфийлд откри, че ако се опитате да сложите твърде много спомени, те се объркват. Те ще вземат два местни атрактора и ще ги комбинират в един атрактор някъде по средата между тях.

Тогава Франсис Крик и Греъм Мичисън дойдоха и казаха, че можем да се отървем от тези фалшиви нива, като научим (тоест забравяме наученото). Изключваме въвеждането на данни, поставяме невронната мрежа в произволно състояние, оставяме да се успокои, казваме, че е лошо, променяме връзките, за да не изпадне в това състояние и по този начин можем да принудим мрежата да съхранява повече спомени.

Тогава ние с Тери Сейновски влязохме и казах: „Вижте, ако имаме не само невроните, които съхраняват спомени, но и куп други неврони, можем ли да намерим алгоритъм, който използва всички тези други неврони, за да помогне да си припомним спомените?“… В резултат на това създадохме алгоритъм за машинно обучение на Болтман. И алгоритъмът за машинно обучение на Boltzmann имаше изключително интересно свойство: показвам данните и той преминава през останалите единици, докато изпадне в много щастливо състояние и след това увеличава силата на всички връзки въз основа на факта, че две единици са активни едновременно.

Също така трябва да имате фаза, в която изключвате входа, оставяте алгоритъма да "шумоли" и да го поставите в състояние, в което той е щастлив, така че той да фантазира и веднага щом има фантазия, вие казвате: "Вземете всички двойки неврони които са активни и намаляват здравината на връзките."

Обяснявам ви алгоритъма като процедура. Но в действителност този алгоритъм е продукт на математиката и въпросът: "Как е необходимо да промените тези вериги от връзки, така че тази невронна мрежа с всички тези скрити единици данни изглежда не е изненадваща?" И трябва да има и друга фаза, която наричаме отрицателна фаза, когато мрежата работи без въвеждане на данни и се отчита, независимо в какво състояние сте я поставили.

Мечтаем много часове всяка вечер. И ако изведнъж се събудите, можете да кажете, че току-що сте сънували, защото сънят се съхранява в краткосрочна памет. Знаем, че виждаме сънища в продължение на много часове, но сутрин, след като се събудим, можем да си спомним само последния сън, а не помним другите, което е много успешно, защото човек може да ги сбърка с реалността. Така че защо изобщо не си спомняме мечтите си? Според Крик това е смисълът на сънищата: да отуча тези неща. Вие някак си научавате обратното.

Тери Сейновски и аз показахме, че това всъщност е максималната вероятност за обучение на машините на Boltzmann. Това е първата теория за сънищата.

Искам да премина към другите ви теории. Но въпросът ми е: Успяхте ли да обучите някой от алгоритмите си за дълбоко учене, за да мечтаете всъщност?

Някои от първите алгоритми, които можеха да се научат да работят със скрити единици, бяха машини на Boltzmann. Те бяха изключително неефективни. Но по-късно намерих начин да работя с приближения, които се оказаха ефективни. И това всъщност послужи като тласък за възобновяване на работата с задълбочено обучение. Това бяха неща, които обучаваха един слой от детектори за функции наведнъж. И това беше ефективна форма на ограничителната машина на Болцман. И така тя направи този вид обратно обучение. Но вместо да заспи, тя можеше просто да си фантазира малко след всяка марка с данни.

Добре, така че андроидите всъщност мечтаят за електрически овце. Нека да преминем към теории две, три и четири

Теория втора се нарича Алгоритъм на съня на събуждане. Трябва да обучите генеративен модел. И имате идея да създадете модел, който да генерира данни, да има слоеве на детектори на функции и да активира по-високите и долните слоеве и така нататък, до активирането на пикселите - създаване на изображение, по същество. Но бихте искали да я научите на нещо друго. Искате да разпознае данните.

И така трябва да направите алгоритъм с две фази. Във фазата на пробуждане данните влизат, той се опитва да го разпознае и вместо да проучва връзките, които използва за разпознаване, той изучава генеративните връзки. Данните влизат, активирам скритите единици. И тогава се опитвам да науча тези скрити единици да възстановяват тези данни. Той се научава да реконструира във всеки слой. Но въпросът е как да научите директни връзки? Идеята е, че ако сте знаели директни връзки, бихте могли да научите обратни връзки, защото бихте могли да се научите да правите обратен инженер.

Сега също се оказва, че ако използвате обратни съединения, можете да научите и директни присъединения, защото можете просто да започнете от върха и да генерирате някои данни. И тъй като генерирате данни, знаете състоянията на всички скрити слоеве и можете да изучавате директни връзки за възстановяване на тези състояния. И ето какво се случва: ако започнете с произволни връзки и се опитате да използвате и двете фази последователно, ще успеете. За да работи добре, трябва да изпробвате различни опции, но ще работи.

Добре, какво ще кажете за другите две теории? Остават ни само осем минути, мисля, че няма да имам време да питам за всичко

Дайте ми още час и ще ви разкажа за другите два.

Нека да поговорим какво следва. Къде е заглавието на вашето изследване? Какви проблеми се опитвате да решите сега?

В крайна сметка ще трябва да работите върху нещо, което работата все още не е приключила. Мисля, че може би работя върху нещо, което никога няма да завърша - наречени капсули, теория за това как се прави визуалното възприятие с помощта на реконструкция и как информацията е насочена към правилните места. Двата основни мотивиращи фактора бяха, че в стандартните невронни мрежи информацията, активността в слоя просто автоматично се изпраща някъде и вие не вземате решение къде да го изпратите. Идеята зад капсулите беше да се вземат решения къде да се изпраща информация.

Сега, когато започнах да работя над капсули, много умни хора в Google са измислили трансформатори, които правят същото. Те решават къде да изпратят информацията и това е голяма печалба.

Ще се върнем догодина, за да поговорим за теориите на мечтите номер три и номер четири.

Иля Кел