Съдържание:

Учените са създали самообучаващ се AI, способен да играе всички игри - Алтернативен изглед
Учените са създали самообучаващ се AI, способен да играе всички игри - Алтернативен изглед
Anonim

Разработчиците на революционната система за изкуствен интелект за самообучение AlphaGo Zero обявиха създаването на нова версия на тази машина, която може самостоятелно да се научи да играе всяка настолна игра и да бие човек. Описанието му беше представено в списание Science.

Дълбочините на ума

Системата AlphaGo AI е разработена от Дейвид Силвър и колегите й в края на 2014 г., а работата й е „тествана“на европейския шампион Fan Hui, който загуби всичките пет мача на машината. През март 2016 г. AlphaGo победи световния шампион Go Lee Lee Sedol в серия от пет мача, само един от които завърши с човешка победа.

Силвър и неговите колеги успяха да постигнат тези успехи, изграждайки своя AI въз основа на не една, а две невронни мрежи наведнъж - специални алгоритми, имитиращи работата на вериги от неврони в човешкия мозък. Единият от тях отговаря за оценката на текущата позиция на дъската, а вторият използва резултатите от анализа, подготвени от първата мрежа, за да избере следващата стъпка.

Следващата логична стъпка в развитието на AlphaGo беше премахването на основния недостатък на всички съществуващи невронни мрежи и системи за изкуствен интелект - необходимостта да ги научите какво трябва да правят, използвайки огромни архиви на данни, ръчно обработени от човек, или с прякото участие на човек, както се случи на първите етапи развитие на AlphaGo.

Силвър и неговият екип решиха този проблем, като създадоха принципно нова невронна мрежа, базирана на така наречените алгоритми за укрепване на обучението. Тази невронна мрежа, за разлика от звездния си предшественик, който първоначално се обучаваше в игри с доброволци и имаше някои вградени примитивни стратегии за игра, започна работата си като абсолютен начинаещ с нулева база от знания.

С други думи, тя знаеше само правилата на играта Go, първоначалните условия и условията за победа, а след това компютърът независимо се научи да играе тази древна китайска стратегия, играейки със себе си и действайки чрез опит и грешка. Единственото ограничение в работата й беше максималното време за обмисляне на хода - беше около 0,4 секунди.

Промоционално видео:

След всяка такава игра системата AI анализираше всички нейни ходове и си спомняше онези, които доближиха една от нейните „половинки“до победата, и влезе в своеобразен „черен списък“онези стъпки, които откровено губеха. Използвайки тези данни, невронната мрежа се възстанови, постепенно достигайки нивото, което първата версия на AlphaGo достигна преди поредицата игри с Лий Sedol.

Преминаването към алгоритми за самообучение не само позволи AlphaGo Zero да надмине предшественика си и да го победи със 100-0, но и подобри много други аспекти на неговата работа. По-специално процесът на неговото обучение отне само три дни и около пет милиона игри, което беше порядък по-малък от исканията на първата версия на AI.

Пътят към върхови постижения

Успешното завършване на експериментите с AlphaGo Zero доведе Силвър и неговия екип да преценят дали подобна невронна мрежа може да се използва за спечелване на короната на шампиона в други видове стратегии и настолни игри.

За да направите това, учените изградиха още един нов елемент в AlphaGo Zero - евристични алгоритми за случайно търсене на решения, както и код, който отчита наличието на равенство в някои игри. Освен това новата версия на алфата непрекъснато подобряваше структурата си, вместо да се обновява на етапи като предшественика си.

Тези сравнително прости промени, както показаха по-нататъшните експерименти, значително увеличиха скоростта на самообучение на тази система за изкуствен интелект и я превърнаха в универсална машина, способна да играе на всички видове бордови стратегии.

Учените са тествали работата му върху три вида игри - go, обикновени шах и техния японски сорт, shogi. И в трите случая новият мозък на Силвър достигна нивото на гросмайстор за по-малко от милион игри, постигайки почти човешка избирателност в избора на възможни ходове само за 9-12 часа тренировки за шах и 13 дни за ходене.

По-рано тя победи най-сложните компютърни програми, които играят тези игри - алгоритъмът на Stockfish се отказа на четвъртия час от обучението на AlphaZero, докато Елмо, настоящият шампион по шоги, продължи само два часа. Накрая първата версия на AlphaGo започна да отстъпва на своя „внук“с около 30 часа от обучението си.

Следните „жертви“на AlphaZero, както отбелязаха учените, може да са „истински“компютърни игри, като Starcraft II и Dota 2. Вземането на шампионат в подобни дисциплини на епоха, според тях, ще отвори пътя за самостоятелно обучение на AI, за да проникнат в по-малко формализирани области на науката и културата и технологии.

Популярни по теми