Новый подход помог создать систему, способную справиться с классическими играми Atari, такими как Montezuma’s Revenge и Pitfall
Ранее с подобными играми-платформерами ИИ не мог справиться. Тогда учёные использовали обучение с подкреплением – способ машинного обучения, который включает вознаграждение за успешное действие. Однако из-за сложности видеоигр и огромного количества препятствий и лабиринтов такой подход не работал.
К примеру, ИИ нужно выполнить ряд сложных действий, чтобы достичь указанного места. Если он получает вознаграждение только по прибытии в пункт назначения, то он не получает обратной связи относительно множества отдельных шагов, предпринятых на пути к цели. Другой способ: награждать ИИ за каждый шаг к цели. Однако из-за этого система будет игнорировать разветвления и другие пути.
В исследовании, опубликованном в журнале Nature, учёные разработали новый подход. Он основан на создании архива областей, который ИИ уже посетил. Данный способ решает «две основные проблемы, которые препятствовали исследованию предыдущих алгоритмов».
Первая проблема – отстраненность. Она возникает, когда система не ведет учет областей, которые она не исследовала. Например, когда робот достигает разветвления, он должен выбрать один путь и отказаться от другого. Отстранённость означает неспособность системы позже вспомнить, что существовал альтернативный путь, который также необходимо изучить.
Вторая проблема – «сход с рельсов». Если система все-таки решит исследовать новые области, то она может отвлечься от первоначальной задачи.
Новое «семейство алгоритмов», которые учёные назвали Go-Explore, основано на непрерывном архивировании каждой развилки или области, с которой сталкивается ИИ. Это помогает запомнить путь и в любой момент вернуться к необследованной области.
Новому ИИ удалось превзойти средний человеческий результат в игре Pitfall (другие системы не могли набрать в ней ни одного балла). Go-Explore также набрал 1,7 миллиона очков в игре Montezuma’s Revenge, побив мировой рекорд в 1,2 миллиона очков.
Исследователи считают, что их система, обходящая проблемы отстраненности и «схода с рельсов», может успешно использоваться роботами в производстве и дома. Она также поможет роботам-спасателям в зоне бедствий, где, как и в видеоиграх, необходимо преодолевать препятствия и исследовать новые области.
Источник: Nature