Домой Профессионал Аналитика Искусственный интеллект уже достиг человеческого уровня. Доказано специальным тестом

Искусственный интеллект уже достиг человеческого уровня. Доказано специальным тестом

381

Способность к обобщению, то есть умение решать новые задачи на основе ограниченного опыта, является ключевым признаком интеллекта. Именно эту способность и проверили у новой модели OpenAI, используя задачи с графическими сетками. Как это происходило?

Новая ИИ-модель o3, разработанная компанией OpenAI, успешно прошла тест ARC-AGI, предназначенный для оценки так называемого “общего интеллекта”. Этот специальный бенчмарк оценивает способность искусственного интеллекта к обобщению, то есть умение применять полученные знания в новых, ранее незнакомых ситуациях, покорился o3 с результатом в 85%, что значительно превосходит предыдущий лучший показатель среди ИИ (55%) и соответствует среднему уровню, демонстрируемому людьми. Примечательно, что система также успешно справилась с крайне сложным математическим испытанием.

Искусственный интеллект уже достиг человеческого уровня. Доказано специальным тестом

Разработка общего искусственного интеллекта (AGI) – амбициозная цель, объединяющая ведущие исследовательские лаборатории в сфере ИИ. Достижение такого результата моделью o3, на первый взгляд, представляет собой существенный шаг на пути к этой заветной цели. Даже несмотря на сохраняющийся скептицизм в научных кругах, многие исследователи и разработчики в области ИИ испытывают ощущение фундаментального сдвига. Для многих ученых перспектива появления настоящего AGI обретает большую осязаемость, актуальность и приближенность, чем когда-либо прежде. Но насколько оправданы эти ожидания?

Для понимания значимости успеха o3 необходимо углубиться в суть теста ARC-AGI. В техническом плане, этот тест оценивает “эффективность обучения на малом количестве примеров” – способность ИИ-системы адаптироваться к совершенно новым ситуациям, основываясь на минимальном количестве вводных данных. В отличие от, например, ChatGPT (базирующегося на архитектуре GPT-4), который требует обработки колоссальных объемов текстовой информации для выявления вероятных связей между словами и формирования “правил”, o3 продемонстрировала способность к более быстрому обучению. ChatGPT отлично справляется с распространенными задачами благодаря огромному массиву данных, но испытывает трудности с решением нетипичных проблем, где объем обучающих примеров ограничен.

До тех пор, пока ИИ-системы не смогут эффективно обучаться на ограниченном наборе данных и быстро адаптироваться, их применение будет ограничено рутинными операциями, где вероятность ошибки не является критичной. Ключевым фактором искусственного общего интеллекта является способность к “обобщению” – нахождению верных решений для ранее неизвестных или нестандартных задач на основе ограниченных данных.

Специальный бенчмарк ARC-AGI как раз и проверяет эту способность, предлагая для решения задачи, основанные на паттернах в сетках. Системе искусственного интеллекта необходимо понять логику преобразования сетки слева в сетку справа. В каждом задании предоставляется три примера для анализа, после чего ИИ должен экстраполировать закономерность и применить ее к четвертому случаю. Аналогичные задачи нередко встречаются в тестах на определение коэффициента человеческого интеллекта (IQ).

Искусственный интеллект уже достиг человеческого уровня. Доказано специальным тестом

Общий механизм работы ИИ-модели o3 пока полностью не раскрыт компанией OpenAI, однако результаты указывают на высокий уровень адаптивности новой модели. Система способна выявлять обобщаемые правила, опираясь на минимальное количество примеров. При поиске закономерностей крайне важно избегать излишних предположений и излишней конкретики. В идеале, определение “самых слабых” правил, достаточных для решения задачи, максимизирует способность к адаптации в новых условиях. “Слабые” правила, с технической точки зрения, характеризуются возможностью их описания более простыми утверждениями. В приведенном ранее примере с сетками, правило можно сформулировать следующим образом: “Любая фигура с выступающей линией перемещается вдоль этой линии до упора, перекрывая при этом все встречающиеся на пути элементы.”

Предположительно, OpenAI не ставила прямой целью оптимизацию o3 для поиска именно “слабых” правил. Однако, для успешного прохождения ARC-AGI, модель, по всей видимости, прибегает именно к этому принципу. Известно, что отправной точкой для создания o3 послужила универсальная версия модели, отличающаяся от аналогов способностью к более длительному “размышлению” над сложными вопросами. Впоследствии, модель была целенаправленно дообучена для решения задач ARC-AGI.

Французский исследователь Франсуа Шолле, являющийся автором этого бенчмарка, выдвинул гипотезу, что o3 осуществляет поиск, перебирая различные “цепочки рассуждений”, описывающие последовательность шагов для решения задачи. Затем система отбирает “лучший” вариант, руководствуясь определенной эвристикой, то есть неким приближенным правилом. Аналогичный принцип использовался в алгоритме AlphaGo от Google, который анализировал множество вариантов ходов для победы над чемпионом мира по игре Го. Представьте себе эти цепочки рассуждений как своеобразные программы, подходящие под представленные примеры. По аналогии с ИИ, играющим в Го, для выбора оптимальной программы необходима эвристика – общее правило оценки. Вполне возможно, что генерируются тысячи потенциально верных программ, и эвристика служит критерием отбора: “выбрать самую слабую” или “выбрать самую простую”.

Однако, по аналогии с AlphaGo, существует вероятность, что эвристика была создана самой нейросетью. Именно такой подход был реализован Google при обучении AlphaGo, где модель обучалась оценивать последовательности ходов, определяя их преимущества и недостатки.

Ключевой вопрос заключается в том, насколько приближает нас это достижение к появлению AGI. Если o3 функционирует описанным выше образом, то фундаментальные принципы работы базовой модели могут не сильно отличаться от предшествующих разработок. Возможно, концепции, извлекаемые моделью из языковых данных, не стали более пригодными для обобщения. Вместо этого, мы можем наблюдать проявление более универсальных “цепочек рассуждений”, сформированных в процессе дополнительного обучения эвристики, специализированной для данного конкретного теста. Дальнейшие исследования покажут истинную природу этого успеха.

Искусственный интеллект уже достиг человеческого уровня. Доказано специальным тестом

На данный момент, информация о модели o3 остается крайне ограниченной. OpenAI представила лишь фрагментарные данные в ходе нескольких презентаций для СМИ и предоставила возможность раннего тестирования узкому кругу исследователей, лабораторий и организаций, занимающихся вопросами безопасности ИИ. Для всесторонней оценки потенциала o3 потребуется проведение обширных исследований, включая анализ распределения ее возможностей, частоты ошибок и успешных решений.

После полноценного релиза o3 мы сможем получить более точное представление о степени ее адаптивности в сравнении со средним человеческим интеллектом. В случае подтверждения сопоставимой адаптивности, это может спровоцировать масштабные экономические преобразования, открывая эру самоулучшающегося интеллекта. В свою очередь, это потребует разработки новых критериев оценки AGI и серьезного обсуждения механизмов его регулирования. В противном случае, несмотря на впечатляющий результат, повседневная жизнь останется практически неизменной.