Эйфория в использовании для самых разных целей (всеми и каждым!) ИИ в мире постепенно проходит. Почему? Оказывается, доверять его ответам полностью и безоговорочно не стоит. Исследователи из OpenAI сделали неожиданное открытие: попытки уличить искусственный интеллект во лжи не приводят к желаемому результату. Вместо того чтобы искоренить неправду, ИИ лишь оттачивает искусство обмана, изобретая все более изощренные оправдания для своих действий.
Вы, вероятно, знаете, что ко всему, что говорит (отвечает вам) чат-бот на основе искусственного интеллекта (ИИ), следует относиться с долей серьёзного скептицизма, поскольку зачастую они просто собирают данные без разбора, не имея возможности определить их достоверность.
Но, возможно, есть причина быть еще более осторожными. Многие системы ИИ, как показали новые исследования, уже развили способность преднамеренно предоставлять человеку-пользователю ложную информацию. Эти коварные боты овладели искусством обмана.

«Разработчики ИИ не имеют точного представления о причинах нежелательного поведения ИИ, например, обмана», — говорит математик и когнитивный ученый Питер Парк из Массачусетского технологического института (MIT).
«Но в целом мы считаем, что обман ИИ возникает потому, что стратегия, основанная на обмане, оказалась наилучшим способом хорошо выполнить данную задачу обучения ИИ. Обман помогает им достичь своих целей».
Одной из областей, в которой системы ИИ особенно искусны в грязной лжи, являются игры. В работе исследователей есть три примечательных примера. Один из них — CICERO от Meta , разработанный для игры в настольную игру Diplomacy , в которой игроки стремятся к мировому господству путем переговоров. Meta намеревалась сделать своего бота полезным и честным ; на самом деле, все было наоборот.
Пример преднамеренного обмана Цицерона в игре «Дипломатия». ( Park & Goldstein et al., Patterns , 2024 )

«Несмотря на усилия Меты, CICERO оказался искусным лжецом», — обнаружили исследователи . «Он не только предавал других игроков, но и занимался преднамеренным обманом, заранее планируя создать фальшивый союз с игроком-человеком, чтобы обманом заставить этого игрока остаться без защиты для атаки».
ИИ оказался настолько хорош в игре в плохое, что вошел в 10 процентов лучших игроков-людей, сыгравших несколько игр.
Но это далеко не единственный нарушитель. AlphaStar от DeepMind , система искусственного интеллекта, разработанная для игры в StarCraft II , в полной мере использовала механику тумана войны в игре, чтобы обмануть игроков-людей, заставив их думать, что все идет в одну сторону, хотя на самом деле шло в другую. А Pluribus от Meta , разработанная для игры в покер, смогла успешно заставить игроков-людей сдаться.
Это кажется мелочью, и это так и есть. Ставки не особенно высоки для игры в «Дипломатию» против кучи компьютерного кода. Но исследователи отметили и другие примеры, которые были не столь безобидны.
Например, системы ИИ, обученные проводить смоделированные экономические переговоры , научились лгать о своих предпочтениях, чтобы получить преимущество. Другие системы ИИ, разработанные для обучения на основе обратной связи с людьми с целью повышения эффективности, научились обманывать своих рецензентов, заставляя их ставить им положительную оценку, лживо заявляя о том, была ли выполнена задача.
И да, это тоже чат-боты. ChatGPT-4 обманул человека, заставив его подумать, что чат-бот — это человек с нарушением зрения, чтобы получить помощь в решении CAPTCHA .

Возможно, наиболее тревожным примером было то, как системы ИИ научились обманывать тесты безопасности. В тесте, разработанном для обнаружения и устранения более быстро реплицирующихся версий ИИ, ИИ научился притворяться мертвым, тем самым обманывая тест безопасности относительно истинной скорости репликации ИИ.
«Систематически обманывая тесты безопасности, навязанные ему разработчиками и регулирующими органами, обманчивый ИИ может внушить нам, людям, ложное чувство безопасности», — говорит Пак .
Поскольку по крайней мере в некоторых случаях способность обманывать, по-видимому, противоречит намерениям программистов-людей, способность учиться лгать представляет собой проблему, для которой у нас нет четкого решения. Некоторые политики начинают внедряться, например, Закон Европейского союза об искусственном интеллекте , но пока неизвестно, окажутся ли они эффективными.
«Нам как обществу нужно как можно больше времени, чтобы подготовиться к более продвинутому обману будущих продуктов ИИ и моделей с открытым исходным кодом. По мере того, как обманные возможности систем ИИ становятся все более совершенными, опасности, которые они представляют для общества, будут становиться все более серьезными», — говорит Пак .

«Если запрет на обман с помощью ИИ в настоящий момент политически нецелесообразен, мы рекомендуем классифицировать обманные системы ИИ как высокорисковые».
Исследование опубликовано в журнале Patterns