Калифорнияда өткен құпия кездесуде әлемнің ең үздік 30 математигі жасанды интеллектіге негізделген жаңа чат-боттың профессорлық деңгейдегі күрделі есептерді шешу қабілетіне қайран қалды. Бұл жүйенің ойлау тереңдігі кей тұста адамзат данышпандығына тең түсті.
Мамыр айының ортасында Беркли қаласында (АҚШ, Калифорния штаты) әлемге танымал 30 математик бас қосқан жасырын конклав өтті. Олардың арасында Ұлыбританиядан келген мамандар да болды. Жиын барысында қатысушылар жаңа логикалық чат-ботпен айқасқа түсті. Боттың математикалық мүмкіндіктерін тексеру үшін ғалымдар екі күн бойы оған профессорлар шешуге тиіс күрделі есептерді ұсынды. Нәтижесінде олар боттың әлемдегі ең күрделі есептердің кейбіріне нақты әрі дәл жауап бере алатынын көріп, қатты таңданды.
«Әріптестерімнің бірі жасанды интеллектінің нағыз математиктермен иық тірестіретін жағдайға жеткенін айтып таң қалды», – дейді Вирджиния университетінің профессоры, жиынды жүргізген Кен Оно.
Сынақтан өткен бұл чат-бот — OpenAI әзірлеген o4-mini атты ірі тілдік модель (LLM). Оны терең логикалық қорытынды жасауға арнайы үйреткен. Google-дың Gemini 2.5 Flash моделі де ұқсас мүмкіндіктерге ие. Дегенмен o4-mini бұрынғы LLM-дерге қарағанда жеңіл, икемді, әрі адам тарапынан жоғары сапада қолдау көрген арнайы мәліметтер базасында оқытылған. Осы ерекшеліктер оған дәстүрлі модельдерге қарағанда әлдеқайда күрделі есептерді шешуге мүмкіндік береді.
OpenAI o4-mini моделінің мүмкіндігін бақылау үшін Epoch AI атты тәуелсіз ұйымға арнайы тапсырыс берген. Олар 300 жаңа математикалық есеп құрастырып, бұл модельге бұрын соңды кездеспеген сынақтар ұйымдастырды. Бұрынғы LLM жүйелері күрделі сұрақтарға жауап беруге қабілетті болғанымен, мұндай жаңаша есептерге келгенде олардың ең жақсы көрсеткіші – небәрі 2%. Ал o4-mini бұл сынақта өзгеше нәтиже көрсетті.
FrontierMath байқауы мен офлайн жүздесу
2024 жылдың қыркүйегінде Epoch AI FrontierMath деп аталатын жаңа жоба шеңберінде математикалық есептерді бағалау жұмысын бастады. Жаңа сұрақтар бакалавриат, магистратура және ғылыми-зерттеу деңгейінде дайындалды. Жобаға жаңадан PhD дәрежесін алған математик Эллиот Глейзер жетекшілік етті. 2025 жылдың сәуіріне қарай o4-mini бұл сұрақтардың шамамен 20 пайызын шеше алатын деңгейге жетті. Кейін ол төртінші деңгейдегі — кәсіби математиктердің өзі ойланып қалатын күрделі есептерге өтті. Мұндай есептерді құрастыру да, оны шешу де өте сирек адамның ғана қолынан келетін іс еді.
Конклавқа қатысушылар құпиялылық келісімшартына қол қойып, тек Signal қосымшасы арқылы байланысқан. Себебі дәстүрлі пошта немесе басқа платформалар LLM жүйесі арқылы сканерленіп, модельді кездейсоқ үйретіп қоюы мүмкін еді. Бұл — мәліметтер жиынының тазалығын сақтау үшін жасалған шара.
Әрбір есепке чат-бот дәл жауап қайтара алмаған жағдайда, сол есепті ұсынған математикке 7 500 АҚШ доллары көлемінде сыйақы берілетін болды. Бұл — жобаның басты шарты. Байқаудың алғашқы күндері топтың жылдамдығы бәсең болғанымен, олар бағытынан жаңылмады. Үдерісті жеделдету үшін Epoch AI компаниясы 17–18 мамырда офлайн кездесу ұйымдастырды. Ғалымдар алты адамнан топтасып, жасанды интеллектіге қасақана шатастыруы мүмкін есептер ойлап тапты, яғни өздері шығара алатын, алайда боттың «адасуына» себеп болатын тапсырмалар.
Сенбі күні кешке қарай Кен Оно боттың есептеу қуаты қуаты кейбір сұрақтарды тұжырымдауды қиындатып жібергендіктен, ренішін білдірді.
«Мен өз саламдағы мамандар ашық мәселе деп бағалайтын, докторлық диссертация деңгейіндегі сұрақ дайындадым», – дейді ол.
Оно осы есепті o4-mini-ге тапсырды. Алдағы 10 минут ішінде ол боттың нақты уақыт режимінде қалай жұмыс істегенін бақылап отырды. Алғашқы екі минутта бот тақырыпқа қатысты әдебиеттерді саралады. Кейін есептің жеңілдетілген нұсқасын шешіп көргісі келетінін айтты. Бірнеше минуттан соң негізгі күрделі есепке көшті. Тағы бес минут өткен соң, бот батыл да нақты шешімін ұсынды.
« Бұл — тәуекелге толы шешім еді. ЖИ құпия санды өзім есептеп тапқанын, сондықтан сілтеменің қажет емес екенін жазды»,-дейді Оно.
Математиктерді алаңдататын жаңалық
Жексенбі күні таңертең Оно Signal желісінде қалған қатысушыларға ескерту жасады.
«Мұндай деңгейдегі интеллектуалдық қарсылықты күтпедім. Бұған дейінгі модельдерде мұндай терең логикалық ойлау байқалмаған. Бұл — нағыз зерттеушіге тән талдау. Шынымды айтсам, сәл сескеніп қалдым», – дейді ол.
Ақыры қатысушылар жасанды интеллект шеше алмаған 10 тапсырманы тапты. Дегенмен, o4-mini соңғы бір жылда көрсеткен ілгерілеуі оларды таңдай қақтырды. Белгілі математик Кен Оно оны мықты ғылыми серіктеске теңесе, жасанды интеллектіні математика саласына алғашқылардың бірі болып енгізген Лондондағы Математика ғылымдары институтының маманы Ян Хуэй Хэ жоғары бағалады.
«Бұл — жақсы аспиранттың қолынан келетін шаруа. Кейде тіпті одан да асып түседі»,-дейді ол.
Бұдан бөлек, боттың жылдамдығы да ерекшеленді. Адамға бірнеше апта не ай кететін есептерді ол небәрі бірнеше минут ішінде шешіп тастады.
Дегенмен, o4-mini-мен жұмыс істеу тек қызықты ғана емес, алаңдаушылық та тудыра бастады. Оно мен Хэ модельге шамадан тыс сеніп кету қаупін ескертті.
«Индукция арқылы дәлел бар, қарсы келу арқылы дәлел бар, ал енді қорқыта отырып дәлелдеу деген де болады. Егер сен бірдеңені өте сенімді айтсаң, адамдар соған илануы мүмкін. Меніңше, o4-mini дәл осы қорқыныш арқылы сендіруді жақсы меңгерген, айтқанының бәрін аса сенімді жеткізеді», — дейді Хэ.
Болашақ математика саласы қандай болмақ?
Кездесудің соңына қарай ғалымдар математиканың болашағына ой жүгіртті. Олар келесі – бесінші деңгей жайлы сөз қозғады. Бұл – тіпті адамзат математикасы да шеше алмайтын сұрақтар қатары. Егер жасанды интеллект осы межеге жетсе, онда адам-маманның рөлі түбегейлі өзгереді.
Ғалымдардың айтуынша, болашақта зерттеу процесі түбегейлі өзгеруі мүмкін. Енді олар тек сұрақ қойып, жауапты жасанды интеллекттен алатын жүйеге көшетін сыңайлы. Бұл – профессор мен аспирант арасындағы серіктестікке ұқсайды. Осы орайда Кен Оно университеттерге креативті ойлау машығын дамыту бұрынғыдан да маңызды болатынын айтады.
«Жасанды интеллект ешқашан шынайы сана иесі болмайды, ол тек код пен алгоритмнің жиынтығы ғана» деген көзқарас – қате. Бұл сөзім асыра сілтеу емес. Кейбір жағдайларда LLM-модельдер әлемнің ең үздік аспиранттарынан да озық нәтиже көрсетті», – дейді Кен Оно.
Дереккөз: Scientific American