OpenAI компаниясы жасанды интеллект (ЖИ) деректерінің дәлдігін бағалау үшін жаңа SimpleQA бенчмаркін ұсынды. Алайда тестілеу нәтижелері қазіргі заманғы ірі тілдік модельдерде (LLM) ақпараттың сенімділігіне байінеланысты үлкен проблемалардың барын көрсетті.
Жаңа бенчмарктың мақсаты — тілдік модельдердің нақты әрі сенімді жұмыс істеуін тексеру. Бұл модельдер білім беру, денсаулық сақтау, құқық қорғау және бағдарламалық жасақтама әзірлеу салаларында белсенді қолданылуда. Бірақ тестілеу нәтижелері OpenAI-дың o1 және Anthropic компаниясының Claude-3.5-sonnet секілді озық модельдері төмен көрсеткіштерге ие болғанын көрсетті. Мысалы, o1 моделі ақпарат дәлдігі бойынша – 42,7%, ал Claude-3.5-sonnet моделі -28,9% көрсеткішке ие.
Жасанды интеллект жүйелері жиі өз мүмкіндіктерін асыра бағалап, қате немесе шындыққа сай келмейтін жауаптар береді. Мұндай қателіктер «галлюцинациялар» деп аталады. Бұл әсіресе денсаулық сақтау мен құқық қорғау салаларында өте қауіпті болуы мүмкін. Мысалы, OpenAI технологиясын қолданатын медициналық модельдер пациенттердің сұрақтарына жауап бергенде қателіктер жіберіп, дұрыс ақпарат ұсынбауы мүмкін. Ал полиция қызметкерлері ЖИ жүйелерін қолдана отырып, жазықсыз адамдарды айыптауы немесе қоғамдағы әділетсіздікті күшейтуі ықтимал.
Мамандардың айтуынша, SimpleQA бенчмаркіндегі тестілеу нәтижелері қазіргі тілдік модельдер ақпараттың дәлдігі мен сенімділігін қамтамасыз ете алмайтынын көрсетеді. OpenAI өкілі бұл жағдайды ескере отырып, «кез келген жасанды интеллект жүйесінің нәтижесіне күмәнмен қарау керек және алынған ақпаратты тексеруге дайын болу қажет» деп атап өтті.
Бірқатар сарапшылар қазіргі ЖИ модельдерінің сенімділігін арттыру үшін тек деректер жиынтығын көбейту жеткіліксіз деп санайды. Олар жаңа тәсілдермен жұмыс істейтін модельдер қажет екенін айтады. «Біз тек дұрыс жауаптар беру емес, олардың дұрыстығын бағалайтын, егер сенімді болмаса жауап бермейтін модельдерді әзірлеуіміз керек», — дейді ЖИ зерттеушілері.
SimpleQA бенчмаркіндегі нәтижелер жасанды интеллект саласындағы зерттеулер мен дамуды жалғастыру қажеттілігін тағы да көрсетіп отыр. Бұл модельдердің нақты әрі сенімді ақпарат беруін қамтамасыз ету аса маңызды.