Home Интернет и сеть OpenAI жаңа SimpleQA бағдарламасын таныстырды

OpenAI жаңа SimpleQA бағдарламасын таныстырды

November 8, 2024

525

OpenAI компаниясы жасанды интеллект (ЖИ) деректерінің дәлдігін бағалау үшін жаңа SimpleQA бенчмаркін ұсынды. Алайда тестілеу нәтижелері қазіргі заманғы ірі тілдік модельдерде (LLM) ақпараттың сенімділігіне байінеланысты үлкен проблемалардың барын көрсетті.

Жаңа бенчмарктың мақсаты — тілдік модельдердің нақты әрі сенімді жұмыс істеуін тексеру. Бұл модельдер білім беру, денсаулық сақтау, құқық қорғау және бағдарламалық жасақтама әзірлеу салаларында белсенді қолданылуда. Бірақ тестілеу нәтижелері OpenAI-дың o1 және Anthropic компаниясының Claude-3.5-sonnet секілді озық модельдері төмен көрсеткіштерге ие болғанын көрсетті. Мысалы, o1 моделі ақпарат дәлдігі бойынша – 42,7%, ал Claude-3.5-sonnet моделі -28,9% көрсеткішке ие.

Жасанды интеллект жүйелері жиі өз мүмкіндіктерін асыра бағалап, қате немесе шындыққа сай келмейтін жауаптар береді. Мұндай қателіктер «галлюцинациялар» деп аталады. Бұл әсіресе денсаулық сақтау мен құқық қорғау салаларында өте қауіпті болуы мүмкін. Мысалы, OpenAI технологиясын қолданатын медициналық модельдер пациенттердің сұрақтарына жауап бергенде қателіктер жіберіп, дұрыс ақпарат ұсынбауы мүмкін. Ал полиция қызметкерлері ЖИ жүйелерін қолдана отырып, жазықсыз адамдарды айыптауы немесе қоғамдағы әділетсіздікті күшейтуі ықтимал.

Мамандардың айтуынша, SimpleQA бенчмаркіндегі тестілеу нәтижелері қазіргі тілдік модельдер ақпараттың дәлдігі мен сенімділігін қамтамасыз ете алмайтынын көрсетеді. OpenAI өкілі бұл жағдайды ескере отырып, «кез келген жасанды интеллект жүйесінің нәтижесіне күмәнмен қарау керек және алынған ақпаратты тексеруге дайын болу қажет» деп атап өтті.

Бірқатар сарапшылар қазіргі ЖИ модельдерінің сенімділігін арттыру үшін тек деректер жиынтығын көбейту жеткіліксіз деп санайды. Олар жаңа тәсілдермен жұмыс істейтін модельдер қажет екенін айтады. «Біз тек дұрыс жауаптар беру емес, олардың дұрыстығын бағалайтын, егер сенімді болмаса жауап бермейтін модельдерді әзірлеуіміз керек», — дейді ЖИ зерттеушілері.

SimpleQA бенчмаркіндегі нәтижелер жасанды интеллект саласындағы зерттеулер мен дамуды жалғастыру қажеттілігін тағы да көрсетіп отыр. Бұл модельдердің нақты әрі сенімді ақпарат беруін қамтамасыз ету аса маңызды.

OpenAI жаңа SimpleQA бағдарламасын таныстырды

Последние обзоры

Қазақстан жұмыспен қамту саласын цифрлық жаңғырту стратегиясын таныстырды

Принстон мен Флэтайрон ғалымдары нейрондық желінің жаңа физиканы танудағы шектеулерін анықтады

KMG Digital Hackathon 2026: атыраулық студенттер мұнай-газ саласына арналған жасанды интеллект...

ЕО роботаксилерді трансшекаралық сынақтан өткізу ережесін біріздендіреді

Министрлікте жасанды интеллектіге негізделген жаңа жұмыс мәдениеті қалыптасуда

Последние новости

Қазақстан жұмыспен қамту саласын цифрлық жаңғырту стратегиясын таныстырды

Принстон мен Флэтайрон ғалымдары нейрондық желінің жаңа физиканы танудағы шектеулерін анықтады

KMG Digital Hackathon 2026: атыраулық студенттер мұнай-газ саласына арналған жасанды интеллект...

ЕО роботаксилерді трансшекаралық сынақтан өткізу ережесін біріздендіреді

Министрлікте жасанды интеллектіге негізделген жаңа жұмыс мәдениеті қалыптасуда

The Berlin Apartment: өткен мен қиялдың арасындағы ерекше ойын