Лето – пора экзаменов, сессий и дипломных работ. А так как информационные технологии в области искусственного интеллекта (ИИ) и нейросетей стремительно развиваются, то не удивительно, что множество студентов прибегает к помощи чат-ботов в процессе создания научных работ. Российские эксперты провели недавно эксперимент, в ходе которого было выявлено 96% работ, написанных с применением ИИ. Какие средства разоблачения нейросетей существуют на рынке, как часто их приходится совершенствовать и какой ИИ-контент распознать сложнее?
При проверке работ преподаватели обращали внимание на стилистические и орфографические особенности текста. Отсутствие опечаток, высокая грамотность и множество повторов указывают на причастность нейросети к работе. Кроме того, сгенерированные тексты содержат в себе грубые фактические и логические ошибки. Обычно чат-боты в ответ на заданный вопрос предоставляют компиляцию из чужих текстов, поэтому в материалах отсутствуют оригинальные авторские суждения и выводы. Руководитель направления Digital в КРОС Иван Минаев считает, что в работе с ИИ многое зависит от брифа: чем четче он будет составлен, тем лучше будет итоговый результат.
Для распознания сгенерированного текста на начальных этапах можно использовать антиплагиат-сервисы, которые нацелены на выявление неоригинальной информации в тексте. Нейросети берут за основу написанные ранее тексты, соответственно, оригинальность сгенерированного материала крайне низка. Аналитик практики «Стратегия трансформации» компании «Рексофт Консалтинг» Дмитрий Груднев (Россия) отметил, что ввиду масштабного бума генеративного ИИ на западном рынке появилось множество приложений, позиционирующих себя как средства распознавания искусственно сгенерированных текстов, в их числе: OpenAI Text Classifier (от создателей ChatGPT), GPTZero, Content at Scale, Writer, Crossplag, Copyleaks и другие. Чаще всего подобные сервисы нацелены на определенную аудиторию: например, Crossplag и GPTZero — на образовательных и научных работников, а Writer — на SEO-специалистов. Отметим, что практически все эти приложения активно используют сегодня и казахстанские студенты.
Принцип работы распознавателей сгенерированного контента схож. Например, Crossplag после анализа текстового отрывка предоставляет общую оценку подлинности контента. В сервисе есть график в виде шкалы термометра, который показывает, насколько много в материале сгенерированного текста.
Большинство экспертов считает, что моделей для генерации уже много, и постоянно создаются новые. Поэтому детектор ИИ-контента, обученный под конкретные виды генеративных моделей, будет плохо справляться с другими. Сама область достаточно молодая, методы и подходы в ней пока только развиваются.
Тексты от нейросетей часто используются при написании материалов на простые и недвусмысленные темы, в области которых не нужно обладать определенными знаниями. Например, ИИ часто создают описания для продукции, сводки новостей или посты в социальных сетях. Чтобы написать такой контент, не требуется глубоко вникать в тему, поэтому ИИ справляется неплохо.
Эксперт по маркетингу и продажам в IT и кандидат экономических наук Лилия Алеева (Россия) считает, что уже на данном этапе ИИ-технологии добились значительных успехов в сфере науки. Кроме того, искусственный интеллект может помочь исследователям в анализе данных, выявлении закономерностей и генерации новых гипотез.
— Хотя научные статьи, созданные ИИ, возможно, еще не стали обычным явлением, они могут стать более распространенными по мере развития ИИ, — отметила эксперт.