Руководство LongEval: грандиозный прорыв в области оценки текстов ChatGPT

Руководство LongEval: грандиозный прорыв в области оценки текстов ChatGPT

Новый инструмент оценки LongEval вводит общие стандарты для проверки достоверности ИИ-текстов.

image

В последнее время общественность остро реагирует на выпуск генеративных нейросетей, таких как ChatGPT . Многие считают эту технологию большим шагом вперед в области коммуникации, другие предсказывают ее пагубные последствия.

Однако сгенерированный текст известен своими недоработками, и человеческая оценка остается золотым стандартом для гарантирования точности, особенно при генерации длинных резюме (суммирование итогов и тезисов) сложных текстов. Но в то же время сейчас не существует принятых стандартов для человеческой оценки длинных резюме, что вызывает сомнение даже в «золотом стандарте».

Чтобы исправить эту ситуацию, команда компьютерных ученых из США представила набор руководящих принципов под названием « LongEval ». Принципы были представлены на Европейском отделении Ассоциации вычислительной лингвистики, где они были награждены премией за лучшую статью.

По словам экспертов, в настоящее время нет надежного способа оценить длинные сгенерированные тексты без участия людей, и даже существующие протоколы человеческой оценки являются дорогостоящими, требуют много времени и сильно варьируются.

В процессе исследования команда изучила 162 научные работы о длинных резюме. Анализ показал, что 73% работ вообще не проходили человеческую оценку, а к остальным применялись различные методики оценки.

В целях продвижения эффективных, воспроизводимых и стандартизированных протоколов для человеческой оценки сгенерированных резюме, авторы исследования разработали список из трех всеобъемлющих рекомендаций, которые охватывают то, как и что должен читать оценщик, чтобы судить о надежности резюме.

Руководство LongEval включает в себя следующие рекомендации:

  • Оценивать достоверность резюме по отдельным фрагментам (предложениям или клаузам), а не по всему тексту целиком. Это позволяет повысить согласованность оценок между разными экспертами и уменьшить нагрузку на них;
  • Использовать автоматическое выравнивание между фрагментами резюме и источника, чтобы упростить поиск соответствующей информации в длинных документах. Это также помогает избежать ошибок, связанных с перефразированием или обобщением информации в резюме;
  • Выбирать подходящий набор фрагментов для оценки в зависимости от цели исследования. Например, можно оценивать все фрагменты, случайную подвыборку или только те, которые содержат ключевую информацию.

Исследователи применили LongEval к двум наборам данных по резюмированию длинных текстов в разных областях ( SQuALITY и PubMed ) и показали, что более тонкая оценка снижает разброс всех оценок достоверности текста. Эксперты также показали, что оценки из частичной аннотации высоко коррелируют с оценками из полной аннотации.

  • SQuALITY — это набор данных, состоящий из 5 резюме для каждого из 100 коротких рассказов из общественного достояния. Первое резюме дает обзор всего рассказа, а остальные четыре отвечают на конкретные вопросы о сюжете, персонажах, теме и стиле.
  • PubMed — это набор данных, состоящий из 10 тысяч научных статей из медицинской области и их резюме. Резюме имеют длину от 150 до 300 слов и содержат основные результаты и выводы статей.

Специалисты обещают, что LongEval позволит людям «точно и быстро оценивать алгоритмы генерации длинного текста». Эксперты выпустили LongEval в виде библиотеки Python , и сообщество сможет использовать и развивать LongEval в своих исследованиях.

Alert! Зафиксирована утечка экспертных знаний!

Собираем и анализируем опыт профессионалов ИБ

Подключитесь к потоку конфиденциальной информации!