Новый инструмент оценки LongEval вводит общие стандарты для проверки достоверности ИИ-текстов.
В последнее время общественность остро реагирует на выпуск генеративных нейросетей, таких как ChatGPT . Многие считают эту технологию большим шагом вперед в области коммуникации, другие предсказывают ее пагубные последствия.
Однако сгенерированный текст известен своими недоработками, и человеческая оценка остается золотым стандартом для гарантирования точности, особенно при генерации длинных резюме (суммирование итогов и тезисов) сложных текстов. Но в то же время сейчас не существует принятых стандартов для человеческой оценки длинных резюме, что вызывает сомнение даже в «золотом стандарте».
Чтобы исправить эту ситуацию, команда компьютерных ученых из США представила набор руководящих принципов под названием « LongEval ». Принципы были представлены на Европейском отделении Ассоциации вычислительной лингвистики, где они были награждены премией за лучшую статью.
По словам экспертов, в настоящее время нет надежного способа оценить длинные сгенерированные тексты без участия людей, и даже существующие протоколы человеческой оценки являются дорогостоящими, требуют много времени и сильно варьируются.
В процессе исследования команда изучила 162 научные работы о длинных резюме. Анализ показал, что 73% работ вообще не проходили человеческую оценку, а к остальным применялись различные методики оценки.
В целях продвижения эффективных, воспроизводимых и стандартизированных протоколов для человеческой оценки сгенерированных резюме, авторы исследования разработали список из трех всеобъемлющих рекомендаций, которые охватывают то, как и что должен читать оценщик, чтобы судить о надежности резюме.
Руководство LongEval включает в себя следующие рекомендации:
Исследователи применили LongEval к двум наборам данных по резюмированию длинных текстов в разных областях ( SQuALITY и PubMed ) и показали, что более тонкая оценка снижает разброс всех оценок достоверности текста. Эксперты также показали, что оценки из частичной аннотации высоко коррелируют с оценками из полной аннотации.
Специалисты обещают, что LongEval позволит людям «точно и быстро оценивать алгоритмы генерации длинного текста». Эксперты выпустили LongEval в виде библиотеки Python , и сообщество сможет использовать и развивать LongEval в своих исследованиях.
Собираем и анализируем опыт профессионалов ИБ