Microsoft представила сервис модерации контента на основе AI

Microsoft представила сервис модерации контента на основе AI

Azure AI Content Safety - это новый продукт Microsoft, который должен помогать создавать безопасные и комфортные онлайн-сообщества.

image

Компания Microsoft анонсировала новый сервис Azure AI Content Safety, который призван обеспечить безопасность и комфорт в онлайн-сообществах. Сервис использует нейросетевые модели, обученные распознавать “неприемлемый” контент на изображениях и в текстах. Модели могут работать с текстами на восьми языках, включая русский, и присваивать им оценку по степени нарушения, указывая модераторам, какой контент требует вмешательства.

“Microsoft работает над решениями для борьбы с вредоносным контентом в онлайн-сообществах уже более двух лет. Мы поняли, что существующие системы не учитывают контекст или не могут работать на разных языках”, - сказал представитель Microsoft по электронной почте. “Новые [AI] модели лучше понимают контент и культурный контекст. Они мультиязычны с самого начала … и они предоставляют понятные и обоснованные объяснения, позволяя пользователям понять, почему контент был отмечен или удален”.

На ежегодной конференции Build Сара Берд, руководитель по ответственному AI в Microsoft, рассказала, что Azure AI Content Safety — это продуктовая версия системы безопасности, которая используется для чат-бота в Bing и Copilot - сервиса генерации кода на основе AI от GitHub.

“Теперь мы запускаем его как продукт, которым могут пользоваться сторонние клиенты”, - сказала Берд.

Стоит отметить, что технология за Azure AI Content Safety неоднократно подводила Microsoft. Чат-бот в Bing выдавал ложную информацию о вакцинах и писал оскорбительные тексты от лица Адольфа Гитлера. Кроме того, несколько месяцев назад Microsoft уволила команду по этике и обществу в своем AI-подразделении. Это оставило компанию без специализированной команды, которая бы следила за тем, чтобы принципы AI были тесно связаны с дизайном продуктов.

Azure AI Content Safety защищает от предвзятого, сексистского, расистского, ненавистного, насильственного и саморазрушительного контента, по словам Microsoft. Сервис интегрирован с Azure OpenAI Service - продуктом для корпоративных клиентов, который дает доступ к технологиям OpenAI с дополнительными функциями управления и соответствия стандартам. Но Azure AI Content Safety также может применяться к не-AI системам, таким как онлайн-сообщества и игровые платформы.

Цена сервиса составляет $1.50 за 1000 изображений и $0.75 за 1000 текстовых записей.

Azure AI Content Safety похож на другие сервисы обнаружения токсичности на основе AI, такие как Perspective от Google и Jigsaw. Он является преемником собственного инструмента Microsoft Content Moderator. (Возможно, он был создан на основе приобретения Microsoft компании Two Hat - поставщика модерации контента - в 2021 году.) Эти сервисы, как и Azure AI Content Safety, присваивают оценку от нуля до 100 тому, насколько новые комментарии и изображения похожи на другие, ранее определенные как токсичные.

Но есть повод для скептицизма по отношению к технологии. Помимо проблем с чат-ботом в Bing и увольнениями в Microsoft, исследования показали, что технологии обнаружения токсичности на основе AI все еще сталкиваются с проблемами, включая предвзятость против определенных групп пользователей.

Несколько лет назад команда из Penn State обнаружила, что посты в социальных сетях о людях с инвалидностью могут быть помечены как более негативные или токсичные общедоступными моделями анализа тональности и токсичности. В другом исследовании ученые показали, что старые версии Perspective часто не могли распознать речь ненависти, которая использовала “реабилитированные” сленговые слова типа “queer” или вариации написания типа пропущенных символов.

Проблема распространяется не только на сервисы обнаружения токсичности. На этой неделе отчет New York Times раскрыл, что спустя восемь лет после скандала с тем, что чернокожих людей программное обеспечение для анализа изображений ошибочно определяло как горилл, технологические гиганты все еще боятся повторить ошибку.

Частью причины подобных неудач является то, что аннотаторы - люди, ответственные за добавление меток к тренировочным наборам данных, которые служат примерами для моделей, приносят свои собственные предубеждения. Например, часто есть различия в аннотациях между метками, которые самоидентифицировались как афроамериканцы или члены ЛГБТ-сообщества*, по сравнению с аннотаторами, которые не относятся ни к одной из этих двух групп.

Для борьбы с некоторыми из этих проблем Microsoft позволяет настраивать фильтры в Azure AI Content Safety в зависимости от контекста. Берд объясняет:

Например, фраза “беги через холм и атакуй” используемая в игре, будет считаться средним уровнем насилия и заблокирована, если игровая система настроена на блокировку контента средней степени тяжести. Корректировка для приемлемости средних уровней насилия позволит модели терпимее относиться к фразе.

"У нас есть команда лингвистических и экспертов по справедливости, которые работали над определением руководящих принципов, учитывая культурный, языковой и контекстный аспекты", добавил представитель Microsoft. “Мы затем обучили AI-модели отражать эти руководящие принципы … AI всегда будет делать некоторые ошибки, [однако] для приложений, которые требуют, чтобы ошибки были почти незначительными, мы рекомендуем использовать человека в цикле, чтобы проверять результаты”.

Одним из ранних пользователей Azure AI Content Safety является Koo - блог-платформа из Бангалора, Индия, с пользовательской базой, говорящей на более чем 20 языках. Microsoft говорит, что сотрудничает с Koo, чтобы решить проблемы модерации, такие как анализ мемов и изучение разговорных нюансов в языках, отличных от английского.

*Движение ЛГБТ признано экстремистским и запрещено на территории РФ.


SOC как супергерой: не спит, не ест, следит за безопасностью!

И мы тоже не спим, чтобы держать вас в курсе всех угроз

Подключитесь к экспертному сообществу!