ИИ в рекламе: как машинное обучение меняет борьбу с мошенниками

ИИ в рекламе: как машинное обучение меняет борьбу с мошенниками

Ознакомьтесь с последними трендами в сфере рекламного антифрода, узнайте о роли AI и Big Data в обнаружении фрод-схем и прогнозах по защите рекламных кампаний.

image

Рынок интернет-рекламы растет с невероятной скоростью, а вместе с ним — и масштабы мошенничества. Если несколько лет назад компании жаловались на «утечку» небольшого процента рекламного бюджета, то сегодня поддельные клики, фиктивные показы, бот-трафик и прочие виды фрода способны «съесть» существенную часть инвестиций в продвижение. И это касается не только масштабных корпораций с огромными бюджетами — даже малому бизнесу приходится следить за каждым потраченным рублем, чтобы реклама приносила реальную отдачу.

Но мир не стоит на месте, и развитие технологий открывает все больше возможностей для борьбы с мошенниками. Машинное обучение (Machine Learning, ML), искусственный интеллект (AI) и анализ больших данных (Big Data) превращают однотипные фильтры кликов в полноценные интеллектуальные системы, способные выявлять неочевидные паттерны и предсказывать, где именно «просочится» мошеннический трафик. В этой статье мы поговорим о том, почему рекламная сфера так уязвима к фроду, какую роль играет анализ больших данных, какие ML-модели наиболее эффективны для его обнаружения и есть ли шанс у рекламного рынка когда-нибудь полностью обогнать злоумышленников.

Почему рекламная сфера так уязвима к фроду

В интернете мы буквально дышим рекламой: баннеры, нативные блоки, контекстные объявления, видеоролики и многое другое сопровождают нас на каждом шагу. Для большинства сервисов реклама — это главный источник дохода. Но там, где крутятся деньги, всегда появятся те, кто хочет нажиться незаконным путем.

Вот несколько причин, почему именно рекламная сфера — лакомый кусок для мошенников:

  • Огромный оборот средств: глобальный бюджет на интернет-рекламу достигает сотен миллиардов долларов в год. При таких суммах даже небольшой процент мошеннических действий может приносить злоумышленникам колоссальную прибыль.
  • Децентрализация каналов: реклама показывается на тысячах сайтов и в десятках рекламных сетей. Отследить все каналы вручную почти нереально, а единой «централизованной полиции» для рекламного рынка не существует.
  • Автоматизация процессов: программатик-платформы и RTB-аукционы (Real Time Bidding) работают по принципу мгновенных ставок, а значит, проверять каждый показ или клик в ручном режиме невозможно. На этом «коротком замыкании» нередко и паразитируют фродеры.
  • Сложность технологий: современные рекламные платформы строятся на множестве взаимосвязанных инструментов: ретаргетинг, поведенческий таргетинг, динамические креативы. Чем сложнее технология, тем больше в ней уязвимостей, которые можно использовать.

В итоге мошенники используют боты, накрутку трафика, фальшивые установки приложений, клики по баннерам, которые совершаются «лжепользователями», и многое другое. Соответственно, ключевым вопросом для маркетологов и аналитиков становится выявление подобных махинаций, иначе рекламный бюджет тратится впустую, а бизнес не получает нужных клиентов.

Роль больших данных (Big Data) в выявлении фрода

В борьбе с мошенничеством критически важен объем информации, с которой мы работаем. Большие данные (Big Data) позволяют хранить и анализировать огромные массивы логов о показах, кликах, поведении пользователей, вплоть до мельчайших подробностей о конкретном сессии. Чем шире охват данных, тем больше шансов выделить подозрительные паттерны.

Типичные источники данных для аналитики фрода в рекламе:

  • Логи показов и кликов: время, формат объявления, площадка, IP-адрес, user-agent и т.д. Признаки аномального поведения (например, слишком высокая частота кликов с одного IP за короткий промежуток) сразу бросаются в глаза, если вести сквозную статистику по всем сегментам трафика.
  • CRM-система и постклик-данные: позволяет проследить, превратился ли клик в реальную конверсию (покупку, заявку, регистрацию) или нет. Если реклама генерирует большое число кликов, но ноль продаж, стоит задуматься о качестве такого трафика.
  • Поведенческие метрики: время на сайте, глубина просмотра, последовательность переходов — все это важные сигналы. Настоящий пользователь обычно хотя бы несколько секунд остается на странице и совершает осмысленные действия, тогда как боты часто «кликают и исчезают».
  • Данные из внешних источников: базы «черных» IP-адресов, сведения о ранее обнаруженных ботнетах, списки подозрительных сайтов и многое другое. Многие сервисы (например, Google Safe Browsing) предоставляют подобную информацию, которая может помочь быстро отсеять откровенно мошеннические площадки.

Big Data-технологии (Hadoop, Spark, NoSQL-хранилища) и облачные платформы (например, Google BigQuery, Amazon Web Services) дают возможность обрабатывать эти массивы в масштабах, еще недавно казавшихся фантастикой. Причем все чаще аналитика идет в режиме реального времени или близком к нему. Это позволяет оперативно блокировать подозрительные площадки или IP-адреса, а не ждать, пока мошенники выкачают еще больше средств.

Ключевые схемы мошенничества и как ML помогает их обнаруживать

Мошенников интересуют разные виды манипуляций, поэтому и подходы к детекции могут отличаться. Ниже — самые распространенные схемы фрода и методы их выявления при помощи машинного обучения:

Поддельные клики и бот-трафик

Это классика жанра: скрипты и ботнеты генерируют клики по рекламным объявлениям, имитируя «заинтересованную аудиторию». Чтобы распознать такой фрод, ML-модели анализируют:

  • Частоту кликов: подозрительно высокий CTR (Click-Through Rate) при отсутствии конверсий указывает на бота.
  • Поведенческие паттерны: время активной сессии, скорость прокрутки страницы и движения мышью.
  • Географические несоответствия: реклама нацелена, скажем, на Европу, а клики приходят из необычных регионов или из VPN-сервисов.

Ансамблевые модели на основе деревьев решений (Random Forest, LightGBM, XGBoost) часто применяются для подобного анализа: они способны учитывать множество факторов сразу и искать сложные нелинейные закономерности. Например, если у нас есть фича «время между кликами» и «уникальность user-agent», модель может «заметить», что типичный бот всегда кликает с одинаковыми интервалами и редко меняет user-agent.

Впечатления (impressions) от «бесполезных» пользователей

Бывают ситуации, когда мошенники не кликают на рекламу, но генерируют поддельные показы, чтобы получить оплату за CPM-модель (Cost per Mille — оплата за тысячу показов). Здесь анализируют частоту показов с конкретных устройств, реальную видимость баннера (viewability) и взаимодействие с контентом. Нейронные сети типа CNN могут выявлять паттерны в переходах между страницами, определяя, что пользователь «лишь мельком» заходит на каждую из них или обновляет страницу подозрительно быстро, генерируя фейковые показы.

Установки приложений и действия внутри них

В мобильной рекламе часто оплачиваются установки и действия внутри приложения. Мошенники эмулируют устройства, создавая ложные инсталлы. Чтобы обнаружить такое мошенничество, анализируют:

  • Поведение внутри приложения: время, проведенное в нем, какие экраны открываются, реальные ли действия совершаются.
  • Источник трафика: можно ли проследить реальный рекламный переход до магазина приложений (App Store, Google Play) или это «пустая» установка.
  • Устройства: одинаковые модель, версия ОС и серийные номера, повторяющиеся IP-адреса и прочее.

Хорошо работают модели кластеризации (к примеру, DBSCAN или Isolation Forest), которые группируют поведение реальных пользователей и выявляют группы «подозрительных» инсталлов. Если 100 устройств загрузили приложение почти одновременно из одного региона, а дальше 90 из них вообще не проявляли никакой активности, это очень весомый сигнал фрода.

Кликджекинг и скрытые слои

Еще один вариант мошенничества — пользователю подсовываются скрытые слои с рекламой, иногда поверх реального контента. Человек думает, что нажимает на кнопку «Далее», а на самом деле делает клик по объявлению. Для распознавания подобных трюков AI-системы анализируют:

  • Размер и положение рекламного блока на странице (можно ли его реально увидеть).
  • Координаты клика и движение курсора мыши — действительно ли пользователь навел курсор на баннер или «промахнулся» по воле мошенников.
  • Логические несоответствия: если CTR необычно высокий, а глубина взаимодействия с сайтом — нулевая, это явное отклонение от нормы.

Методы компьютерного зрения (CV) могут распознавать «украшенные» сайты, где рекламные блоки спрятаны за другими элементами. А для масштабного анализа подходит сочетание аналитики поведения и статистических аномалий.

Популярные ML-модели и их особенности

Давайте чуть глубже рассмотрим, какие именно модели чаще всего применяются для обнаружения фрода в рекламной сфере и почему они работают.

Модели на основе деревьев решений

Random Forest, Gradient Boosting (XGBoost, LightGBM, CatBoost). Их плюс — сравнительная простота обучения и интерпретации, умение эффективно работать даже при наличии «шума» в данных. Для борьбы с фродом такие модели часто обучают на исторических примерах: у нас есть разметка «мошеннический / честный» трафик, и мы показываем модели, какие факторы к этому приводят. Модель обучается выделять ассоциации и аномалии. Алгоритмы ансамблей деревьев практически стали индустриальным стандартом, так как дают высокую точность при разумной скорости работы.

Нейронные сети и глубокое обучение

MLP (Multi-Layer Perceptron), RNN (LSTM, GRU), CNN: нейросети хорошо находят нелинейные зависимости в больших объемах данных. Если у вас действительно огромное количество параметров (лог веб-сессий, действия внутри приложения, поведенческие метрики), нейронная сеть способна «выучить» многие скрытые закономерности. RNN-модели, например, отлично подходят для анализа временных рядов: последовательность кликов, переходов или действий внутри приложения. CNN могут использоваться для распознавания более сложных паттернов в пространственных данных, включая изображения или даже пользовательские тепловые карты кликов. Недостаток таких моделей в том, что они требуют большого количества данных и вычислительных ресурсов, а также могут быть менее интерпретируемыми.

Алгоритмы кластеризации и обучения без учителя

DBSCAN, Isolation Forest, One-Class SVM. Когда у нас нет точной разметки данных «фрод / не фрод» или мы хотим найти «неожиданные» шаблоны поведения, применяются методы обучения без учителя. Они группируют похожие объекты в кластеры, а всё, что выпадает за пределы «нормальной» группы, расценивается как аномалия. Это особенно актуально, когда новые виды мошенничества появляются настолько быстро, что нет возможности заранее сделать их разметку.

Гибридные подходы и ансамбли

На практике часто совмещают несколько методов. Например, сперва идет классический сигнатурный анализ по правилам (блокировка известного списка IP-адресов, простейшие хардкод-условия вроде «два клика в секунду — это подозрительно»), потом алгоритмы без учителя ищут аномалии, а уже затем решающая модель (Random Forest или нейронка) делает финальную классификацию. Такой подход называется «многоуровневой защитой» и позволяет ловить максимально широкий спектр фродовых схем.

Практические шаги для построения системы защиты от фрода

Чтобы внедрить ML-систему для защиты от мошенничества в рекламе, необходимо пройти несколько важных этапов. Вот примерный пошаговый план:

  1. Сбор и консолидация данных: агрегируйте логи с рекламных платформ, аналитических систем (Google Analytics, Яндекс.Метрика и т.д.), CRM и бэкэнда вашего сервиса. Важно добиться единого формата: если один источник отдает время в UTC, а другой — в локальном часовом поясе, нужно все привести к единому виду. Использование ETL-инструментов (типа Apache Airflow, Luigi или NiFi) помогает автоматизировать эту рутину.
  2. Очистка и нормализация: фильтруйте дубликаты, пропущенные значения, проверяйте корректность полей (правильный ли IP-адрес, не нарушена ли encoding-разметка). Следует также подумать о способах борьбы с «грязными» пользовательскими данными: боты могут отправлять фейковые user-agent, cookie и т.д.
  3. Этап разведывательного анализа (EDA): проведите первичную аналитику для выявления основных закономерностей. Возможно, вы обнаружите, что большая часть подозрительных кликов приходит из нескольких IP-пулов или с устройств с редкими user-agent. В этом этапе особенно полезны визуализации и сводные отчеты.
  4. Выбор модели и подготовка фич: на основе полученных инсайтов выделите набор признаков (features), наиболее важных для детекции фрода (геолокация, поведенческие метрики, время между кликами и т.д.). Определитесь, какая модель вам подходит: классические деревья, нейронные сети, комбинация подходов. Обратите внимание на баланс классов: обычно честного трафика намного больше, чем мошеннического.
  5. Обучение и валидация: разделите выборку на тренировочную и тестовую, при необходимости используйте кросс-валидацию. Оцените ключевые метрики: Precision, Recall, F1-score, ROC AUC и др. Возможно, придется применять методы борьбы с дисбалансом классов (oversampling мошеннических примеров, undersampling честных или более продвинутые техники вроде SMOTE).
  6. Развертывание в production: когда модель показывает удовлетворительные результаты, нужно интегрировать ее в реальную систему: писать REST API или микросервис, способный принимать данные о кликах и выдавать вердикт (подозрительный / нормальный). Для этого часто используют Docker, Kubernetes, инструменты CI/CD (Jenkins, GitLab CI) и решения типа MLflow для отслеживания версий моделей.
  7. Мониторинг и переобучение: на этом всё не заканчивается. Мошенники эволюционируют, значит, и модель должна регулярно получать апдейты. Отслеживайте метрики в реальном времени, реагируйте на резкие падения точности, обновляйте выборку и повторяйте процесс обучения. Это бесконечный цикл, который не дает мошенникам чувствовать себя в безопасности.

Инструменты и сервисы для борьбы с рекламным мошенничеством

Помимо самостоятельной разработки ML-моделей, рынок предлагает целый спектр готовых решений — от небольших расширений до комплексных платформ, способных анализировать гигантские массивы данных о трафике.

  • Human Security (ранее White Ops): специализируется на выявлении бот-трафика. Использует собственную технологию детекции аномалий и machine learning для защиты от фрода.
  • DoubleVerify: платформа для измерения viewability, брендовой безопасности и обнаружения мошенничества. Интегрируется со многими крупными рекламными сетями.
  • Integral Ad Science: анализирует качество трафика, выявляет рискованную среду размещения (например, adult-сайты) и использует ML-модели для детекции фрода.
  • Moat (Oracle Data Cloud): предоставляет метрики по видимости рекламы, верификации показов и кликов. Помогает отсечь некачественный трафик.

Эти сервисы могут стать основой или дополнением к вашей собственной экосистеме защиты. Плюс в том, что они аккумулируют данные с миллионов площадок и сталкиваются с самыми разными видами мошенничества, а значит, «учатся» на огромной глобальной выборке.

Сможет ли рынок обогнать мошенников

Это почти философский вопрос, ведь мы имеем дело с постоянной гонкой вооружений. С одной стороны, когда индустрия разрабатывает более совершенные ML-алгоритмы, мошенники стараются адаптироваться и придумывать новые способы обхода. Стоит признать, что «идеальная» защита от фрода в принципе недостижима, потому что злоумышленники тоже используют AI и Big Data. Они анализируют, какие клики чаще всего блокируются, подстраивают поведение ботов и находят бреши в рекламных сетях.

Однако у легальной стороны есть сильный козырь — глобальное сотрудничество и обмен данными между крупными рекламными платформами, антифрод-сервисами и даже государственными структурами. Чем шире база знаний о ботнетах, подпольных схемах и мошеннических доменах, тем проще их вовремя отследить и заблокировать. Крупные игроки, такие как Google и Facebook, обладают огромным массивом данных о поведении пользователей и трафике, и активно инвестируют в ML-разработки, чтобы защищать не только себя, но и своих рекламодателей.

Кроме того, реклама стала настолько сложной, что «дешево» обмануть рынок уже не получается: нужно создавать реалистичные боты, которые умеют передвигать мышь, реагировать на контент, заполнять формы, оставлять комментарии и вообще вести себя как люди. Разработка и поддержка таких систем — дело дорогое и опасное (правоохранительные органы не дремлют). Таким образом, для мошенников каждый новый виток технологий становится сложнее и затратнее. В результате не то чтобы фрод исчезнет совсем, но его масштабы будут существенно сокращаться, а риски — расти.

Другой важный фактор — растущая осведомленность рекламодателей. Если раньше многие компании просто не замечали, что часть бюджета «утекает» на ботов, то сегодня почти все, кто вкладываются в онлайн-продвижение, знают о проблеме фрода и стараются отслеживать метрики. Этот общий рост уровня сознательности и внедрение AI-регулирующих механизмов в экосистему дают повод для оптимизма. Сложно ожидать, что мошенники исчезнут совсем, но поддерживать нелегальные схемы становится все труднее, а значит, им приходится уходить «в тень» и ограничиваться меньшими объемами.

Заключение: светлое (или не очень) будущее борьбы с фродом

Машинное обучение и большие данные позволили рекламному рынку подняться на новую ступень в борьбе с мошенничеством. То, что раньше приходилось делать вручную — собирать статистику, выявлять аномалии, блокировать «черные» IP — теперь автоматически выполняют ML-модели, анализируя тысячи параметров в доли секунды. Конечно, ни одна система не идеальна: внедрение стоит денег, требует постоянного сопровождения, обновления и людей, которые готовы контролировать этот процесс. Но эффект налицо: рекламодатели могут более уверенно размещать объявления, зная, что их бюджеты защищены от «прожора» бот-сетей.

Главное — понимать, что машинное обучение в сфере антифрода — это не разовая акция и не «волшебная таблетка». Это непрерывный процесс. Модель нужно учить на свежих данных, расширять источники информации, вовремя обновлять правила и алгоритмы. Мошенники не дремлют, но и фрод для них становится сложнее и рискованнее. Коллективные усилия рекламных площадок, инструментов аналитики, государственных органов и энтузиастов кибербезопасности постепенно создают вокруг рынка «кольцо защиты», которое сужает пространство для злоупотреблений.

Итак, каков итог? Сможет ли рынок когда-нибудь полностью обогнать мошенников? Возможно, полностью победить фрод не выйдет. Но сделать его настолько дорогостоящим и неприглядным, что он перестанет быть массовым, — задача более чем реальная. И в этом смысле технологии машинного обучения уже доказали свою эффективность, не оставляя мошенникам простых путей к наживе. Окончательная победа над фродом может и не произойти, но уровень безопасности онлайн-рекламы продолжит расти. А значит, будущее у этой сферы есть — и оно все меньше напоминает дикий запад, каким был еще совсем недавно.


Анализ трафика 2025: какие угрозы уже на пороге?

На вебинаре расскажем, как современные технологии помогают экономить ресурсы и усиливают защиту компании.

Реклама. АО «Позитив Текнолоджиз», ИНН 7718668887