Ознакомьтесь с последними трендами в сфере рекламного антифрода, узнайте о роли AI и Big Data в обнаружении фрод-схем и прогнозах по защите рекламных кампаний.
Рынок интернет-рекламы растет с невероятной скоростью, а вместе с ним — и масштабы мошенничества. Если несколько лет назад компании жаловались на «утечку» небольшого процента рекламного бюджета, то сегодня поддельные клики, фиктивные показы, бот-трафик и прочие виды фрода способны «съесть» существенную часть инвестиций в продвижение. И это касается не только масштабных корпораций с огромными бюджетами — даже малому бизнесу приходится следить за каждым потраченным рублем, чтобы реклама приносила реальную отдачу.
Но мир не стоит на месте, и развитие технологий открывает все больше возможностей для борьбы с мошенниками. Машинное обучение (Machine Learning, ML), искусственный интеллект (AI) и анализ больших данных (Big Data) превращают однотипные фильтры кликов в полноценные интеллектуальные системы, способные выявлять неочевидные паттерны и предсказывать, где именно «просочится» мошеннический трафик. В этой статье мы поговорим о том, почему рекламная сфера так уязвима к фроду, какую роль играет анализ больших данных, какие ML-модели наиболее эффективны для его обнаружения и есть ли шанс у рекламного рынка когда-нибудь полностью обогнать злоумышленников.
В интернете мы буквально дышим рекламой: баннеры, нативные блоки, контекстные объявления, видеоролики и многое другое сопровождают нас на каждом шагу. Для большинства сервисов реклама — это главный источник дохода. Но там, где крутятся деньги, всегда появятся те, кто хочет нажиться незаконным путем.
Вот несколько причин, почему именно рекламная сфера — лакомый кусок для мошенников:
В итоге мошенники используют боты, накрутку трафика, фальшивые установки приложений, клики по баннерам, которые совершаются «лжепользователями», и многое другое. Соответственно, ключевым вопросом для маркетологов и аналитиков становится выявление подобных махинаций, иначе рекламный бюджет тратится впустую, а бизнес не получает нужных клиентов.
В борьбе с мошенничеством критически важен объем информации, с которой мы работаем. Большие данные (Big Data) позволяют хранить и анализировать огромные массивы логов о показах, кликах, поведении пользователей, вплоть до мельчайших подробностей о конкретном сессии. Чем шире охват данных, тем больше шансов выделить подозрительные паттерны.
Типичные источники данных для аналитики фрода в рекламе:
Big Data-технологии (Hadoop, Spark, NoSQL-хранилища) и облачные платформы (например, Google BigQuery, Amazon Web Services) дают возможность обрабатывать эти массивы в масштабах, еще недавно казавшихся фантастикой. Причем все чаще аналитика идет в режиме реального времени или близком к нему. Это позволяет оперативно блокировать подозрительные площадки или IP-адреса, а не ждать, пока мошенники выкачают еще больше средств.
Мошенников интересуют разные виды манипуляций, поэтому и подходы к детекции могут отличаться. Ниже — самые распространенные схемы фрода и методы их выявления при помощи машинного обучения:
Это классика жанра: скрипты и ботнеты генерируют клики по рекламным объявлениям, имитируя «заинтересованную аудиторию». Чтобы распознать такой фрод, ML-модели анализируют:
Ансамблевые модели на основе деревьев решений (Random Forest, LightGBM, XGBoost) часто применяются для подобного анализа: они способны учитывать множество факторов сразу и искать сложные нелинейные закономерности. Например, если у нас есть фича «время между кликами» и «уникальность user-agent», модель может «заметить», что типичный бот всегда кликает с одинаковыми интервалами и редко меняет user-agent.
Бывают ситуации, когда мошенники не кликают на рекламу, но генерируют поддельные показы, чтобы получить оплату за CPM-модель (Cost per Mille — оплата за тысячу показов). Здесь анализируют частоту показов с конкретных устройств, реальную видимость баннера (viewability) и взаимодействие с контентом. Нейронные сети типа CNN могут выявлять паттерны в переходах между страницами, определяя, что пользователь «лишь мельком» заходит на каждую из них или обновляет страницу подозрительно быстро, генерируя фейковые показы.
В мобильной рекламе часто оплачиваются установки и действия внутри приложения. Мошенники эмулируют устройства, создавая ложные инсталлы. Чтобы обнаружить такое мошенничество, анализируют:
Хорошо работают модели кластеризации (к примеру, DBSCAN или Isolation Forest), которые группируют поведение реальных пользователей и выявляют группы «подозрительных» инсталлов. Если 100 устройств загрузили приложение почти одновременно из одного региона, а дальше 90 из них вообще не проявляли никакой активности, это очень весомый сигнал фрода.
Еще один вариант мошенничества — пользователю подсовываются скрытые слои с рекламой, иногда поверх реального контента. Человек думает, что нажимает на кнопку «Далее», а на самом деле делает клик по объявлению. Для распознавания подобных трюков AI-системы анализируют:
Методы компьютерного зрения (CV) могут распознавать «украшенные» сайты, где рекламные блоки спрятаны за другими элементами. А для масштабного анализа подходит сочетание аналитики поведения и статистических аномалий.
Давайте чуть глубже рассмотрим, какие именно модели чаще всего применяются для обнаружения фрода в рекламной сфере и почему они работают.
Random Forest, Gradient Boosting (XGBoost, LightGBM, CatBoost). Их плюс — сравнительная простота обучения и интерпретации, умение эффективно работать даже при наличии «шума» в данных. Для борьбы с фродом такие модели часто обучают на исторических примерах: у нас есть разметка «мошеннический / честный» трафик, и мы показываем модели, какие факторы к этому приводят. Модель обучается выделять ассоциации и аномалии. Алгоритмы ансамблей деревьев практически стали индустриальным стандартом, так как дают высокую точность при разумной скорости работы.
MLP (Multi-Layer Perceptron), RNN (LSTM, GRU), CNN: нейросети хорошо находят нелинейные зависимости в больших объемах данных. Если у вас действительно огромное количество параметров (лог веб-сессий, действия внутри приложения, поведенческие метрики), нейронная сеть способна «выучить» многие скрытые закономерности. RNN-модели, например, отлично подходят для анализа временных рядов: последовательность кликов, переходов или действий внутри приложения. CNN могут использоваться для распознавания более сложных паттернов в пространственных данных, включая изображения или даже пользовательские тепловые карты кликов. Недостаток таких моделей в том, что они требуют большого количества данных и вычислительных ресурсов, а также могут быть менее интерпретируемыми.
DBSCAN, Isolation Forest, One-Class SVM. Когда у нас нет точной разметки данных «фрод / не фрод» или мы хотим найти «неожиданные» шаблоны поведения, применяются методы обучения без учителя. Они группируют похожие объекты в кластеры, а всё, что выпадает за пределы «нормальной» группы, расценивается как аномалия. Это особенно актуально, когда новые виды мошенничества появляются настолько быстро, что нет возможности заранее сделать их разметку.
На практике часто совмещают несколько методов. Например, сперва идет классический сигнатурный анализ по правилам (блокировка известного списка IP-адресов, простейшие хардкод-условия вроде «два клика в секунду — это подозрительно»), потом алгоритмы без учителя ищут аномалии, а уже затем решающая модель (Random Forest или нейронка) делает финальную классификацию. Такой подход называется «многоуровневой защитой» и позволяет ловить максимально широкий спектр фродовых схем.
Чтобы внедрить ML-систему для защиты от мошенничества в рекламе, необходимо пройти несколько важных этапов. Вот примерный пошаговый план:
Помимо самостоятельной разработки ML-моделей, рынок предлагает целый спектр готовых решений — от небольших расширений до комплексных платформ, способных анализировать гигантские массивы данных о трафике.
Эти сервисы могут стать основой или дополнением к вашей собственной экосистеме защиты. Плюс в том, что они аккумулируют данные с миллионов площадок и сталкиваются с самыми разными видами мошенничества, а значит, «учатся» на огромной глобальной выборке.
Это почти философский вопрос, ведь мы имеем дело с постоянной гонкой вооружений. С одной стороны, когда индустрия разрабатывает более совершенные ML-алгоритмы, мошенники стараются адаптироваться и придумывать новые способы обхода. Стоит признать, что «идеальная» защита от фрода в принципе недостижима, потому что злоумышленники тоже используют AI и Big Data. Они анализируют, какие клики чаще всего блокируются, подстраивают поведение ботов и находят бреши в рекламных сетях.
Однако у легальной стороны есть сильный козырь — глобальное сотрудничество и обмен данными между крупными рекламными платформами, антифрод-сервисами и даже государственными структурами. Чем шире база знаний о ботнетах, подпольных схемах и мошеннических доменах, тем проще их вовремя отследить и заблокировать. Крупные игроки, такие как Google и Facebook, обладают огромным массивом данных о поведении пользователей и трафике, и активно инвестируют в ML-разработки, чтобы защищать не только себя, но и своих рекламодателей.
Кроме того, реклама стала настолько сложной, что «дешево» обмануть рынок уже не получается: нужно создавать реалистичные боты, которые умеют передвигать мышь, реагировать на контент, заполнять формы, оставлять комментарии и вообще вести себя как люди. Разработка и поддержка таких систем — дело дорогое и опасное (правоохранительные органы не дремлют). Таким образом, для мошенников каждый новый виток технологий становится сложнее и затратнее. В результате не то чтобы фрод исчезнет совсем, но его масштабы будут существенно сокращаться, а риски — расти.
Другой важный фактор — растущая осведомленность рекламодателей. Если раньше многие компании просто не замечали, что часть бюджета «утекает» на ботов, то сегодня почти все, кто вкладываются в онлайн-продвижение, знают о проблеме фрода и стараются отслеживать метрики. Этот общий рост уровня сознательности и внедрение AI-регулирующих механизмов в экосистему дают повод для оптимизма. Сложно ожидать, что мошенники исчезнут совсем, но поддерживать нелегальные схемы становится все труднее, а значит, им приходится уходить «в тень» и ограничиваться меньшими объемами.
Машинное обучение и большие данные позволили рекламному рынку подняться на новую ступень в борьбе с мошенничеством. То, что раньше приходилось делать вручную — собирать статистику, выявлять аномалии, блокировать «черные» IP — теперь автоматически выполняют ML-модели, анализируя тысячи параметров в доли секунды. Конечно, ни одна система не идеальна: внедрение стоит денег, требует постоянного сопровождения, обновления и людей, которые готовы контролировать этот процесс. Но эффект налицо: рекламодатели могут более уверенно размещать объявления, зная, что их бюджеты защищены от «прожора» бот-сетей.
Главное — понимать, что машинное обучение в сфере антифрода — это не разовая акция и не «волшебная таблетка». Это непрерывный процесс. Модель нужно учить на свежих данных, расширять источники информации, вовремя обновлять правила и алгоритмы. Мошенники не дремлют, но и фрод для них становится сложнее и рискованнее. Коллективные усилия рекламных площадок, инструментов аналитики, государственных органов и энтузиастов кибербезопасности постепенно создают вокруг рынка «кольцо защиты», которое сужает пространство для злоупотреблений.
Итак, каков итог? Сможет ли рынок когда-нибудь полностью обогнать мошенников? Возможно, полностью победить фрод не выйдет. Но сделать его настолько дорогостоящим и неприглядным, что он перестанет быть массовым, — задача более чем реальная. И в этом смысле технологии машинного обучения уже доказали свою эффективность, не оставляя мошенникам простых путей к наживе. Окончательная победа над фродом может и не произойти, но уровень безопасности онлайн-рекламы продолжит расти. А значит, будущее у этой сферы есть — и оно все меньше напоминает дикий запад, каким был еще совсем недавно.