Проблемы фильтрации онлайн-трафика и защиты от фрода появились одновременно с широким распространением интернета и уже давно вышли за рамки стандартных и привычных решений для онлайн-компаний. Значительную роль в предотвращении фрода в настоящий момент играет репутация устройства и связанные с устройством аномалии. В данном материале рассмотрены одни из самых эффективных способов решения данных проблем, а также представлено наше видение существующих трендов в сфере использования Device ID.
Основной целью вычисления или определения Device ID была и остается аутентификация устройства для различных прикладных задач. Например, точное определение Device ID позволяет предотвратить повторные заявки с устройства с признаками риска мошенничества. Device ID для устройства является достаточно эффективным рабочим инструментом как минимум по той причине, что смена настоящего Device ID равносильна покупке нового устройства, что создает дополнительные финансовые и операционные барьеры для мошенников или токсичных пользователей.
Казалось бы, точное определение Device ID является основополагающим инструментом в борьбе с риском мошенничества и должно быть достаточно простым решением, но есть ряд серьезных технических аспектов, которые необходимо учитывать:
- Точность определения Device ID. Эта проблема связана с тем, что практически на любом устройстве можно поменять заводские настройки и детали по аутентификации устройства или параметры, участвующие в определении или вычислении Device ID;
- Приватность в онлайн сфере. Этот аспект связан тем, что для дальнейшего устойчивого развития цифровизации крупнейшим технологическим компаниям необходимо решение в области сохранения приватности пользователей. На данный момент практически полностью удалось решить так называемую проблему “пассивной приватности” - для этого был предпринят ряд мер, таких как удаление MAC-адресов роутеров из публичной части, ограничение на синхронизацию файлов cookie (third-party cookies), Google Privacy Initiative (https://privacysandbox.com/), Apple Privacy Requirements, FireFox third-party cookies initiative и ряд других. Очевидно, что развивать новые цифровые технологии по риск-менеджменту необходимо с учетом тенденций развития требований по приватности.
Команда JuicyScore считает, что для того, чтобы решить данные проблемы и успешно справиться с современными вызовами, необходимо постоянно развивать технологии и в ближайшем будущем менять те подходы, которые существовали на протяжении последних 15-20 лет, поскольку они постепенно утрачивают свою актуальность. Вот уже 6 лет (с 2016г.) мы активно работаем над технологией вероятностного определения Device ID - над технологией Device ID 3-го поколения в рамках текущих и перспективных требований по приватности
1st Generation Web ID/ Device ID
ID на основе данных виртуального пользователя
Цифровой отпечаток первого поколения не является цифровым отпечатком в современном понимании. По сути он построен не столько на характеристиках устройства, а в большей степени на тех данных, которые пользователь оставляет в сети Интернет - наиболее часто встречаются email или номер мобильного телефона, либо в виде обратимого хеша, а в некоторых случаях даже в открытом виде.
Основными недостатками такого фингерпринтинга являлись:
- Риск компрометации реальных данных пользователя;
- Простота манипуляции - пользователь может создать и оперировать с бесконечно большим количеством разных адресов электронной почты и значимым количеством различных телефонных номеров в различных комбинациях. К тому же, подделать несколько полей персональных данных не такая уж сложная задача для недобросовестного клиента онлайн-бизнеса;
- Данное поколение Device ID было создано без учета современных требований по приватности.
Все это послужило предпосылкой для создания иных технологий в сети Интернет.
2nd Generation Web ID/ Device ID. Статические ID устройства
В рамках данного поколения ID, которое начало активно развиваться в последние 10-15 лет, можно выделить - ID связанные со статическими данными устройства (MAC-адрес, EMEI, браузер-хеш (browser hash - часто называют Device id), персистент-сессии и тд). Давайте более детально рассмотрим ряд из них:
Browser Hash
Эта технология определения цифрового отпечатка основана на анализе статических компонент браузеров, таких как модель, версии браузера и операционной системы, системный язык, разрешение экрана, часовой пояс, показания часов с точностью до миллисекунды и список стандартных шрифтов, установленных на устройстве. Большая часть методов доступна для всех режимов работы браузеров, так как они необходимы для нормальной работы самих браузеров. Среди различных направлений данного метода можно выделить - классический device fingerprinting, canvas fingerprinting, webgl fingerprinting, аудио fingerprinting и ряд других.
Основной недостаток - это неустойчивость, поскольку хеш-маски браузера меняются при манипуляции небольшим количеством параметров, указанных выше, а также в случае смены браузера.
Второй важный недостаток - это низкая точность, поскольку сам по себе browser hash не позволяет аутентифицировать устройство с высокой долей вероятности.
Persistent sessions
Одной из первых технологий определения устройства была технология Evercookie или Persistent cookie. Суть ее заключается в том, что такой вид cookies не просто хранит информацию в одном хранилище, таком как http cookie, а использует все доступные хранилища современных браузеров — современный HTML 5 стандарт, Session Storage, Local Storage и другие. Также используется ETag header — это http заголовок, очень короткий, однако в нем можно закодировать какую-либо информацию, и, если установлен Java, то используется Java presistence API. В дополнение к этому используется механизм PNG Cookies (кодирование части информации в виде небольшего PNG-файла) и считывание ее через Canvas API.
Несмотря на все это, методы persistent-cookies не работают в инкогнито или приватном режимах всех современных браузеров.
Классический Device Fingerprinting
Код библиотеки опрашивает браузер пользователя на предмет всех специфичных и уникальных настроек и данных для этого браузера и устройства в целом, данные собираются в строку и кешируются определенным алгоритмом. Основной формирования хеш-ключа является UserAgent, к нему добавляются язык браузера, часовой пояс (офсет от UTC), шрифты, цветовая палитра, отдельные платформозависимые константы, другие данные, специфичные для пользователя и для платформы, также могут использоваться сессии Интернет-гигантов. Для увеличения уникальности используется информация о плагинах в системе и всех мультимедиа типов или main типов, которые поддерживают этот плагин, а также применяются технологии Canvas Fingerprinting - на скрытом Сanvas элементе рисуется определенный текст с определенными наложенными на него эффектами. Затем полученное изображение сериализуется в байтовый массив и преобразовывается в base64.
К основным недостаткам данного подхода относятся частая изменяемость UserAgent в современных браузерах, особенность аппаратной реализации устройств у части производителей, особенности устаревших браузеров, отсутствие интеграции с Flash и Silverlight и ряд других.
Согласно исследованию Electronic Frontier Foundation в рамках проекта Panopticlick (https://coveryourtracks.eff.org), уникальность фингерпринта составляет порядка 90-94%. За счет сбора и анализа большого количества параметров и настроек аппаратной части устройства и его программного обеспечения, удалось обеспечить необходимый уровень энтропии и уникальности каждого цифрового отпечатка. Существующие технологии определения устройства на базе фингерпринтинга обеспечили значимый прорыв с точки зрения оценки входящего трафика, оценки аудитории веб-ресурса и т.п.
Основные сложности классического фингерпринтинга связаны со следующими аспектами:
- Фингерпринтинг опирается на ограниченный набор корневых параметров, число которых сокращается со временем (ужесточение политик браузеров, маркетплейсов, разработчиков программных платформ, регуляторные требования). Например, сокращение доступного для чтения поля UserAgent привело к значительному снижению эффективности целого ряда технологий фингерпринтинга. Сокращение набора исходных доступных параметров для фингерпринтинга устройства неминуемо ведет к росту коллизии.
- Технология расчета цифрового отпечатка. Существует два подхода: сбор цифрового отпечатка на фронт-энде и бэк-энде. На фронт-энде его можно легко собрать и прочитать. Минус в том, что мошенник также сможет прочесть и внести изменения в Device ID, что серьезно сокращает потенциальный инструментарий для построения других способов определения и сопоставления устройств, в то время как технологию расчета Device ID на бэк-энде не видно вообще.
- Стабильность отпечатка в отношении одного и того же реального устройства (особенно, если речь идет, например, о хорошем благонадежном клиенте) не является достаточной для эффективного применения этих технологий в индустриях с повышенными требованиями к точности.
- Продолжением указанной выше проблемы является ограниченная возможность использования такого фингерпринта в account-centric системах, расчет любых атрибутов в отношении этой учетной единицы и использования таких данных для принятия решений.
3rd Generation Web ID/ Device ID. Вероятностный ID устройства
Ключевые отличия подхода JuicyScore
В основе нашего решения лежат следующие подходы, которые позволяют строить более устойчивый вероятностный ID устройства: JuicyDeviceID с уровнем уникальности 95-99%+ в зависимости от настройки требуемой вероятности, толерантности к времени ответа сервиса/ времени расчета JuicyDeviceID и различных вторичных аспектов международных онлайн-рынков (плотность и качество интернет инфраструктуры, доминирование устройств определенной модели и тд):
- Широкий набор используемых дополнительных методов;
- Серверно-сетевые методы: Juicy_TCP/IP fingerprinting, AI_TLS и ряд других технологий;
- Поведенческие шаблоны и нагрузочные тесты - это подходы, которые связаны с тем, что поведенческое использование устройств и их производительность уникальны. Даже устройства, выпущенные в один день на одном сборочном конвейере, будут обладать различными поведенческими характеристиками;
- Уникальные способы построения устойчивых отпечатков устройств: мы постоянно анализируем различные аномалии, которые приводят к потере устойчивости, обсуждаем их “нормальность” с индустриальными экспертами и учитываем эти аспекты в своей работе;
- Использование искусственного интеллекта: мы используем собственные наработки в области искусственного интеллекта для определения степени схожести между устройствами в зависимости от 50к+ параметров и их комбинаций. Данные методы позволяют учесть возможные аномалии на устройстве и обеспечивают сходимость в рамках задачи об эффективной аутентификации устройства;
- При нашем подходе у нас очень быстрый цикл обратной связи при появлении новых фрод-паттернов. Мы можем посмотреть на каждый девайс, на котором были признаки риска мошенничества месяц назад, находить новые характеристики и аномалии и анализировать, в чем заключался риск мошенничества;
- Уникальность архитектуры: наша архитектура расчета JuicyDeviceID не потеряет свою уникальность даже при массовом внедрении Web3. Основным ее плюсом является гибкость, что в совокупности со скоростью развития и дает необходимый результат;
- Увеличение приватности и безопасности итогового пользователя за счет отказа от возможности синхронизации вероятностных device_id на уровне архитектуры, отказа от использования прямых идентификаторов пользователей, за счет ограниченного времени использования/ ограниченного времени стабильности вероятностного device_id и за счет обязательного информирования итоговых пользователей о сборе и об оценке вероятностных device_id.
Также к преимуществам нашего метода можно отнести безопасность: все расчеты устройства производятся на серверном уровне, а не на уровне устройства пользователя. Таким образом мы снижаем влияние возможных манипуляций, сохраняем приватность и уменьшаем нагрузку на устройство пользователя. Более того, это позволяет постоянно выявлять различные рандомайзеры / антидетект плагины, виртуальные машины, а также сохранять приватность, поскольку в таком режиме мы можем требовать от онлайн площадок следовать политике по обработке данных, информировать пользователей и обеспечивать работу сервиса только в целях предотвращения фрода и снижения операционных рисков. Также к одной из особенностей относится защита от коллизий (когда один и тот же Device ID присваивается разным устройствам): мы реализовали целый блок решений и процедур, которые снижают вероятность коллизии до минимального уровня и которые мы постоянно проверяем и дорабатываем.
Какую ценность несет стабильный Device ID?
JuicyDeviceID - это эффективный способ для решения задач по application fraud prevention и multi-accounting:
- Снижение риска дублирования учетных записей и мультиаккаунтинга (multi-accounting): использование одного и того же устройства или ряда устройств для создания множества персональных учетных записей. Device ID помогает сокращать долю рискованных аккаунтов и улучшить unit-economy.
- Защита личных кабинетов пользователей от несанкционированного доступа за счет обнаружения незнакомых устройств или устройств с новым Device ID.
- Сильный Device ID существенно усиливает account-centric системы на стороне онлайн-бизнеса, позволяет встраивать такой ID в систему принятия решений (фильтры, правила, модели, репортинг). Различные маркеры переменные и атрибуты в отношении такого ID имеют большую предсказательную силу, позволяют определить характеристики устройства, интернет-соединения и поведения пользователя, а значит, повышают качество и разделяющую силу различных моделей на стороне онлайн бизнеса;
Device ID vs методы рандомизации и виртуализации
Сильный и стабильный во времени девайс ID - это необходимое, но не всегда достаточное условие для эффективного инструмента по управлению рисками в онлайн-бизнесе. Как показывает опыт и практика на различных рынках, наиболее опасные случаи связаны с использованием профессиональных способов рандомизации устройства, т.н. рандомайзеры или анти-детект инструменты. Необходимо иметь набор технологий для определений рандомизации, виртуализации и удаленного доступа.
Мы разработали 300+ технологий определения рандомизации и постоянно совершенствуемся. Среди простых примеров можем привести определения рандомизации шрифтов или признаков определения манипуляций с палитрой.
Выводы
Любой онлайн-бизнес, работающий с какими-либо активами нуждается в стабильном Device ID. Наиболее часто встречаемым примером использования Device ID является предотвращение или определение риска пользовательского мошенничества. Для повышения эффективности работы бизнеса многие компании отдают приоритет несколькими решениям. Защита на стыке проверки персональных данных, таких как данные БКИ, операторов связи, социальных сетей, а также проверка цифровых отпечатков устройств и выявление аномалий дает наилучший результат с точки зрения синергии двух указанных концепций, что положительным образом влияет на итоговый уровень риска в портфеле и ROI. Таким образом, для достижения желаемых бизнес-результатов компаниям приходится признавать, что использование нескольких решений бывает крайне необходимым.
Данное исследование проводилось на основе 70+ прод-тестов в 20+ странах мира.