Информативность данных

Ценность анализа устройств - секреты методологии JuicyScore

С развитием онлайн-услуг и появлением большого количества финансовых продуктов на рынке, количество компаний, готовых предоставлять такие продукты и услуги, стремительно растет с каждым годом. Лидеры индустрий уделяют большое внимание параметрам и характеристикам продукта, удобству клиентского пути, работе над ростом новой клиентской базы и удержанием лояльных клиентов. Обратной стороной этого процесса стало значительное повышение сложности оценки клиентов через онлайн-канал, а также высокая доля пользователей с высоким риском, некоторые из которых приходят на сайт финансового института с недобросовестными намерениями. В силу этого компании вынуждены отвлекать значимую долю ресурсов (сбор данных, технологии, выделенный персонал) на снижение рисков и борьбу с недобросовестными пользователями.

Наряду с ростом компаний, ведущих бизнес онлайн, на рынке появилось большое количество различных компаний-вендоров, которые предоставляют решения, призванные снижать уровень риска мошенничества. Многие из таких решений предоставляют набор маркеров риска, которые можно настроить в виде фильтров для отказа. Однако такой подход имеет ряд ограничений.

Команда JuicyScore считает, что помимо предоставления собственно самих маркеров необходимо также уделять большое внимание информативности и методологии использования данных применительно к процессу оценки риска. Мы разработали ряд методологий и подходов, которые позволяют не только выделять зоны высокого риска, но также проводить сегментацию и оценку риска на всем потоке заявок. Сегодня мы подробно расскажем об одном из таких подходов.

В чем суть одной из методологий JuicyScore по предотвращению фрода на основе детального анализа устройств?

В нашем случае, мы рассматриваем подход по предотвращению фрода на основе характеристик устройств.

В основе данной методологии лежит фокус на устройстве - аккуратной и точной аутентификации, выявлении различных параметров, характеризующих устройство, его окружении и методах его использования. Почему мы уделяем столько внимания именно устройству?

  1. Самая очевидная причина связана с тем, что во многих случаях такой оценки достаточно для принятия решения по заявлению на финансовый продукт. При этом нет необходимости хранить или обрабатывать персональные данные пользователей (прямые идентификаторы физических лиц, такие как - полные номера карт, фотографии, имейлы, данные паспорта и прочее). Несмотря на огромные инвестиции компаний в IT-инфраструктуру и организационные меры, случаи, когда прямые идентификаторы, контактные и чувствительные данные попадают в руки мошенников, к сожалению, не редкость. Все это может привести к потере информации, нанести непоправимый вред репутации и привести к финансовым потерям всех участников процесса. Вторым плюсом данной методологии является предсказательная сила - аналитика устройств позволяет проводить оценку риска для всех интернет соединений с уровнем информативной доступности 99.9%+ и выявлять намерения виртуального пользователя в большинстве случаев с первой попытки.
  2. Основа нашего подхода, в рамках данной методологии - аккуратная аутентификация устройства на фоне возможной рандомизации и виртуализации устройства. Данная методология опирается на разработанный набор инструментов/ технологий по девайсометрии - по стабильному, вероятностному подходу аутентификации устройств.
  3. Вспомогательным элементом данной технологии, является набор инструментов, который позволяет выявить различные вариации по рандомизации и виртуализации устройств (как аспекты искажения в процессе аутентификации устройств). Вопросы виртуализации, в последнее время находятся в центре внимания многих экспертов и сегодня мы бы хотели подробно рассказать о методологии JuicyScore применительно к оценке виртуализации и рандомизации устройств, а также обсудить некоторые аспекты, на которые необходимо обратить внимание владельцам онлайн-бизнесов

Какие категории устройств мы выделяем?

Если представить все пространство онлайн событий в виде проекции на устройства, то можно выделить следующие категории, которые покрывают 4 типа устройств. Есть настоящие устройства, ненастоящие устройства (виртуальные машины), настоящее устройство с внесенным шумом, а также ненастоящее устройство с признаками рандомизации. Давайте чуть детальнее разберем данные категории, которые графически представлены на рисунке ниже.

  1. Настоящее устройство в нашей категоризации - это физическое устройство, которое используется для заведения заявления на финансовый продукт или вход в личный кабинет пользователя. К таким устройствам можно отнести наиболее популярные модели компьютеров, ноутбуков или смартфонов, использующих более-менее типовое программное обеспечение без признаков серьезных аномалий по аппаратной и программной составляющей. Внутри категории настоящих устройств стоит также разделять новые и повторно используемые устройства - уровень риска последних может в ряде случаев серьезно отличаться от уровня риска новых устройств.

Повторными устройствами стоит считать и маркированные устройства, например, когда устройство использовалось для выдачи займа, по которому были выявлены признаки мошеннических действий или имела место просрочка 90 и более дней. В таком случае речь может идти о повторной попытке взять кредит.
2. Под ненастоящим устройством мы понимаем развернутую на реальном устройстве виртуальную машину, которая используется для нетиповых целей и с непрозрачными намерениями пользователей. Зачастую такие виртуальные машины не предназначены для проведения операций, связанных с финансовой деятельностью человека, например, брать кредиты, либо находятся в "серой" правовой зоне.

Что такое виртуальное устройство или машина? Это любой тип устройства (стационарный компьютер, планшет, смартфон и т.д.), смоделированный при помощи специального программного обеспечения или программного кода. По сути своей это устройство ничем не отличается от любого физического компьютера/ноутбука/смартфона или даже сервера. Оно также имеет процессор, память, диски для хранения файлов и данных, при необходимости может подключаться к Интернету. Однако в отличие от физических устройств с материальными носителями данных, процессором и памятью, виртуальные машины или программно-определяемые компьютеры на физических серверах существуют только в виде кода. Виртуальная машина - отличное решение для задач, связанных с защитой информации и безопасного исполнения компьютерных программ, тестирования кода, исследования производительности программного обеспечения.

Виртуальное устройство существенно упрощает работу всей IT-инфраструктуры компании, а также повышает производительность благодаря оптимизации использования ресурсов. Однако использование таких технологий в процессе получения финансовых продуктов и услуг онлайн может свидетельствовать о недобросовестных намерениях пользователя, а значит, несет риск для бизнеса.
3. Под рандомизацией понимается использование любого программного обеспечения или кода для внесения помех и аномалий с целью усложнения построения цифрового отпечатка устройства и/или сокрытия действий пользователя устройства. Рандомизировать можно как реальное устройство, так и добавлять помехи в виртуализированное или ненастоящее (в нашей категоризации) устройство.
4. Рандомизированные виртуальные устройства - самый сложный, требующий высокой технической подготовки, и потому редко встречающийся тип мошенничества. В рамках этого исследования мы не будем детально рассматривать данный тип устройств в целом, как и аспект рандомизации сетевого соединения. С точки зрения практического противодействия мошенничеству, гораздо важнее определить технологии рандомизации на устройстве, что в большинстве случаев достаточно, чтобы принять решение. Использование рандомайзеров с целью имитации работы сетевого оборудования или тестирования кода является абсолютно нормальной деятельностью, однако, их использование при получении финансовых продуктов и посещении сайтов онлайн-кредиторов к обычной человеческой деятельности отнести сложно.

Представленная методология позволяет полностью покрыть все пространство устройств и очень качественно разделить и оценить риск. Как видно из иллюстрации выше, настоящие устройства обладают наименьшим относительным риском с точки зрения мошенничества, при этом повторные устройства среди настоящих могут обладать повышенным риском. Такие устройства можно оценить с точки зрения кредитных рисков и, в ряде случаев, с облегченной верификацией. Ненастоящие устройства являются в значительной степени рискованными, поэтому зачастую подпадают под усиленную верификацию и кросс-проверки. Устройства с рандомизацией являются наиболее опасными с точки зрения риска и рекомендуются к отказу.

За кажущейся простой данного подхода скрывается целый пласт сложных технологий. Во-первых, за рамками такого деления нет ни одного устройства, которые не вписывалось бы в данные сегменты. Следовательно, данный подход позволяет охватить взглядом всю картину. Во-вторых, данный подход отличается стабильностью и высокой эффективностью, что неоднократно подтверждалось нашим опытом работы на различных рынках с разными финансовыми продуктами в 20+ странах мира.

Как наши технологии оценивают риски?

Индексные переменные - неотъемлемая часть атрибутов вектора данных JuicyScore. О нем мы подробно писали в статье Deep Machine Learning - Докопаться до истины. Однако каким образом с помощью данных JuicyScore можно оценить риск? Для лучшего понимания технологической сути нашего подхода необходимо рассмотреть несколько переменных (индексов или переменных типа IDX в нашем стандартном векторе данных), которые мы создаем при помощи алгоритмов глубокого машинного обучения.

IDX1 представляет собой комбинацию из 50+ редких событий с высокой вероятностью мошенничества через технические манипуляции с устройством. Данная переменная включает в себя все множество средств определения рандомизации устройств, нахождения техник внесения помех в их "цифровой отпечаток", а также опредяет наиболее опасные маркеры рискованного поведения пользователя и маркеры сетевого соединения. Переменную можно использовать как в правилах, так и в качестве компонента модели по предотвращению риска мошенничества для выявления наиболее опасных сегментов клиентов. Уровень риска растет со значением данного параметра, высокие значения можно использовать как фильтры для автоматического отказа.

Как мы видим из графика, показатель переменной 0 говорит о низком риске, 1 - средний риск, при котором рекомендована дополнительная проверка/валидация, значение индекса больше двух говорит о высоком риске и рекомендации к отказу.

Помимо использования рандомайзеров, которые определяются как при помощи переменной IDX1, так и отдельными стоп-факторами - например, признаки копирования сессии с другого устройства (переменная вектора session clone), выявленные аномалии в заголовке веб-сессии (переменная вектора UserAgent Issue), признаки манипуляции с цветовой палитрой (переменная canvas blocker) - стоит обратить отдельное внимание на браузерные аномалии или аномалии операционной системы.

IDX3 представляет собой комбинацию вторичных маркеров риска и аномалий по устройству, где каждая аномалия по отдельности может свидетельствовать о возможном риске, который стоит учесть при верификации заемщика, а их комбинация при одновременном срабатывании, выделяет зону высокого риска. Аналогично IDX1, уровень риска в IDX3 растет вместе со значением переменной, а высокие значения можно использовать как фильтры для автоматического отказа.

Как видно из графика, нулевой показатель говорит о низком риске, показатель 1-2 - средний риск, при котором рекомендована дополнительная проверка/валидация, показатель больше трех служит основанием для отказа.

Также важным показателем является пересечение значений нескольких индексов. Например, если хотя бы IDX1 и IDX 3 равны 0, значит, можно c высокой долей вероятности быть уверенным в том, что признаков рандомизации и виртуализации не выявлено и, скорее всего, перед нами настоящее устройство.

Это лишь небольшая иллюстрация практического применения технологий выявления рандомизации и виртуализации и их использования в процессе оценки риска и предотвращения мошенничества.

В настоящий момент наиболее информативные и успешные антифрод-решения должны соответствовать некоторым принятым в индустрии требованиям.

  1. Обнаружение риска мошенничества в режиме реального времени - в онлайн сотни мошенников могут атаковать ресурс финансового института за короткий период времени;
  2. иметь высокую информативность данных для повышения качества моделей и систем принятия решений;
  3. анализировать поведение пользователя и хорошо уметь выявлять скрытые корреляции.

Однако, как известно, в сфере антифрода и риск-менеджмента нет и не может существовать единого универсального подхода, который бы идеально подошел для решения любых проблеми давал бы при этом 100% результат. Мы в JuicyScore уверены, что любой новый стабильный и окупающий себя подход обязательно займет свою нишу.