Риски

Оценка риска редких событий: как технологии data science помогут бизнесу?

Мы постоянно находимся в поиске полезных и информативных данных, которые помогают управлять кредитными и операционными рисками. Для этого мы находим новые атрибуты, которые улучшают качество принятия решений, а также уделяем большое внимание механике их построения и обеспечиваем прозрачность и понятность результатов.

Одна из основных проблем - это оценка найденных маркеров и их использование в моделях по оценке рисков. Это связано с тем, что большая часть данных маркеров относится к группе редких событий и их стандартная оценка либо затруднена, либо невозможна стандартными методами.

В 2015-2017 гг. сотрудники нашей компании разработали технологию оценки риска такого рода событий, которая позволяет получать интерпретируемый и стабильный результат вне зависимости от географии и этапа оценки в рамках работы кредитного конвейера или системы принятия решений.

В чем суть методологии JuicyScore?

Методология состоит из двух основных частей:

  1. Метод поиска и локализации новых маркеров;
  2. Метод оценки и учета данных маркеров в процессе оценки риска.

Первая часть методологии относится к технологии поиска/ выделения редких событий, основанной на точной аутентификации устройства пользователя, а также на определении различных параметров, характеризующих устройство, его окружение и методы его использования. Мы собираем более 65 000 событий или так называемых data points на устройстве пользователя во время одной онлайн-сессии, большая часть из них агрегируются в массивы данных на устройстве.

Технология поиска редких событий основывается на группировке всех событий в виде 4 основных направлений, которые позволяют приоритизировать поиск и оценить вероятность/плотность появления новых маркеров в одном из направлений:

  • FAP (First attempt fraud) - группа, в которой мы выявляем фрод, исходя из намерений в рамках интернет-сессии при условии, что мы не видели до этого данное устройство;
  • SAP (Secondary Attempt Fraud) - группа, в которой мы выявляем фрод по устройствам, которые уже видели в рамках данного интернет-ресурса;
  • HRA (High Risk Applications) - группа, которая не попадает в категории первых двух, но обладает высоким риском (в основном связана с высоким риском соц. дефолта или социального, фродилентного поведения) ;
  • Прочие сессии с невысоким риском фрода (с появлением новых технологий оценки риска, часть сессий переходят из данной группы в первые три).

Вторая часть методологии относится к технологии оценки риска/ скоринга редких событий или маркеров. Данная технология основывается на том, что помимо оценки самого маркера мы стараемся оценить всю совокупность маркеров, связанных физическим смыслом или которые можно логически сгруппировать в одно из направлений. Всего мы выделяем 10 таких направлений - индексов IDX1-10.

В чем польза такой аналитической работы? Каждый из индексов (как статистически, так и логически) покрывает все значимые маркеры в одном из направлений, кроме того данные индексы могут быть использованы в классических методах математической статистики или data science. Мы уже приводили примеры такой работы в рамках формирования индекса аномалий интернет-соединения IDX4.

Как работать c переменными IDX?

Агрегированные переменные IDX представляют собой совокупность редких событий и факторов одной природы, собранных с помощью алгоритмов Deep Machine Learning в единую переменную, которую можно использовать как для моделирования, так и для встраивания в систему принятия решений кредитных организаций.

Важно отметить, что все индексы IDX были созданы как гауссовские переменные. Это было сделано по нескольким причинам: во-первых, они остаются статистически значимыми в любой другой модели, во-вторых, позволяют структурировать все вероятностное пространство в зависимости от типа фрод-событий.

Далее будут представлены данные по 10 индексам с их описанием и практиками их применения. Следует отметить, что мы приводим “очищенную выборку”, то есть данные, по которым не выявлено высокой вероятности мошенничества через технические манипуляции с устройством или внесение значимых аномалий в интернет соединение.

IDX1: Стоп-маркеры

IDX1 представляет собой комбинацию из 40+ редких событий с высокой вероятностью мошенничества через технические манипуляции с устройством или внесение значимых аномалий в интернет-соединение. Данная переменная включает в себя все множество средств определения рандомизации устройств, а также нахождения техник внесения помех в их "цифровой отпечаток". Кроме того она определяет наиболее опасные маркеры рискованного поведения пользователя и маркеры сетевого соединения. Переменную можно использовать как в правилах, так и в качестве компонента модели по предотвращению риска мошенничества для выявления наиболее опасных сегментов клиентов. Уровень риска растет со значением данного параметра, высокие значения можно использовать как фильтры для автоматического отказа.

На графике показаны агрегированные данные по компаниям, которые уже использовали IDX1 в своей модели принятия решений.

Помимо использования рандомайзеров, которые определяются как при помощи переменной IDX1, так и отдельными стоп-факторами, например, признаки копирования сессии с другого устройства (переменная вектора session clone), выявленные аномалии в заголовке веб-сессии (переменная вектора UserAgent Issue), признаки манипуляции с цветовой палитрой (переменная canvas blocker), стоит обратить отдельное внимание на браузерные аномалии или аномалии операционной системы.

IDX2: Маркер поведения пользователей

Эта агрегированная переменная представляет собой комбинацию различных маркеров поведения пользователя. В векторе JuicyScore представлены десятки маркеров так или иначе относящихся к поведению пользователя и основная задача при дизайне данной переменной - это выявление стабильных маркеров, объединение которых в один агрегат позволяет выявлять сегменты высокого риска независимо от географии деятельности онлайн-компании.

Переменная IDX2 построена на факторах, относящихся к различным категориям поведения виртуального пользователя в сети или использования устройства. С одной стороны, в нее включены факторы, относящиеся к частотным характеристикам. Например, наблюдаемое ранее количество заявлений или запросов на финансовый продукт с одного устройства или от одного виртуального пользователя с определённой периодизацией по времени или без нее, за всю историю. С другой, в состав переменной также включены параметры, определяющие стабильность или наоборот, вариативность данных, используемых в кредитном заявлении или запросе на продукт. Большое разнообразие таких данных на одном устройстве или у одного виртуального пользователя говорит о высоком операционном риске. Помимо этого, в данной переменной учитываются различные характеристики онлайн поведения связанного с устройством или с виртуальным пользователем в момент заполнения заявки.

Высокая частотность запросов без манипуляции данными в запросе или заявлении на продукт свидетельствует скорее о повышенном кредитном риске (так называемом кредитном шоппинге, когда заемщик берет несколько кредитов в разных кредитных организациях за короткий промежуток времени). Наличие одновременно высокого уровня частотных событий и высокой вариативности данных на одном устройстве или у одного виртуального пользователя - верный признак высокого операционного риска.

Ниже представлен примерный обобщенный график изменения уровня риска по диапазонам переменной.

Помимо этого, переменная также включает в себя набор факторов - маркеров рискованного поведения пользователя, не относящихся к первым двум категориям. Это маркеры способов заполнения заявки, способов использования устройства и так далее. По сути это комбинация редких событий среднего и высокого риска, которые при определенном способе объединения можно использовать в системе принятия решений и моделях, построенных при помощи классических гауссовских методов.

IDX3: Маркеры устройства

IDX3 представляет собой комбинацию вторичных маркеров риска и аномалий по устройству, где каждая аномалия по отдельности может свидетельствовать о возможном риске, который стоит учесть при верификации заемщика, а их комбинация при одновременном срабатывании, выделяет зону высокого риска. Аналогично IDX1, уровень риска в IDX3 растет вместе со значением переменной, а высокие значения можно использовать как фильтры для автоматического отказа.

Также очень важным в нашем подходе показателем является пересечение значений нескольких индексов. Например, если хотя бы IDX1 и IDX3 равны 0, значит, можно c высокой долей вероятности быть уверенным в том, что признаков рандомизации и виртуализации не выявлено и, скорее всего, перед нами настоящее устройство.

IDX4: Маркеры интернет-соединения

IDX4 представляет собой комбинацию сетевых параметров и аномалий, высокие значения переменной могут быть использованы с целью выявления и предотвращения риска мошенничества.

В данном индексе учитываются такие показатели как тип используемого IP, временная зона устройства и ее совпадение с реальной локальной временной зоной, использование DNS конфигураций и т.д.

IDX5: Индекс качества устройства

При определении операционного риска основная задача - это отказать заявителям с высоким риском невозврата и неплатежей по обязательствам. В то время как основная задача определения кредитного риска - найти сегменты, которым можно предоставить финансовый продукт с правильными параметрами. Агрегированная переменная IDX5 относится ко второй категории, с ее помощью можно сегментировать входящий поток по уровню кредитного риска. Это имеет особенно важное значение, когда на рынке не хватает традиционных данных по кредитным историям, либо данные низкого или среднего качества.

Функцией качества устройства является уровень его стоимости, на которые могут влиять следующие категории данных: тип устройства (например, десктоп или мобильное устройство), совокупность метрик его технических характеристик (например, объем памяти, количество ядер, качество памяти и другие) и производитель (устройство известного бренда или редко встречающая модель). Важная особенность: устройства с определенными аномалиями по техническим характеристикам не включаются в данный индекс для достижения большего уровня ортогональности с другими агрегированными переменными IDX.

У каждого устройства есть большое количество технических метрик и параметров, которые влияют на его качество и могут быть использованы в том числе для оценки кредитного риска. Поэтому важнейшей задачей при построении данной переменной было выявить такие метрики и правильно смоделировать факторы на их основе, чтобы обеспечить стабильность распределения значений каждого фактора, при этом обеспечив стабильность распределения значения самого индекса качества устройства и усилив его разделяющую способность. Говоря о стабильности распределения значений индекса, ее важно обеспечить как во времени, так и по всем географиям, где ведут операционную деятельность наши партнеры и клиенты.

С точки зрения интерпретации значений индекса качества устройства, часть потока с низкими значениями данного индекса выявляет сегмент с высоким кредитным риском и низким уровнем располагаемого дохода. Часть потока с высокими значениями данного индекса позволяет выделить сегменты с низким уровнем кредитного риска.

IDX6: Индекс качества интернет-инфраструктуры

Индекс качества интернет инфраструктуры рекомендуется для оценки кредитного риска и выявления риска социального мошенничества, может использоваться как параметр модели кредитного скоринга. Значение большее или равное 2 обычно выделяет более премиальный субсегмент в потоке заявлений. В данный индекс входят такие показатели как IP страны и региона, то есть по сути качество интернет-инфраструктуры в регионе или уровень риска региона, скорость и качество соединения для данной подсети и т.д.

IDX7: Качество приложений на устройстве

Переменная доступна только для мобильных SDK и представляет собой агрегированную оценку установленных на устройство заявителя приложений, рекомендуется к использованию для выявления кредитного риска и риска социального дефолта. Обратите внимание, что для оценки данного параметра необходимо настроить сбор конечного списка приложений в рамках подключения SDK.

IDX8: Вариативность учетных данных устройства

Агрегированная оценка данных из заявления является индикатором манипуляции с заявочными данными, таким образом в этот индекс мы включили такие показатели как повторяющиеся несколько цифр телефона/регион пользователя, а также повторяющийся отпечаток устройства.

IDX9: Уровень риска мобильных приложений на устройстве заявителя

Данная переменная доступна только через мобильное приложение и представляет собой агрегированную оценку установленных на устройство заявителя приложений, рекомендуется к использованию для выявления различных типологий риска мошенничества и кредитного риска. Обратите внимание, что для оценки данного параметра необходимо настроить сбор конечного списка приложений в рамках подключения SDK. Мы в JuicyScore проводим детальный анализ большого спектра приложений, которые могут значимо влиять на операционный или кредитный риск (например, приложения удаленного доступа, вредоносные приложения, приложения с токсичной репутацией и т.д.).

Мы постоянно расширяем свои библиотеки с описаниями и характеристиками новых приложений. Важно также отметить, что мы не стремимся и не стремились оценить риск каждого из доступных приложений, поскольку считаем это избыточным действием.

Значение переменной показывает агрегированный уровень риска приложений, установленных на устройстве заявителя.

IDX10: Индекс располагаемого дохода

Данный индекс показывает сегмент риска популяции по уровню располагаемого дохода. Чем выше значение переменной, тем ниже риск. Данный параметр настоятельно рекомендуется для использования в рамках оценки операционного и кредитного риска.

Почему наша система эффективна?

Для того, чтобы эффективно бороться с фродом, нужно иметь как можно большее число полезных и окупаемых инструментов. Однако всем известно, что в данной сфере не существует универсальных решений или инструментов, которые имели бы одинаковую эффективность и окупаемость для всех компаний. Наше решение имеет ряд преимуществ, выделяющих его среди других:

  • Наша методология покрывает собой все вероятностное пространство событий;
  • Метод дает кратную экономическую окупаемость: в зависимости от стоимости актива и типа риска, а также места в кредитной конвейере;
  • Установка JuicyScore полностью удовлетворяет потребность в получении максимального набора данных для интернет-сессии, устройства и онлайн-поведения пользователя.

Индексы IDX также удобны тем, что их можно настроить в качестве стоп-маркеров для отсечения потока, приходящегося на красную зону. За каждой красной зоной стоит результат сложных вычислений, результаты исследования 30 стран, многих десятков компаний.

Мы уделяем большое внимание механике построения наших индексов и постоянно находимся в поиске полезных и все более информативных данных, которые помогают управлять кредитными и операционными рисками. JuicyScore позволяет существенно упростить процесс использования новейших технологий Data Science в области риск-менеджмента и антифрода, а также эффективнее их использовать.

Если Вы хотите больше узнать о нашем подходе, методологиях или об использовании данных более детально, будем рады ответить на Ваши вопросы help@juicyscore.com или info@juicyscore.com.