Спецпроект

Роботы решают, давать ли вам кредит. Зачем банку большие данные и что он с ними делает

26 341
15 августа 2022 в 8:00
Автор: Ян Альшевский
Спецпроект

Роботы решают, давать ли вам кредит. Зачем банку большие данные и что он с ними делает

Выиграйте iPhone 13 в приложении Каталог Onlíner на этой неделе!

Человечество всегда будет представлять, каким окажется будущее — в технологическом плане. Однако, если попытаться взглянуть на сегодняшний день с точки зрения себя 20 лет назад, понимаешь: многие вещи изменились бесповоротно и то, что тогда казалось фантастикой, стало обыденным и почти понятным. Почти, потому что не все процессы на виду и даже наиболее важные из них оказываются вне поля зрения большей части аудитории. Мы не раз размышляли на тему больших данных, а на этот раз вместе с «Альфа Банком» простым языком объясним, зачем big data нужны именно банкам.

Большие данные, они же big data

Сам термин все объясняет: речь идет об огромных массивах информации, уже обработанной или той, которую предстоит обработать — структурировать, получить из нее необходимое и использовать (анализировать и прогнозировать, причем делать это очень быстро).

Как определяется, что такое большие данные, а что нет? Точный объем не важен, вопрос заключается в эффективности их хранения и обработки: если жесткий диск «обычного» компьютера не может их уместить, легендарный Excel (который можно отнести к «классическим» методам) не справляется с обсчетом, а к процессору выстраивается очередь из задач, перед вами, видимо, big data. В банке это видят по-своему: «Если данные эффективны, они будут накапливаться и в какой-то момент станут big».

— Каждая организация сама для себя определяет, что такое большие данные именно для нее. Для любого банка это сотни тысяч клиентов и миллионы транзакций в день. Для нас big data — это скорее про подходы к работе с данными, нежели про размеры. Можно миллион записей обработать в Excel, а можно тысячу хранить и обрабатывать в базе данных,говорит Chief Data Officer «Альфа Банка» Александр Вдовиченко.

По его словам, базы данных позволяют добиться масштабируемости, и появление новых массивов информации не вызовет коллапса.

Мировая практика может быть разная, но в «Альфа Банке» информацию собирают в корпоративном хранилище данных (Data Warehouse, или DWH), размещенном внутри компании. Здесь же установлены серверы для обработки. По словам Александра, в корпоративном хранилище уже накопилось около 40 ТБ данных, прирост в месяц — около 1 ТБ. Важно понимать, что речь идет о сотнях миллионов или даже миллиардах строк информации.

От внешних облаков отказываются для обеспечения защиты персональных данных: чем меньше звеньев в цепочке, тем выше степень защиты. Можно рассматривать архитектуру, в которой персональные данные хранятся на банковских серверах, а остальное — вовне, но тогда появляются дополнительные расходы, так как данные нужно постоянно «соединять» для работы с ними. В то же время «Альфа Банк» строит внутреннее облако, которое позволит эффективно распределять ресурсы и одновременно решит вопрос безопасности персональных данных.

Откуда банки берут данные (о клиенте, конечно)

Данные собираются из внутренних и внешних источников. К первым можно отнести автоматизированную банковскую систему, которая делает «проводки» и хранит счета, — это основное. Также есть мобильные приложения (как для физических лиц, так и для юридических), CRM-системы, процессинг — все это генерирует свои массивы информации. Сбор данных из разных систем происходит с необходимой периодичностью: часть забирается в онлайне, а где такая скорость не нужна — не реже раза в сутки. Данные обрабатываются на лету, очищаются, агрегируются и записываются в DWH, после чего становятся доступны для аналитики.

Также банки получают информацию из внешних источников. Например, в случае запроса на кредит с разрешения клиента в онлайне отправляются запросы в кредитный регистр и другие государственные базы данных, а также к операторам связи.

Может проводиться анализ социальных сетей, электронных досок объявлений (например, для покупки-продажи автомобилей) и других подобных источников — они считаются открытыми, информация о юрлицах также агрегируется специализированными площадками.

Что банки делают с информацией?

Здесь, как и с определением больших данных, все просто: информация нужна для выстраивания бизнес-процессов, чтобы они проходили плавно и без ошибок, были сфокусированы на пользователе. Хорошо поставленная работа означает довольных клиентов, которые, не будем лукавить, приносят банкам деньги (вы же тоже работаете не только за идею или ради удовольствия).

За создание удобных для работы массивов данных отвечают архитекторы или инженеры. Собранная из разных источников информация аккумулируется в таблицах, чтобы потом ее можно было применять для аналитики и построения моделей. Каждый из шагов — от сбора до хранения и обработки — требует, помимо высокой квалификации, глубокого понимания бизнес-процессов.

— Тут два варианта. Первый — это может быть аналитика и отчетность. Это пока не работа с искусственным интеллектом и машинным обучением, а аналитика базового уровня. Однако это не значит, что она менее ценна с точки зрения банка, ведь в большинстве случаев на ней основываются каждодневные управленческие решения бизнеса. Плюс эта аналитика сама по себе также достаточно технологична: данные забираются напрямую из DWH и обрабатываются в современных BI-инструментах. В результате получаются красивые интерактивные дашборды, которые обновляются автоматически и доступны по ссылке на report-сервере, — поясняет Александр.

Аналитикой могут заниматься как сами бизнес-подразделения банка, так и профильные специалисты из офиса CDO под конкретный заказ. Информация позволяет получать «легкие» инсайты — не путайте с инсайдами, сейчас речь о найденных способах решения «простых» задач и последующего принятия решений.

Александр Вдовиченко. Фото: Александр Ружечка

Но есть также и ученые по данным (data scientist), строящие сложные модели машинного обучения, на базе которых можно получить уже более глубокие инсайты и «черные ящики» (модель «черного ящика» в данном случае — это нечто предлагающее решение на базе обработанных данных без объяснения причин принятия этих решений — потому и «черный ящик»).

— Самый простой и известный пример «черного ящика» — это модели скоринга (оценки кредитоспособности) физлиц: когда люди приходят в банк получать кредит, в недрах ПО «крутятся» модели, которые затем выдают какой-то балл, показывающий зависимость, вернет клиент деньги или есть нюансы, — поясняет Александр.

В целом инсайты и «черные ящики» нужны для выработки решений по всему спектру продуктов любого банка: на это указывают проводимые исследования и отчеты банковских учреждений во всем мире.

— Мы строим алгоритмы, чтобы выявить закономерности: мы знаем, что может банк, и пытаемся предугадать, чего хочет клиент. Наша задача — все это объединить, — уточняет Дмитрий Шапчиц, Chief Data Scientist в «Альфа Банке».

Дмитрий Шапчиц. Фото: Александр Ружечка

По его словам, Беларусь — страна небольшая. Исключим детей и учтем то, что каждая компания имеет свою долю рынка. На выходе получим не такую уж и большую клиентскую базу.

Продолжая тему с получением кредита, Дмитрий добавляет, что именно благодаря анализу информации можно спрогнозировать, отдаст ли клиент деньги, будет задолженность краткосрочная или длительная. Основываясь на этом, банк (точнее, система с элементами ИИ) принимает решение о выдаче средств или отказе — ничего личного.

— Изначально процесс был классическим — просто заполнялась анкета: приходит клиент, на него заводится карточка, происходит идентификация и верификация клиента. Если продукт карточный, дебетовый, не требующий много информации, мы останавливаемся на этом. Если будут обязательства клиента перед банком, тогда количество полей увеличивается. Сегодня мы уменьшили количество полей, от клиента практически ничего не требуется, мы собираем и анализируем данные о нем из внешних источников. Заодно смотрим, как он ведет себя в динамике, как платил, какие кредиты оформлял. Модели скоринга у нас также основываются, кроме прочего, на внешних данных, — возвращается к теме сбора информации Дмитрий.

Далее он описывает другой алгоритм применения больших данных. Например, в «Альфа Банке» существует рекомендательная модель, помогающая клиенту подобрать дебетовую карту или кредитку, которая будет соответствовать его запросу. Работу модели можно описать следующим примером. Если один человек прочитал книги A, B и C, а второй — A и C и эти клиенты сходны по другим своим «характеристикам», второму можно рекомендовать книгу B.

При этом непохожие, казалось бы, клиенты (с разным достатком) могут иметь одинаковые увлечения и вкусы (просто кто-то проявляет себя чаще, а кто-то реже): они могут покупать одни и те же книги, ходить на одни концерты и любить хорошую кухню. Эти паттерны позволяют создавать профили, под которые появляется свой скрипт, «точечное» предложение — рекомендованные и релевантные продукты. Клиент может получить, возможно, нужное ему, а банк — увеличить конверсию и сократить издержки.

Еще один пример — индивидуальный курс в мобильном приложении, когда клиент может предлагать банку свой курс обмена валюты. И если сделка выгодна банку, он соглашается или делает встречное предложение. Если раньше эту операцию производили с жестко стандартизированными условиями, теперь предложение формируется именно на основании профиля, поведения пользователя.

Big data за компанию с ИИ позволяют не только формировать предложение, но и выбирать, например, оптимальный канал связи — Александр упомянул триаду «что, где, когда». Опираясь на профиль (проще говоря, активность клиента), система прогнозирует лучшее время и способ связи: например, прислать пуш в приложение вечером или написать сообщение в Viber утром, а в полуденную сиесту клиента лучше не трогать.

На чем все это работает

В нашей истории все (почти) работает на Python. По словам Дмитрия, это опенсорсное решение, достаточно быстрое, лаконичное, с широким инструментарием, вдобавок на нем работают большинство ученых по данным, потому решать технические вопросы куда проще.

— Все зависит от требований к скорости обработки. «Питону» на наши данные требуются доли секунды — для нас это быстро. Если бы мы говорили, например, о высокочастотном трейдинге, когда покупка-продажа идет за микросекунды, естественно, речь бы шла о разработке на «плюсах» (C++). В банковской сфере «питон» закрывает все потребности. И эта практика применяется в других странах мира, — добавляет он.

— С точки зрения скилов и специалистов в дефиците, вероятно, люди, умеющие делать среды ModelOps — в ней и «живут» все модели, — отмечает Александр. — Недавно также были интересные моменты с подбором кандидатов на работу с ML (машинным обучением): пару лет назад была хайповая тема, связанная с компьютерным зрением, однако в банковской сфере это направление находится в стороне от основного кластера задач.


По словам наших собеседников, банк — это много цифр и табличных данных. Но за цифрами есть конкретный клиент с конкретными интересами и действиями. Поэтому, строя модель, ты не оперируешь моделью по поиску, например, ошибок в действии станка с обезличенными фактами.

— Чем глубже data scientist понимает сам бизнес, тем лучше будет результат на выходе. Может, придет очень классный специалист, но если он не будет понимать бизнес-логику и как модель ML будет в нее встраиваться, то получится ерунда. Поэтому мы стараемся не просто строить модели в вакууме, а разрабатывать полноценные решения для бизнеса, — отмечает Дмитрий.


Мы затронули лишь некоторые аспекты того, как работают большие данные в банковской сфере. Несмотря на то что big data на слуху давно, в некоторых сегментах эта тема пока развивается: там не сразу поняли, что с ней можно делать и как применять (это вопрос инерционности и «все и так работает — зачем менять?»).

Спецпроект подготовлен совместно с закрытым акционерным обществом «Альфа Банк», УНП 101541947.

Наш канал в Telegram. Присоединяйтесь!

Есть о чем рассказать? Пишите в наш телеграм-бот. Это анонимно и быстро

Перепечатка текста и фотографий Onlíner без разрешения редакции запрещена. ng@onliner.by

Автор: Ян Альшевский