1. Почему банкам нужен modern OLAP
- Legacy DWH (Teradata, Oracle, Greenplum) дорогие и медленные для real-time сценариев: риск и антифрод требуют свежих данных, а не ночных витрин.
- Зоопарк систем: Elasticsearch для логов, Hive для batch, ClickHouse для витрин — каждая стек требует отдельную экспертизу, SLA и линию поддержки.
- Регуляторные требования: Basel III, AML, compliance-отчётность — данные нужны быстро, согласованно и с возможностью аудита.
- Real-time антифрод: транзакция должна быть оценена за секунды, не минуты; задержка напрямую бьёт по потерям и репутации.
2. Apache Doris: единая платформа для банковской аналитики
- Real-time ingest через Kafka и Flink CDC с семантикой exactly-once для критичных финансовых потоков.
- Multi-table JOIN с cost-based optimizer (CBO) для сложных аналитических запросов и сквозной отчётности.
- RBAC: row-level и column-level security для разграничения доступа по ролям и чувствительным полям.
- MySQL-протокол: стандартный SQL и подключение любого BI-инструмента без проприетарных драйверов.
- Cross-Cluster Replication для аварийного восстановления и географически распределённых площадок.
3. Антифрод на Apache Doris
- Кейс: ритейл-банк с ~650 млн клиентов; платформа обрабатывает масштабные потоки транзакций и профилей.
- Десятки тысяч подозрительных транзакций перехватываются ежедневно на основе правил и скоринговых моделей в OLAP.
- SLA по запросам: ~80% ad-hoc запросов быстрее 2 секунд, ~95% быстрее 5 секунд — оперативная работа расследователей.
- Сравнение при выборе: 89 тестов; Doris показал примерно в 6 раз более быструю запись vs ClickHouse и сильную JOIN-производительность.
- Архитектура: Kafka (real-time транзакции) + Hive (offline-слой) + PostgreSQL (измерения) → Flink → Doris как единая аналитическая плоскость.
4. Кейс: платёжная платформа (600M событий/день)
- Миграция security-аналитики с Elasticsearch на Apache Doris: единый движок для поиска по событиям и SQL-аналитики.
- 56× ускорение типовых запросов по сравнению с предыдущим стеком.
- 50% снижение стоимости хранения за счёт компактной колоночной модели и политик жизненного цикла данных.
- 58% рост пропускной способности записи при сохранении требований к задержке доставки событий.
5. Кейс: платёжный сервис (25M ритейлеров)
- Консолидация Elasticsearch, Hive, HBase, TiDB и Oracle в едином кластере Doris — меньше операционной сложности.
- 25× рост скорости ingest, 312× ускорение ETL-пайплайнов, 10–15× ускорение интерактивных запросов для бизнес-пользователей.
- 52% сокращение серверного парка при росте нагрузки и числа аналитических сценариев.
6. Compliance и отчётность
- Basel III: консолидация риск-данных в регуляторно значимые сроки; единый SQL-слой упрощает сверки и контроль качества.
- AML: противодействие отмыванию требует поиска паттернов по миллионам транзакций — OLAP с низкой латентностью снижает окно экспозиции.
- Регуляторная отчётность: стандартный SQL делает выгрузки доступными для compliance-команд без узкоспециализированных языков.
- Audit trail: в Doris доступны механизмы версионирования данных и time-travel запросы для воспроизводимости отчётов.
- On-premise развёртывание и контроль данных: суверенитет данных для площадок в KZ/UZ и соответствие локальным нормам.
7. Архитектура Lakehouse для банка
| Слой | Содержание |
|---|---|
| Источники | Core banking, карточные системы, AML, CRM, внешние фиды |
| Ingestion | Kafka + Flink CDC (real-time), Airflow (batch) |
| Хранение | Apache Doris: Unique Key для CDC, Aggregate Key для метрик |
| Аналитика | BI-дашборды, ad-hoc SQL, feature store для ML |
| Безопасность | RBAC, маскирование колонок, audit log, DR-replication |