[VELODB.IO]
DATANOMIX.PRO // VELODB // ТЕХНИКАЛЫҚ БРИФИНГ

ЖИІ ҚОЙЫЛАТЫН
СҰРАҚТАР

OLAP-движок таңдағанда data architects қоятын сұрақтарға жауаптар — бенчмарктармен және ресми құжаттамамен

-- Объектілер тәуекел мониторингі: S3/Parquet + CDC + іздеу
SELECT
  obj.object_id, obj.name, obj.city,
  obj.budget_kzt, obj.progress_pct,
  1.0/(60+v.rank) + 1.0/(60+b.rank) AS risk_score
FROM catalog.s3_objects obj    -- ← S3/Parquet via Iceberg
JOIN vector_search(
  embed('срыв сдачи объекта'), top=50
) v USING (object_id)
JOIN bm25_search(
  'нарушение срок штраф', top=50
) b USING (object_id)
WHERE obj.status = 'В РАБОТЕ'
  AND obj.city IN ('Астана', 'Алматы')
ORDER BY risk_score DESC LIMIT 10;
> Іске қосуға дайын. ОРЫНДАУ батырмасын басыңыз

ТЕХНИКАЛЫҚ СҰРАҚТАР

// architecture_faq.log

Бір мезгілде көп пайдаланушы болса не болады?

group

VeloDB конкурентті сұраныстарды Workload Management арқылы басқарады: үш изоляция механизмі, жұмсақ және қатты лимиттер, автоматты кезектер мен circuit breaker.

Жүктеме кезіндегі тұрақтылық — «движок магиясы» емес, басқарылатын архитектура. Workload Group cgroups арқылы BE-процесс ішінде CPU/Memory/IO-ны soft және hard лимиттермен бөледі. Resource Group BE-нодаларды жабдық деңгейінде изоляциялайды. Circuit Breaker жад немесе орындалу уақытының лимитін асқан сұраныстарды автоматты түрде болдырмайды. «Greenplum падения» аналогы WLM саясаты болмаса ғана мүмкін — VeloDB-да бұл саясат нақты конфигурацияланады.

→ Құжаттама: docs.velodb.io/.../workload-management-summary

VeloDB ClickHouse, Trino және Elasticsearch-пен қалай салыстырылады?

leaderboard

Сценарийге байланысты — конкурентті деңгейден 60 есе жылдамға дейін. Негізгі артықшылық бір уақытта үш класта: MPP аналитика, lakehouse-сұраныстар, толық мәтін және векторлық іздеу.

vs ClickHouse: бір JOIN-мен кең кестелерде — ClickBench-те паритет; TPC-DS-те таратылған JOIN-мен — 60 есе жылдам. Real-time жаңартулар: 34 есе жылдам. vs Trino/Presto: TPC-DS 1 ТБ — 3 есе жылдам. vs Elasticsearch: жазу жылдамдығы — 3 есе жоғары; сақтау — 3–5 есе аз орын. Барлық цифрлар тәуелсіз немесе қайта жасалатын бенчмарктардан.

Көптілді іздеу және мастер-деректер қалай жұмыс істейді?

language

VeloDB бір движокта гибридті іздеуді (BM25 + вектор + RRF) кез келген тіл үшін ICU-анализаторлармен жүзеге асырады. MDM идентификация саясаты процесс пен каталогта қалады — движок іздеу жылдамдығын қамтамасыз етеді.

Әр тіл үшін жеке анализатор конфигурацияланады: ICU tokenizer (қазақ, орыс, ағылшын, араб), Chinese/IK tokenizer, кастомды pipelines. TOKENIZE() функциясы индекс жасамас бұрын мәтін сегментациясын тексеруге мүмкіндік береді. Гибридті іздеу: BM25 + ANN параллельді іске қосылады, нәтижелер RRF арқылы біріктіріледі — барлығы бір SQL-сұраныста. Шынайылық: тілдер арасындағы семантикалық сәйкестік multilingual embedding моделіне байланысты. VeloDB — сақтау және іздеу қабаты; MDM-процесс логикасы саясатта қалады.

VeloDB қалыпқа келтірілген схемалармен жұмыс істей ме — DDS, Anchor, Data Vault?

account_tree

Иә. Broadcast/shuffle стратегиялары мен partition colocate арқылы таратылған JOIN кез келген нормализацияланған схеманы қолдайды. Терең join графтары үшін Materialized Views ұсынылады.

VeloDB star, snowflake, 3NF, Anchor modeling, Data Vault схемаларын қолдайды. Оптимизатор статистика мен бөлім карталарын ескере отырып broadcast немесе shuffle join таңдайды. Partition colocate байланысты деректерді бір нодаларда орналастырады. Терең графтарда (Anchor 10+ кестемен) финалды витринаға Materialized View қосу стандартты тәжірибе — кез келген MPP-та соңғы агрегация деңгейі қажет.

→ Performance Series (JOINs): velodb.io/blog/velodb-performance-series-part-1

САЛЫСТЫРУ: НЕГЕ VELODB?

// comparison_faq.log

ClickHouse қолданып жатырмыз — неге VeloDB?

compare_arrows

ClickHouse кең денормализацияланған кестелерде жақсы жұмыс істейді. CDC кезінде UPDATE/DELETE, distributed JOIN және concurrent сұраныстар үшін VeloDB архитектуралық тұрғыдан озық.

ClickHouse CDC кезіндегі негізгі мәселе: мутациялар (DELETE + INSERT) асинхронды merge арқылы жүзеге асырылады, бұл жоғары жаңарту жиілігінде деректердің уақытша сәйкессіздігіне әкеледі. VeloDB Delete Bitmap пайдаланады — merge storm-сыз синхронды жою белгісі, real-time update бенчмаркінде 34× жылдам. JOIN-дерде: ClickHouse single-table scan үшін оңтайландырылған; TPC-DS distributed JOIN-мен VeloDB cost-based optimizer 60× дейін озады.

Greenplum жүктеме кезінде түсіп қалды — VeloDB бұдан аулақ па?

shield

Greenplum coordinator тораптың архитектуралық bottleneck-інен және кірістірілген WLM жоқтығынан деградацияланады. VeloDB мұны үш тәуелсіз изоляция қабатымен шешеді.

Greenplum coordinator барлық сұраныстарды қабылдайды — 50+ конкурентті аналитикалық сұраныста ол тар жерге айналады. VeloDB-да: Workload Group cgroups арқылы BE-процесс деңгейінде CPU%/Memory/IO-ды soft және hard лимиттермен орнатады. Resource Group BE-нодаларды физикалық изоляциялайды. Circuit Breaker жад лимитін немесе тайм-аутты асқан сұраныстарды кластерге әсер етпей бұрын болдырмайды.

→ Workload Management docs: docs.velodb.io/enterprise/4.x/management-guide/workload-management

Trino/Presto-дан VeloDB-тың айырмашылығы не?

speed

Trino — нативті storage-сіз federated query engine. VeloDB — нативті қоймасы бар unified MPP engine, TPC-DS 1 ТБ-да 3× жылдам.

Trino/Presto деректерді сақтамайды — әр сұраныс source system-ге барады (Hive, S3, JDBC), metadata lookup және data transfer шығынын тудырады. VeloDB C++-тегі vectorized execution engine арқылы деректерді нативті сақтайды. TPC-DS 1 ТБ-да VeloDB Trino-дан 3× жылдамырақ: Push-down predicates, native columnar vectorization, Auto Query Rewrite. Federated queries керек болса — Trino. Деректерді консолидациялауға мүмкіндік болса — VeloDB анағұрлым жақсы latency мен throughput береді.

Elasticsearch іздеу үшін пайдаланамыз — VeloDB-қа неге ауысу керек?

search

Elasticsearch SQL-сіз log analytics және inverted-index іздеу үшін оңтайландырылған. VeloDB SQL + BM25 + вектор + 3× жазу жылдамдығы + 3–5× аз хранилищені бір движокта береді.

Elasticsearch-тің аналитикалық сценарийлердегі типтік мәселелері: нативті SQL жоқ, жоғары ingest rate кезінде ауыр aggregations деградацияланады, жиі жаңартуларда merge storms. VeloDB ICU/custom analyzers арқылы BM25 full-text search-ті қамтиды, оған vector search (ANN) және гибридті RRF қосады — барлығы бір SQL-сұраныста. Write бенчмаркінде: VeloDB 3× жылдамырақ жазады, columnar compression арқасында 3–5× аз орын алады.

→ Doris vs Elasticsearch: datalakehouse.kz/kk/vs/doris-vs-elasticsearch

ПИЛОТТЫҚ ЖОБА

// pilot_config.log

Максималды қатысу деңгейі — solution design, баптау, нақты деректерде өлшеу

01

Архитектуралық аудит

manage_search

Ағымдағы стекті зерттейміз: деректер көздері, CDC, қойма (S3/Parquet), Data Catalog. Тар жерлерді табамыз, пилот кейсін анықтаймыз.

02

Профильді инженерлер

engineering

Ұқсас production сценарийлерінде тәжірибесі бар VeloDB инженерлерін тартамыз — MDM, көптілді іздеу, үлкен деректердегі real-time аналитика.

03

Сіздің сценарийлеріңіз үшін

tune

Көптілді MDM іздеуі, real-time аналитика, S3/Iceberg lakehouse, конкурентті сұраныстар — синтетикалық емес, нақты кейсіңізді аламыз.

04

Цифрмен нәтиже

query_stats

Latency, throughput, ресурс тұтынуды дейін және кейін өлшейміз. Нақты деректердегі салыстыруды ішкі шешімді қорғауға арналған нақты сандармен аласыз.