[VELODB.IO]
DATANOMIX.PRO // БЛОГ // DATA ENGINEERING

Doris Kafka Connector нұсқаулығы

Kafka-дан Doris-ке оқиғаларды жүктеу бойынша практикалық нұсқаулық: standalone, distributed, SSL, DLQ және schema evolution.

Дайындаған:
Datanomix.pro
Оқу уақыты:
~14 мин
МАЗМҰНЫ:
01 / Kafka Connector қашан керек
02 / Нұсқалардың үйлесімділігі
03 / Жылдам старт (standalone)
04 / Production (distributed)
05 / SSL және қауіпсіздік
06 / DLQ және қателерді өңдеу
07 / Schema evolution және Debezium
08 / Best practices
FAQ

1. Doris Kafka Connector нақты қашан қажет

Егер сізде Kafka Connect бар және деректерді Apache Doris-ке тұрақты түрде жеткізу керек болса, ресми Doris Sink Connector ең тез жол.

Бұл әсіресе эксплуатация болжамдылығы және distributed режим арқылы масштабтау маңызды болғанда пайдалы.

2. Нұсқалардың үйлесімділігі

Іске қоспас бұрын Kafka, Doris және Java үшін compatibility матрицасын тексеріңіз.

// MINIMAL CONNECTOR CONFIG
name=test-doris-sink connector.class=org.apache.doris.kafka.connector.DorisSinkConnector topics=topic_test doris.topic2table.map=topic_test:test_kafka_tbl doris.urls=10.10.10.1 doris.http.port=8030 doris.query.port=9030 doris.user=root doris.password= doris.database=test_db value.converter=org.apache.kafka.connect.json.JsonConverter value.converter.schemas.enable=false

3. Жылдам старт: standalone режим

  1. Connector JAR файлын Kafka Connect plugins каталогына салыңыз.
  2. connect-standalone.properties параметрлерін орнатыңыз.
  3. doris-connector-sink.properties файлын жасаңыз.
  4. connect-standalone.sh арқылы іске қосыңыз.

Standalone режимі PoC пен отладкаға қолайлы. Production үшін distributed режимін қолданыңыз.

4. Production: distributed режим

Distributed режимінде scale, fault tolerance және REST арқылы lifecycle басқаруын аласыз.

Бірінші іске қосқанда Kafka Connect қызметтік топиктерді жасайды.

5. SSL және қауіпсіз қосылу

SSL-кластерге қосылғанда truststore-ды worker үшін де, embedded consumer үшін де орнатыңыз.

Ingestion «қатып қалуының» жиі себебі: max.poll.interval.ms тым төмен болуы.

6. DLQ: өңделмеген хабарламалар кезегі

Қате пайда болғанда коннекторды толық тоқтатпау үшін DLQ қосыңыз.

7. Schema evolution және Debezium

Debezium CDC сценарийлерінде схема жиі өзгереді, өзгерістер Doris-ке әрдайым автоматты түсе бермейді.

Алдымен Doris кестесіне жаңа колонканы қосып, содан кейін connector-task-ті қайта іске қосқан дұрыс.

8. Best practices for production

  • Distributed mode және task status мониторингін қолданыңыз.
  • Business topics пен DLQ topics-ті бөлек ұстаңыз.
  • Буфер параметрлерін throughput-қа қарай баптаңыз.
  • Schema evolution үшін runbook жасаңыз.
  • Lag, error rate және delivery latency метрикаларын тұрақты қадағалаңыз.

FAQ

Продакшн үшін қай режим дұрыс?

Distributed режимі.

SSL Kafka-мен жұмыс істей ме?

Иә, worker және embedded consumer деңгейінде truststore керек.

Қате хабарламалармен не істейміз?

DLQ қосып, бөлек талдау керек.

Production деңгейінде Kafka -> Doris pipeline керек пе?

./АРХИТЕКТУРАЛЫҚ_СЕССИЯ_СҰРАУ.sh
© 2026 DATANOMIX.PRO — VELODB-НЫҢ ОРТАЛЫҚ АЗИЯДА ЭКСКЛЮЗИВТІК СЕРІКТЕСІ
VeloDB — Data Engineering БАСТЫ