Doris Kafka Connector нұсқаулығы
Kafka-дан Doris-ке оқиғаларды жүктеу бойынша практикалық нұсқаулық: standalone, distributed, SSL, DLQ және schema evolution.
Datanomix.pro
~14 мин
1. Doris Kafka Connector нақты қашан қажет
Егер сізде Kafka Connect бар және деректерді Apache Doris-ке тұрақты түрде жеткізу керек болса, ресми Doris Sink Connector ең тез жол.
Бұл әсіресе эксплуатация болжамдылығы және distributed режим арқылы масштабтау маңызды болғанда пайдалы.
2. Нұсқалардың үйлесімділігі
Іске қоспас бұрын Kafka, Doris және Java үшін compatibility матрицасын тексеріңіз.
name=test-doris-sink
connector.class=org.apache.doris.kafka.connector.DorisSinkConnector
topics=topic_test
doris.topic2table.map=topic_test:test_kafka_tbl
doris.urls=10.10.10.1
doris.http.port=8030
doris.query.port=9030
doris.user=root
doris.password=
doris.database=test_db
value.converter=org.apache.kafka.connect.json.JsonConverter
value.converter.schemas.enable=false 3. Жылдам старт: standalone режим
- Connector JAR файлын Kafka Connect plugins каталогына салыңыз.
- connect-standalone.properties параметрлерін орнатыңыз.
- doris-connector-sink.properties файлын жасаңыз.
- connect-standalone.sh арқылы іске қосыңыз.
Standalone режимі PoC пен отладкаға қолайлы. Production үшін distributed режимін қолданыңыз.
4. Production: distributed режим
Distributed режимінде scale, fault tolerance және REST арқылы lifecycle басқаруын аласыз.
Бірінші іске қосқанда Kafka Connect қызметтік топиктерді жасайды.
5. SSL және қауіпсіз қосылу
SSL-кластерге қосылғанда truststore-ды worker үшін де, embedded consumer үшін де орнатыңыз.
6. DLQ: өңделмеген хабарламалар кезегі
Қате пайда болғанда коннекторды толық тоқтатпау үшін DLQ қосыңыз.
7. Schema evolution және Debezium
Debezium CDC сценарийлерінде схема жиі өзгереді, өзгерістер Doris-ке әрдайым автоматты түсе бермейді.
Алдымен Doris кестесіне жаңа колонканы қосып, содан кейін connector-task-ті қайта іске қосқан дұрыс.
8. Best practices for production
- Distributed mode және task status мониторингін қолданыңыз.
- Business topics пен DLQ topics-ті бөлек ұстаңыз.
- Буфер параметрлерін throughput-қа қарай баптаңыз.
- Schema evolution үшін runbook жасаңыз.
- Lag, error rate және delivery latency метрикаларын тұрақты қадағалаңыз.
FAQ
Продакшн үшін қай режим дұрыс?
Distributed режимі.
SSL Kafka-мен жұмыс істей ме?
Иә, worker және embedded consumer деңгейінде truststore керек.
Қате хабарламалармен не істейміз?
DLQ қосып, бөлек талдау керек.