CDC 数据入湖（pyspark）

该项目用于实现将CDC的数据实时摄入 S3（以 Iceberg/Huid/DeltaLake的格式存放）

该项目通过 pyspark 实现，消费存放于kafka的cdc数据，解析处理insert/update/delete等事务操作，并且通过spark dataframe的schema推断，支持数据实时同步的同时更新表的schema。

项目支持两种模式的数据实时入湖

Name		Name	Last commit message	Last commit date
Latest commit History 43 Commits
.idea		.idea
aws-emr-serverless		aws-emr-serverless
aws-glue		aws-glue
msg		msg
transaction_log_process		transaction_log_process
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
setup.py		setup.py

Provide feedback