Skip to content

norrishuang/cdc-data-lake-pyspark

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

43 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

CDC 数据入湖(pyspark)

该项目用于实现将CDC的数据实时摄入 S3(以 Iceberg/Huid/DeltaLake的格式存放)

该项目通过 pyspark 实现,消费存放于kafka的cdc数据,解析处理insert/update/delete等事务操作,并且通过spark dataframe的schema推断,支持数据实时同步的同时更新表的schema。

项目支持两种模式的数据实时入湖

  1. Aamzon EMR Serverless
  2. AWS Glue

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages