ML Feature Pipeline & Data Quality Platform

A comprehensive data platform for ML feature engineering with data quality validation using Great Expectations, dbt transformations, and Apache Airflow orchestration.

Overview

This project implements:

Extract & Load pipelines from API/DB sources
Data quality validation with Great Expectations
dbt transformations (staging → intermediate → features)
Feature store tables with point-in-time correctness
Apache Airflow orchestration
Comprehensive monitoring and observability

Architecture

[Sources: API, DB, Files]
        |
        v
+-------------------+
| Extract & Load    |  Python/Spark -> Raw zone
+--------+----------+
         |
         v
+-------------------+
| Validate Raw      |  Great Expectations
+--------+----------+
         |
         v
+-------------------+
| dbt Transformations |  staging -> intermediate -> features
+--------+----------+
         |
         v
+-------------------+
| Feature Build     |  User features, Order features (incremental)
+--------+----------+
         |
         v
+-------------------+
| Validate Features |  Great Expectations
+--------+----------+
         |
         v
[Output: Feature store tables]

Quick Start

Install dependencies:

pip install -r requirements.txt

Initialize Great Expectations:

great_expectations init

Run extract:

python pipelines/extract/extract_orders_api.py \
  --from-date 2024-01-01 \
  --to-date 2024-01-02 \
  --output-path ./data/raw/orders

Run dbt:

cd dbt_project
dbt run

Build features:

python pipelines/features/build_user_features.py --as-of-date 2024-01-02

License

MIT License

Author

Mehdi Jahani

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
dags		dags
dbt_project		dbt_project
pipelines		pipelines
.gitignore		.gitignore
Dockerfile		Dockerfile
EXECUTION_REPORT.md		EXECUTION_REPORT.md
README.md		README.md
SPEC.md		SPEC.md
docker-compose.yml		docker-compose.yml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ML Feature Pipeline & Data Quality Platform

Overview

Architecture

Quick Start

License

Author

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

ML Feature Pipeline & Data Quality Platform

Overview

Architecture

Quick Start

License

Author

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages