End-To-End-Streaming-Big-Data

End-To-End Streaming Big Data Project makes big data processing easy with Airflow, Kafka, Spark, MinIO and much more!!

Dataset:

This project uses Amazon Sales Report data, you can find the data here: https://github.com/AshaoluV/Amazon-Sales-Project/blob/main/Amazon%20Sales.csv

Star Schema Model

Tools & Technologies

Streaming, Batching Data Process: Apache Kafka, Apache Spark.
IDE: Pycharm
Programming Languages: Python.
Data Orchestration Tool: Apache Airflow.
Data Lake/ Data Lakehouse: DeltaLake, MinIO.
Data Visualization Tool: Superset.
Containerization: Docker, Docker Compose.
Query Engine: DBeaver, Trino.
Data Transformation, Data Modeling and Data Warehousing: dbt, PostgreSQL

Architecture

Setup

Pre-requisites:

First, you'll have your Pycharm IDE, Docker, Apache Kafka, Apache Spark and Apache Airflow setup in your project.
In your terminal, create a python virtual environment to work with, run (if you are using Windows):

python -m venv venv
venv\Scripts\activate
python -m pip install -r requirements.txt (download all required libraries for the project)

Launch Docker: docker compose up -d
Run event_streaming python file in Kafka events.

Run the command: python spark_streaming/sales_delta_spark_to_minio.py (submiting spark job and stream the data to MinIO)
Access the service:

Confluent Control Center for Kafka is accessible at http://localhost:9021.

MinIO is accessible at http://localhost:9001.

Trino is accessible at http://localhost:8084.

How can I make this better?!

A lot can still be done :)

Choose managed Infra
- Cloud Composer for Airflow, Kafka and Spark using AWS.
Kafka Streaming process monitering with Prometheus and Grafana.
Include CI/CD Operations.
Write data quality tests.
Storage Layer Deployment with AWS S3 and Terraform.

Name		Name	Last commit message	Last commit date
Latest commit History 68 Commits
.idea		.idea
airflow		airflow
batch_processing		batch_processing
data		data
dbt_amazon_sales		dbt_amazon_sales
debezium		debezium
images		images
kafka_streaming		kafka_streaming
minio_streaming		minio_streaming
scripts		scripts
spark_streaming		spark_streaming
trino		trino
utils		utils
.env		.env
.gitignore		.gitignore
LICENSE		LICENSE
Makefile		Makefile
README.md		README.md
airflow-docker-compose.yml		airflow-docker-compose.yml
docker-compose.yaml		docker-compose.yaml
requirements.txt		requirements.txt
storage-docker-compose.yaml		storage-docker-compose.yaml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

End-To-End-Streaming-Big-Data

End-To-End Streaming Big Data Project makes big data processing easy with Airflow, Kafka, Spark, MinIO and much more!!

Top Contents:

Dataset:

Star Schema Model

Tools & Technologies

Architecture

Setup

Pre-requisites:

How can I make this better?!

About

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

License

dain55788/End-To-End-Streaming-Big-Data

Folders and files

Latest commit

History

Repository files navigation

End-To-End-Streaming-Big-Data

End-To-End Streaming Big Data Project makes big data processing easy with Airflow, Kafka, Spark, MinIO and much more!!

Top Contents:

Dataset:

Star Schema Model

Tools & Technologies

Architecture

Setup

Pre-requisites:

How can I make this better?!

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Uh oh!

Contributors

Uh oh!

Languages