🏎️ Formula 1 Data Engineering & Analysis Pipeline

This repository contains an end-to-end pipeline for retrieving, cleaning, storing, and analyzing Formula 1 historical racing data.
It supports structured data ingestion from the Ergast Developer API, transformation into consistent tabular formats, and exploration through summary statistics and visualizations.

🚦 Key Features

✔ Programmatic Data Retrieval

Uses the Ergast F1 API to fetch:

Race results
Driver standings
Constructor standings
Circuits and tracks
Qualifying results
Pit stop summaries
Race schedules

✔ Local Caching

Fetched data is stored in:

CSV files
SQLite databases
Local API cache files

This avoids redundant API calls and ensures efficient reproducibility.

✔ Clean & Unified Data

Raw API responses are standardized, merged, and validated into structured datasets suitable for analysis.

✔ Reproducible Analysis Workflow

Includes:

Step-by-step notebooks
Documented methodology in Quarto
Visualizations and summary analytics

📂 Repository Structure

At a high level, the repository contains the following components:

📘 Quarto Documents

A collection of .qmd files that document the full project workflow, including:

Data source documentation
Retrieval logic
Cleaning and transformation steps
Analysis methodology
Testing approach
Reproducibility practices

These provide a narrative explanation of the pipeline from start to finish.

📓 Jupyter Notebooks

Interactive notebooks used for structured data processing and exploratory analysis:

data_extract.ipynb — Retrieves raw Formula 1 datasets from the Ergast API and caches them locally.
clean.ipynb — Cleans, standardizes, and merges raw API data into structured analytical tables.
summarystats.ipynb — Generates descriptive statistics and season-level summary metrics.
viz.ipynb — Creates exploratory visualizations of driver, constructor, and race performance.

📁 Data and Cache Files

Includes raw, intermediate, and processed data:

CSV files with race results, standings, schedules, circuits, pit stops, and merged datasets
SQLite databases (f1_data.db, etc.) for efficient local storage
API cache files (e.g., ergast_cache.sqlite) to prevent repeated data downloads

These assets support reproducibility and fast iteration.

🛠 Python Utilities and Tests

data_loading_functions.py — Contains reusable helper functions for loading and querying datasets.
test_data_processing.py — Basic tests verifying data integrity, schema consistency, and correctness of the cleaning steps.

📎 Supporting Files

requirements.txt — Python dependencies for running notebooks and scripts
styles.css — Styling for Quarto-rendered documents
Additional project artifacts such as poster.pdf and commitgraph.jpg

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.github		.github
CSV		CSV
cache		cache
.gitattributes		.gitattributes
.gitignore		.gitignore
01_document_sources.qmd		01_document_sources.qmd
02_automated_retrieval.qmd		02_automated_retrieval.qmd
03_raw_to_tabular.qmd		03_raw_to_tabular.qmd
04_enrichment.qmd		04_enrichment.qmd
05_cleaning.qmd		05_cleaning.qmd
06_test_quality.qmd		06_test_quality.qmd
07_format_conversion.qmd		07_format_conversion.qmd
08_backup_external_service.qmd		08_backup_external_service.qmd
09_summary_stats.qmd		09_summary_stats.qmd
10_statistical_ML.qmd		10_statistical_ML.qmd
11_visualizations.qmd		11_visualizations.qmd
12_webpage.qmd		12_webpage.qmd
13_interactive.qmd		13_interactive.qmd
14_poster.qmd		14_poster.qmd
15_commit.qmd		15_commit.qmd
16_tests.qmd		16_tests.qmd
17_continuous_testing.qmd		17_continuous_testing.qmd
18_continuous_integration.qmd		18_continuous_integration.qmd
19_python_package.qmd		19_python_package.qmd
20_reproducibility.qmd		20_reproducibility.qmd
README.md		README.md
_quarto.yml		_quarto.yml
api_cache.sqlite		api_cache.sqlite
backup.ipynb		backup.ipynb
cache.zip		cache.zip
circuits.csv		circuits.csv
clean.ipynb		clean.ipynb
commitgraph.jpg		commitgraph.jpg
constructors.csv		constructors.csv
constructorstandings.csv		constructorstandings.csv
data_extract.ipynb		data_extract.ipynb
data_loading_functions.py		data_loading_functions.py
driverstandings.csv		driverstandings.csv
ergast_cache.sqlite		ergast_cache.sqlite
f1.png		f1.png
f1_data.db		f1_data.db
f1_data_1.db		f1_data_1.db
fastestlaps.csv		fastestlaps.csv
fastf1_http_cache.sqlite		fastf1_http_cache.sqlite
index.qmd		index.qmd
mergeddata.csv		mergeddata.csv
pitstops.csv		pitstops.csv
poster.pdf		poster.pdf
qualifyingresults.csv		qualifyingresults.csv
raceresults.csv		raceresults.csv
races.csv		races.csv
raceschedule.csv		raceschedule.csv
requirements.txt		requirements.txt
styles.css		styles.css
summarystats.ipynb		summarystats.ipynb
tags		tags
test_data_processing.py		test_data_processing.py
viz.ipynb		viz.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🏎️ Formula 1 Data Engineering & Analysis Pipeline

🚦 Key Features

✔ Programmatic Data Retrieval

✔ Local Caching

✔ Clean & Unified Data

✔ Reproducible Analysis Workflow

📂 Repository Structure

📘 Quarto Documents

📓 Jupyter Notebooks

📁 Data and Cache Files

🛠 Python Utilities and Tests

📎 Supporting Files

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

prernanookala/Formula-1-Data-Analysis

Folders and files

Latest commit

History

Repository files navigation

🏎️ Formula 1 Data Engineering & Analysis Pipeline

🚦 Key Features

✔ Programmatic Data Retrieval

✔ Local Caching

✔ Clean & Unified Data

✔ Reproducible Analysis Workflow

📂 Repository Structure

📘 Quarto Documents

📓 Jupyter Notebooks

📁 Data and Cache Files

🛠 Python Utilities and Tests

📎 Supporting Files

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages