🚀 OAR Data Science Pipeline

📋 Description

End-to-end data pipeline for the Open Apparel Registry (OAR). The project extracts, cleans, analyzes, and visualizes company and facility data across 7 target countries using an OAR-style dataset.

🚀 Quick Installation

# Clone the repository
git clone https://github.com/your-username/oar-data-pipeline.git
cd oar-data-pipeline

# Create virtual environment
python -m venv venv

# Windows
venv\Scripts\activate

# Mac / Linux
source venv/bin/activate

# Install dependencies
pip install -r requirements.txt

🏃 Execution

Option 1: Run full pipeline

python main.py

Option 2: Run step by step

python scrape_oar.py           # Data extraction
python clean_companies.py      # Company cleaning
python clean_facilities.py     # Facility cleaning
python relational_builder.py   # Relational modeling
python analytics_dashboards.py # Visual analytics
python ai_module.py            # AI analysis
python export_final.py         # Final export

📁 Project Structure

oar-data-pipeline/
├── main.py
├── scrape_oar.py
├── clean_companies.py
├── clean_facilities.py
├── relational_builder.py
├── analytics_dashboards.py
├── ai_module.py
├── export_final.py
├── requirements.txt
├── README.md
└── .gitignore

📊 Features

Phase 1: Extraction

Automated data ingestion (API or synthetic fallback)
Filtering by target countries
Automatic test data generation if API is unavailable

Phase 2: Cleaning

Company name normalization
Country name standardization
Unique ID generation
Duplicate removal

Phase 3: Relational Modeling

Companies, Facilities, and Link tables
Referential integrity checks
Data consistency validation

Phase 4: Analytics

Companies per country visualization
Facilities per company distribution
Sector-based analysis
Statistical summaries

Phase 5: AI Module

Sustainability keyword detection
Automatic text summarization
Sustainability scoring

Phase 6: Export

CSV, JSON, and Excel formats
Auto-generated documentation
Timestamped archives

🎯 Target Countries

🇲🇦 Morocco
🇪🇸 Spain
🇵🇹 Portugal
🇮🇹 Italy
🇫🇷 France
🇬🇷 Greece
🇲🇹 Malta

🔧 Technologies Used

Python 3.11
pandas
requests
matplotlib
scikit-learn
hashlib

📈 Results

Generated Files

data/outputs/relational_companies.csv
data/outputs/relational_facilities.csv
data/outputs/ai_analysis.csv
companies_by_country.png
facilities_per_company.png

Key Metrics

10,000+ companies processed
15,000+ facilities extracted
Automated sustainability detection
Multi-format exports

🙏 Acknowledgements

Open Apparel Registry
CommonShare
Python open-source community

📧 Contact

Ayoub Aguezar
Software & Data Engineering Student

📄 License

MIT License – see LICENSE file for details.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🚀 OAR Data Science Pipeline

📋 Description

🚀 Quick Installation

🏃 Execution

Option 1: Run full pipeline

Option 2: Run step by step

📁 Project Structure

📊 Features

Phase 1: Extraction

Phase 2: Cleaning

Phase 3: Relational Modeling

Phase 4: Analytics

Phase 5: AI Module

Phase 6: Export

🎯 Target Countries

🔧 Technologies Used

📈 Results

Generated Files

Key Metrics

🙏 Acknowledgements

📧 Contact

📄 License

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
img		img
.gitignore		.gitignore
License		License
README.md		README.md
ai_module.py		ai_module.py
analytics_dashboards.py		analytics_dashboards.py
clean_companies.py		clean_companies.py
clean_facilities.py		clean_facilities.py
export_final.py		export_final.py
main.py		main.py
relational_builder.py		relational_builder.py
requirements.txt		requirements.txt
scrape_oar.py		scrape_oar.py

License

Ayoub-glitsh/OAR-Data-Science-Pipeline

Folders and files

Latest commit

History

Repository files navigation

🚀 OAR Data Science Pipeline

📋 Description

🚀 Quick Installation

🏃 Execution

Option 1: Run full pipeline

Option 2: Run step by step

📁 Project Structure

📊 Features

Phase 1: Extraction

Phase 2: Cleaning

Phase 3: Relational Modeling

Phase 4: Analytics

Phase 5: AI Module

Phase 6: Export

🎯 Target Countries

🔧 Technologies Used

📈 Results

Generated Files

Key Metrics

🙏 Acknowledgements

📧 Contact

📄 License

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages