English / Français
Analyze and predict residential rental prices in Cocody (Abidjan) using publicly available online listings, and identify the most decisive structural and locational determinants through econometric and machine learning models.
This project was conducted as part of a university data science coursework at the African School of Economics.
Rental housing data were collected from public online listings published on CoinAfrique.
The objective was not only predictive performance, but also interpretability, methodological rigor, and reproducibility in a data-scarce African urban context.
The study is deliberately restricted to the commune of Cocody, due to higher data density, better location precision, and more reliable listing descriptions compared to other communes of Abidjan.
- Data Collection:
Rental listings were scraped from CoinAfrique using custom Python scripts. Public information only (price, surface, rooms, amenities, descriptions, URLs). - Raw Data Storage:
Scraped listings were stored in CSV format for traceability and reproducibility. - Data Cleaning & Feature Engineering:
Cleaning, normalization, log-transformations, extraction of sub-areas, and creation of binary amenity variables. - Exploratory Data Analysis:
Descriptive statistics and visualizations to understand price distributions and spatial heterogeneity. - Modeling & Comparison:
Estimation of a hedonic linear regression and comparison with machine learning models. - Reporting:
Results documented in a structured academic report (LaTeX) and shared publicly via GitHub.
- Python (pandas, numpy, scikit-learn, catboost)
- Jupyter Notebook for reproducible analysis
- Web scraping tools (requests, BeautifulSoup)
- Matplotlib / Seaborn for visualization
- LaTeX for academic report writing
- Linear Regression (hedonic benchmark)
- Random Forest Regressor
- CatBoost Regressor
Target variable: log(monthly rent in FCFA)
Evaluation metrics:
- R²
- Mean Absolute Error (MAE, FCFA)
- Rental prices are primarily driven by:
- surface area,
- number of rooms and bathrooms,
- fine-grained intra-communal location (sub-area).
- Linear regression achieves competitive performance (R² ≈ 0.60).
- Machine learning models provide only marginal predictive gains, confirming the strong explanatory power of well-engineered features.
- CatBoost yields the lowest MAE (~210,000 FCFA).
These results are consistent with hedonic pricing theory and existing real estate literature.
- Real-world Web Data: 1,209 apartment listings from Cocody.
- Transparent Data Pipeline: Each processing step documented and reproducible.
- Model Comparison: Econometric vs. machine learning approaches.
- Interpretability First: Explicit analysis of coefficients and feature importance.
- Academic Framing: Clear justification of methodological choices and limitations.
- 📂 GitHub Repository
- 📄 Report (PDF)
- The importance of feature engineering in data-scarce environments
- Limits of complex models when key explanatory variables are already strong
- Practical challenges of working with online housing listings
- Trade-off between interpretability and predictive performance
-
📄 Academic Report (PDF)
This report was produced as part of a university exercise.
It details the data collection process, cleaning strategy, modeling choices, results, discussion, and limitations.
Français / English
Analyser et prédire les loyers résidentiels à Cocody (Abidjan) à partir d’annonces immobilières en ligne, et identifier les déterminants structurels et spatiaux les plus influents à l’aide de modèles économétriques et de machine learning.
Ce projet a été réalisé dans le cadre d’un exercice universitaire en data science à l’African School of Economics.
Les données proviennent d’annonces de location publiées sur la plateforme CoinAfrique.
L’objectif n’est pas uniquement prédictif, mais aussi analytique : comprendre les mécanismes de formation des loyers dans un contexte urbain africain marqué par une forte hétérogénéité spatiale.
L’étude est volontairement restreinte à la commune de Cocody, en raison d’une meilleure qualité des données, d’une localisation plus précise et d’une densité d’annonces plus élevée.
- Collecte des données :
Scraping automatisé des annonces de location depuis CoinAfrique (données publiques uniquement). - Stockage des données brutes :
Sauvegarde des annonces au format CSV pour assurer la traçabilité. - Nettoyage et ingénierie des variables :
Normalisation, transformations logarithmiques, extraction des sous-zones, création de variables binaires. - Analyse exploratoire :
Statistiques descriptives et visualisations pour explorer la distribution des loyers. - Modélisation et comparaison :
Estimation d’un modèle hédonique linéaire et comparaison avec des modèles de machine learning. - Rédaction du rapport :
Présentation des résultats dans un rapport académique structuré.
- Python (pandas, numpy, scikit-learn, catboost)
- Jupyter Notebook pour l’analyse reproductible
- Outils de web scraping (requests, BeautifulSoup)
- Matplotlib / Seaborn pour la visualisation
- LaTeX pour la rédaction du rapport académique
- Régression linéaire multiple (modèle hédonique)
- Random Forest
- CatBoost
Variable cible : log(loyer mensuel en FCFA)
Métriques d’évaluation :
- R²
- MAE (erreur absolue moyenne, FCFA)
- Les loyers sont principalement expliqués par :
- la surface du logement,
- le nombre de pièces et de salles de bain,
- la localisation intra-communale.
- Le modèle linéaire atteint une performance solide (R² ≈ 0,60).
- Les modèles de machine learning n’apportent que des gains marginaux.
- CatBoost présente la plus faible MAE (~210 000 FCFA).
Ces résultats confirment les principes de l’économie hédonique du logement.
- Données issues d’annonces réelles : 1 209 logements à Cocody.
- Pipeline clair et reproductible
- Comparaison économétrie / machine learning
- Accent sur l’interprétabilité
- Cadre académique rigoureux
- 📂 Dépôt GitHub
- 📄 Rapport (PDF)
- Importance de l’ingénierie des variables
- Limites des modèles complexes en contexte de données imparfaites
- Difficultés liées aux données issues du web
- Équilibre entre performance prédictive et interprétation économique
-
📄 Rapport académique (PDF)
Rapport rédigé dans le cadre d’un exercice universitaire.
Il détaille la méthodologie, les résultats, la discussion et les limites de l’étude.