Skip to content

fobahsalomon/cocody-rental-market-analysis

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Econometric and Machine Learning Analysis of the Rental Market in Cocody (Abidjan)

English / Français


English Version

Objective

Analyze and predict residential rental prices in Cocody (Abidjan) using publicly available online listings, and identify the most decisive structural and locational determinants through econometric and machine learning models.

Context

This project was conducted as part of a university data science coursework at the African School of Economics.

Rental housing data were collected from public online listings published on CoinAfrique.
The objective was not only predictive performance, but also interpretability, methodological rigor, and reproducibility in a data-scarce African urban context.

The study is deliberately restricted to the commune of Cocody, due to higher data density, better location precision, and more reliable listing descriptions compared to other communes of Abidjan.


Project Timeline & Workflow

  1. Data Collection:
    Rental listings were scraped from CoinAfrique using custom Python scripts. Public information only (price, surface, rooms, amenities, descriptions, URLs).
  2. Raw Data Storage:
    Scraped listings were stored in CSV format for traceability and reproducibility.
  3. Data Cleaning & Feature Engineering:
    Cleaning, normalization, log-transformations, extraction of sub-areas, and creation of binary amenity variables.
  4. Exploratory Data Analysis:
    Descriptive statistics and visualizations to understand price distributions and spatial heterogeneity.
  5. Modeling & Comparison:
    Estimation of a hedonic linear regression and comparison with machine learning models.
  6. Reporting:
    Results documented in a structured academic report (LaTeX) and shared publicly via GitHub.

Technologies Used

  • Python (pandas, numpy, scikit-learn, catboost)
  • Jupyter Notebook for reproducible analysis
  • Web scraping tools (requests, BeautifulSoup)
  • Matplotlib / Seaborn for visualization
  • LaTeX for academic report writing

Models Implemented

  • Linear Regression (hedonic benchmark)
  • Random Forest Regressor
  • CatBoost Regressor

Target variable: log(monthly rent in FCFA)

Evaluation metrics:

  • R²
  • Mean Absolute Error (MAE, FCFA)

Results

  • Rental prices are primarily driven by:
    • surface area,
    • number of rooms and bathrooms,
    • fine-grained intra-communal location (sub-area).
  • Linear regression achieves competitive performance (R² ≈ 0.60).
  • Machine learning models provide only marginal predictive gains, confirming the strong explanatory power of well-engineered features.
  • CatBoost yields the lowest MAE (~210,000 FCFA).

These results are consistent with hedonic pricing theory and existing real estate literature.


Key Features

  • Real-world Web Data: 1,209 apartment listings from Cocody.
  • Transparent Data Pipeline: Each processing step documented and reproducible.
  • Model Comparison: Econometric vs. machine learning approaches.
  • Interpretability First: Explicit analysis of coefficients and feature importance.
  • Academic Framing: Clear justification of methodological choices and limitations.

Links


Lessons Learned

  • The importance of feature engineering in data-scarce environments
  • Limits of complex models when key explanatory variables are already strong
  • Practical challenges of working with online housing listings
  • Trade-off between interpretability and predictive performance

Additional Documentation

  • 📄 Academic Report (PDF)
    This report was produced as part of a university exercise.
    It details the data collection process, cleaning strategy, modeling choices, results, discussion, and limitations.

    => View the full report


Français

Français / English

Objectif

Analyser et prédire les loyers résidentiels à Cocody (Abidjan) à partir d’annonces immobilières en ligne, et identifier les déterminants structurels et spatiaux les plus influents à l’aide de modèles économétriques et de machine learning.

Contexte

Ce projet a été réalisé dans le cadre d’un exercice universitaire en data science à l’African School of Economics.

Les données proviennent d’annonces de location publiées sur la plateforme CoinAfrique.
L’objectif n’est pas uniquement prédictif, mais aussi analytique : comprendre les mécanismes de formation des loyers dans un contexte urbain africain marqué par une forte hétérogénéité spatiale.

L’étude est volontairement restreinte à la commune de Cocody, en raison d’une meilleure qualité des données, d’une localisation plus précise et d’une densité d’annonces plus élevée.


Timeline & Workflow

  1. Collecte des données :
    Scraping automatisé des annonces de location depuis CoinAfrique (données publiques uniquement).
  2. Stockage des données brutes :
    Sauvegarde des annonces au format CSV pour assurer la traçabilité.
  3. Nettoyage et ingénierie des variables :
    Normalisation, transformations logarithmiques, extraction des sous-zones, création de variables binaires.
  4. Analyse exploratoire :
    Statistiques descriptives et visualisations pour explorer la distribution des loyers.
  5. Modélisation et comparaison :
    Estimation d’un modèle hédonique linéaire et comparaison avec des modèles de machine learning.
  6. Rédaction du rapport :
    Présentation des résultats dans un rapport académique structuré.

Technologies utilisées

  • Python (pandas, numpy, scikit-learn, catboost)
  • Jupyter Notebook pour l’analyse reproductible
  • Outils de web scraping (requests, BeautifulSoup)
  • Matplotlib / Seaborn pour la visualisation
  • LaTeX pour la rédaction du rapport académique

Modèles utilisés

  • Régression linéaire multiple (modèle hédonique)
  • Random Forest
  • CatBoost

Variable cible : log(loyer mensuel en FCFA)

Métriques d’évaluation :

  • R²
  • MAE (erreur absolue moyenne, FCFA)

Résultats

  • Les loyers sont principalement expliqués par :
    • la surface du logement,
    • le nombre de pièces et de salles de bain,
    • la localisation intra-communale.
  • Le modèle linéaire atteint une performance solide (R² ≈ 0,60).
  • Les modèles de machine learning n’apportent que des gains marginaux.
  • CatBoost présente la plus faible MAE (~210 000 FCFA).

Ces résultats confirment les principes de l’économie hédonique du logement.


Fonctionnalités clés

  • Données issues d’annonces réelles : 1 209 logements à Cocody.
  • Pipeline clair et reproductible
  • Comparaison économétrie / machine learning
  • Accent sur l’interprétabilité
  • Cadre académique rigoureux

Liens


Enseignements

  • Importance de l’ingénierie des variables
  • Limites des modèles complexes en contexte de données imparfaites
  • Difficultés liées aux données issues du web
  • Équilibre entre performance prédictive et interprétation économique

Documentation complémentaire

  • 📄 Rapport académique (PDF)
    Rapport rédigé dans le cadre d’un exercice universitaire.
    Il détaille la méthodologie, les résultats, la discussion et les limites de l’étude.

    => Consulter le rapport complet

About

Hedonic pricing model analyzing rental determinants in Cocody, Abidjan. Features regression analysis, ML benchmarking, and bilingual reporting. 🇨🇮

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors