Proyecto de Ciencia de Datos Aplicada en la Industria Inmobiliaria

Este repositorio está destinado a estudiantes de ciencia de datos aplicada. Detalla un proceso completo de desarrollo de un proyecto de ciencia de datos, que abarca desde la preparación de los datos hasta la implementación de modelos de predicción. Es una guía práctica para comprender proyectos de ciencia de datos del mundo real, enfocado en la industria inmobiliaria.

Descripción del Proyecto

El objetivo del proyecto es construir un modelo que permita predecir la probabilidad de compra de propiedades por parte de los clientes, basándose en un conjunto de datos relacionados con transacciones inmobiliarias y comportamiento de los clientes. Se incluyen las siguientes fases del proyecto:

Recopilación y preparación de datos: Carga y limpieza de datos desde una base de datos SQLite.
Creación de nuevas características (features): Desarrollo de variables clave como Salario_MarcaClase, TOTALVENTAS, TOTALMONTOVENDIDO, entre otras.
Imputación de valores faltantes: Tratamiento de valores nulos o faltantes en variables críticas como EstadoCivil y InteresMetraje, usando técnicas supervisadas.
Análisis de Clústeres (K-means): Segmentación de clientes utilizando clustering para identificar patrones y tendencias.
Modelo Supervisado (Random Forest): Predicción de la probabilidad de compra de propiedades usando un modelo de clasificación.
Visualización: Uso de gráficos interactivos para analizar las diferencias en los clústeres y visualizar las probabilidades de compra.

Estructura del Proyecto

1. Preparación de los datos

Carga y limpieza: Los datos se obtienen de una base de datos SQLite, realizando las transformaciones necesarias para preparar los datos para el análisis.
Imputación: Se corrigen los valores faltantes en variables importantes como EstadoCivil, usando un modelo de Árbol de Decisión para imputar valores en función de otras características.
Creación de características: Variables adicionales son creadas a partir de los datos brutos, como InteresMetraje_MarcaClase y Salario_MarcaClase.

2. Análisis de Clústeres (K-means)

Segmentación de clientes: Se usa el algoritmo K-means para agrupar clientes basándose en variables como TOTALVENTAS, TOTALMONTOVENDIDO y Salario_MarcaClase.
Visualización de clústeres: Gráficos interactivos muestran las diferencias entre los clústeres, ayudando a interpretar las características que definen a cada grupo de clientes.

3. Modelo Supervisado (Random Forest)

Modelo de clasificación: Se construye un modelo de Random Forest para predecir la probabilidad de que un cliente realice una compra de propiedad.
Matriz de confusión: Se utiliza para evaluar el rendimiento del modelo.
Probabilidades de compra: Se obtienen y visualizan las probabilidades de compra para cada cliente, lo que facilita la toma de decisiones en la estrategia de ventas.

4. Visualización Interactiva con Plotly

Gráficos de cuadrantes: Se usan gráficos tipo cuadrantes para comparar variables como TOTALMONTOVENDIDO con las probabilidades de compra.
Gráficos de dispersión y boxplots: Visualizaciones interactivas que permiten explorar las diferencias entre clústeres y probabilidades de compra.

Requisitos

Este proyecto utiliza Python y requiere las siguientes librerías:

pandas
scikit-learn
plotly
matplotlib
sqlite3
seaborn (opcional)

Puedes instalar todas las dependencias ejecutando:

pip install -r requirements.txt

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
README.md		README.md
caso_inmobiliaria.ipynb		caso_inmobiliaria.ipynb
db_casoInmobiliaria_DS_course (1).db		db_casoInmobiliaria_DS_course (1).db

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Proyecto de Ciencia de Datos Aplicada en la Industria Inmobiliaria

Descripción del Proyecto

Estructura del Proyecto

1. Preparación de los datos

2. Análisis de Clústeres (K-means)

3. Modelo Supervisado (Random Forest)

4. Visualización Interactiva con Plotly

Requisitos

About

Uh oh!

Releases

Packages

Languages

HaroldSthid/UDistrital_DS_StudyCase24-2

Folders and files

Latest commit

History

Repository files navigation

Proyecto de Ciencia de Datos Aplicada en la Industria Inmobiliaria

Descripción del Proyecto

Estructura del Proyecto

1. Preparación de los datos

2. Análisis de Clústeres (K-means)

3. Modelo Supervisado (Random Forest)

4. Visualización Interactiva con Plotly

Requisitos

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages