Este repositorio está destinado a estudiantes de ciencia de datos aplicada. Detalla un proceso completo de desarrollo de un proyecto de ciencia de datos, que abarca desde la preparación de los datos hasta la implementación de modelos de predicción. Es una guía práctica para comprender proyectos de ciencia de datos del mundo real, enfocado en la industria inmobiliaria.
El objetivo del proyecto es construir un modelo que permita predecir la probabilidad de compra de propiedades por parte de los clientes, basándose en un conjunto de datos relacionados con transacciones inmobiliarias y comportamiento de los clientes. Se incluyen las siguientes fases del proyecto:
- Recopilación y preparación de datos: Carga y limpieza de datos desde una base de datos SQLite.
- Creación de nuevas características (features): Desarrollo de variables clave como
Salario_MarcaClase,TOTALVENTAS,TOTALMONTOVENDIDO, entre otras. - Imputación de valores faltantes: Tratamiento de valores nulos o faltantes en variables críticas como
EstadoCivilyInteresMetraje, usando técnicas supervisadas. - Análisis de Clústeres (K-means): Segmentación de clientes utilizando clustering para identificar patrones y tendencias.
- Modelo Supervisado (Random Forest): Predicción de la probabilidad de compra de propiedades usando un modelo de clasificación.
- Visualización: Uso de gráficos interactivos para analizar las diferencias en los clústeres y visualizar las probabilidades de compra.
- Carga y limpieza: Los datos se obtienen de una base de datos SQLite, realizando las transformaciones necesarias para preparar los datos para el análisis.
- Imputación: Se corrigen los valores faltantes en variables importantes como
EstadoCivil, usando un modelo de Árbol de Decisión para imputar valores en función de otras características. - Creación de características: Variables adicionales son creadas a partir de los datos brutos, como
InteresMetraje_MarcaClaseySalario_MarcaClase.
- Segmentación de clientes: Se usa el algoritmo K-means para agrupar clientes basándose en variables como
TOTALVENTAS,TOTALMONTOVENDIDOySalario_MarcaClase. - Visualización de clústeres: Gráficos interactivos muestran las diferencias entre los clústeres, ayudando a interpretar las características que definen a cada grupo de clientes.
- Modelo de clasificación: Se construye un modelo de Random Forest para predecir la probabilidad de que un cliente realice una compra de propiedad.
- Matriz de confusión: Se utiliza para evaluar el rendimiento del modelo.
- Probabilidades de compra: Se obtienen y visualizan las probabilidades de compra para cada cliente, lo que facilita la toma de decisiones en la estrategia de ventas.
- Gráficos de cuadrantes: Se usan gráficos tipo cuadrantes para comparar variables como
TOTALMONTOVENDIDOcon las probabilidades de compra. - Gráficos de dispersión y boxplots: Visualizaciones interactivas que permiten explorar las diferencias entre clústeres y probabilidades de compra.
Este proyecto utiliza Python y requiere las siguientes librerías:
pandasscikit-learnplotlymatplotlibsqlite3seaborn(opcional)
Puedes instalar todas las dependencias ejecutando:
pip install -r requirements.txt