Análisis del dataset TMDB para predecir el éxito financiero de películas. Se aplicaron modelos de ML supervisados y no supervisados (regresión, clasificación, clustering), explorando relaciones entre presupuesto, ROI, popularidad y otros factores clave.
Jeferson Jair Acevedo Sarmiento, Jose David Rueda Bonilla, Andrés Felipe Avella Rubiano
El objetivo de este proyecto es analizar datos de películas del dataset TMDB y aplicar técnicas de aprendizaje automático supervisado y no supervisado para predecir su éxito financiero, identificando los factores que más influyen en el retorno de inversión y popularidad.
https://www.kaggle.com/datasets/tmdb/tmdb-movie-metadata El conjunto de datos TMDB 5000 Movie Dataset disponible en Kaggle proporciona información detallada sobre aproximadamente 5,000 películas extraídas de The Movie Database (TMDb). Este dataset es ampliamente utilizado para análisis de datos y proyectos de aprendizaje automático relacionados con la industria cinematográfica. Kaggle
El conjunto de datos incluye información detallada sobre aproximadamente 5,000 películas y se compone principalmente de dos archivos:
movies_metadata.csv: Contiene datos generales de cada película, como título, presupuesto, ingresos, fecha de lanzamiento, duración, idioma original, resumen, géneros, estado de publicación, popularidad, puntaje promedio de votos y número de votos, además de detalles sobre compañías y países de producción.
credits.csv: Incluye el elenco y el equipo técnico de cada película, organizados por título e ID, permitiendo análisis centrados en actores, directores y otros roles clave.
Preprocesamiento: Eliminación de valores nulos, Agregacion de las columnas ROI y success, Cambiar formato de la columna fecha, Obtener genero principal.
Estadisticos: Matriz de correlación, Histograma, Función de Densidad de Probabilidad (PDF), Cumulative Distribution Function (CDF), Violinplot, Scatterplot, Pairplot, Algoritmo genetico.
Regresión: Regresión Lineal, Histograma de Residuales, Random Forest Regressor, Multilayer Perceptron.
Clasificadores: Random Forest Classifier, Support Vector Classifier, K-Nearest Neighbors (KNN), Regresión Logística
No Supervisados: K-Means, Analisis de Componentes Principales
https://colab.research.google.com/drive/1Jwktq_zszvIEhmlOjhndDcNBgyE1bQ4r?usp=sharing