Este repositorio reúne todo el recorrido de aprendizaje en Ciencia de Datos, desde los fundamentos básicos de estadística hasta modelos avanzados de Deep Learning y Big Data, en el contexto del programa Talento Digital en Chile.
- Python: sintaxis, estructuras de datos, funciones, POO.
- Entorno de desarrollo: Jupyter Notebooks, Google Colab, VSCode.
- Control de versiones con Git y GitHub.
- Tipos de datos, medidas de tendencia central y dispersión.
- Variables aleatorias y distribuciones (normal, binomial, Poisson).
- Inferencia estadística: estimación de parámetros, intervalos de confianza, test de hipótesis (t-test, chi-cuadrado, ANOVA).
- Correlación y regresión lineal.
- Pandas, NumPy: limpieza, filtrado, agregaciones.
- Visualización: Matplotlib, Seaborn, Plotly.
- Análisis exploratorio (EDA).
- Conceptos de aprendizaje supervisado y no supervisado.
- Modelos clásicos:
- Regresión lineal y logística.
- Árboles de decisión, Random Forest, Gradient Boosting (XGBoost, LightGBM).
- KNN, SVM, Clustering (K-means, DBSCAN).
- Evaluación de modelos: métricas (accuracy, precision, recall, F1-score, ROC-AUC), validación cruzada, ajuste de hiperparámetros.
- Fundamentos de redes neuronales: perceptrón, funciones de activación.
- Redes Feedforward, Convolucionales (CNN) y Recurrentes (RNN, LSTM).
- Frameworks: TensorFlow, Keras, PyTorch.
- Técnicas avanzadas:
- Transfer Learning.
- Redes Generativas (GANs).
- Optimización y regularización.
- Introducción a Big Data y arquitecturas distribuidas.
- Procesamiento con Hadoop, Spark y PySpark.
- Bases de datos: relacionales (SQL) y no relacionales (MongoDB).
- Procesamiento en tiempo real y streaming de datos.
- Dashboards interactivos con Tableau, Power BI, Plotly Dash.
- Data storytelling: cómo presentar resultados para la toma de decisiones.
- Desarrollo de un proyecto completo que integre:
- Adquisición y limpieza de datos.
- Modelado predictivo.
- Visualización y comunicación de resultados.
- Documentación técnica y presentación ejecutiva.
- Python 3.9+
- Bibliotecas principales: ver archivo
requirements.txt - Instalación de dependencias:
pip install -r requirements.txtgit clone https://github.com/usuario/talento-digital-ciencia-datos.git
cd talento-digital-ciencia-datos