Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension


Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
74 changes: 14 additions & 60 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,4 +1,4 @@
# Introducción al Machine Learning con Python
# Análisis de datos con Python

## Requisitos

Expand All @@ -7,80 +7,34 @@
- pandas
- matplotlib
- seaborn
- scikit-learn

- Conocimientos de Python 3.9+

## Temario

### 1. Introducción a Python para Data Science (aprox. 1h)
### Módulo 1: Manipulación de datos con Python (10 hrs)

1. Entorno de trabajo
2. Repaso conceptos básicos
3. Estructuras de datos: listas, tuplas y diccionarios
En este módulo se centran los esfuerzos en saber cómo tratar la información en los formatos más extendidos con los que se almacenan los datos que se quieren analizar. Estos formatos son XML, JSON, CSV o bien datos almacenados en bases de datos relacionales o no relacionales.

### 2. EDA con Pandas (aprox. 7 horas)
- Acceso a información en Bases de Datos noSQL: MongoDB
- Acceso a información en Bases de Datos relacionales: SQLite y MySQL
- Gestión de fuentes de información: XML
- Gestión de fuentes de información: CSV y JSON
- Introducción al lenguaje de Programación Python.

1. Estructuras de datos: `DataFrame` y `Series`
2. Importar datos
3. Filtrado de filas y columnas
4. Estadísticas descriptivas
5. Operaciones agrupadas
6. Visualización
### Módulo 2: Data Analytics con Python (10 hrs)

### 3. Machine Learning práctico con scikit-learn (aprox. 10 horas)
Dentro de las diferentes partes del ciclo del análisis de datos, se encuentra el procesamiento de la información y la visualización de los resultados obtenidos con el objetivo de interpretarlos. Para esta tarea Python dispone de potentes librerías entre las cuales se encuentran Numpy, Pandas y Matplotlib. Así mismo Python dispone de un conjunto de funciones estadísticas que facilitan la realización de diferentes tipos de análisis estadísticos.

1. Introducción al Machine Learning [[presentación]](https://albertotb.com/curso-inap/big_data.html)
2. Introducción a scikit-learn
3. Conjuntos de datos
4. Preproceso
5. Modelos lineales de regresión: Ridge, Lasso, Elastic Net.
6. Modelos lineales de clasificación: regresión logística
7. K-Vecinos próximos
8. Árboles de decisión
9. Ensembles: bagging y boosting
- Random Forest
- Gradient Boosting
10. Métricas para evaluar modelos
11. Introducción a modelos no supervisados: K-means

### 4.Introducción a transformers (aprox. 2 horas)

1. Clasificación de texto
2. Clasificación de texto zero-shot

### 5. Despliegue de modelos (aprox. 3 horas)

1. Combinación de modelos
2. Persistencia de modelos
3. Gestión de ciclo vida de modelos:
- Despliegue de modelos con FastAPI y Docker [[repositorio]](https://github.com/albertotb/sklearn_fastapi_docker)
- Registro y análisis de parámetros y métricas
- Caso práctico guiado: Kaggle
- La librería Numpy
- La librería Pandas.
- Visualización de resultados con Matplotlib.
- Otras herramientas de análisis estadístico.

## Referencias

General

- [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/)
- [Machine Learning tutorials](https://github.com/ethen8181/machine-learning)
- [scikit-learn MOOC](https://www.fun-mooc.fr/en/courses/machine-learning-python-scikit-learn/)
- [Machine Learning (Loyola University Chicago)](https://github.com/dmitriydligach/PyMLSlides)
- [Machine Learning (University Wisconsin-Madison)](https://github.com/rasbt/stat479-machine-learning-fs19)
- [Applied Machine Learning (Columbia University)](https://github.com/amueller/COMS4995-s20)
- [Applied Machine Learning in Python](https://amueller.github.io/aml/)
- [Introduction to Machine Learning in Python (workshop)](https://github.com/amueller/ml-workshop-1-of-4)
- [Pandas Cookbook](https://github.com/jvns/pandas-cookbook)
- [Curso numpy y pandas básico](https://github.com/guiwitz/NumpyPandas_course)
- [Python for Data Analysis (github)](https://github.com/wesm/pydata-book)
- [machine learning tutorials](https://github.com/ethen8181/machine-learning)

Transformers

- Hugging Face. [NLP Course](https://huggingface.co/learn/nlp-course/chapter1/1)
- Hugging Face. [The transformer model family](https://huggingface.co/docs/transformers/en/model_summary)
- Hugging Face. [Transformers](https://huggingface.co/docs/transformers/en/index)
- Hugging Face. [Models](https://huggingface.co/models?sort=trending)
- Hugging Face. [Pretrained models](https://huggingface.co/transformers/v3.3.1/pretrained_models.html)
- [The most popular HuggingFace models](https://medium.com/@nzungize.lambert/the-most-popular-huggingface-models-d67eaaea392c)
- [Hugging Face Pre-trained Models: Find the Best One for Your Task](https://neptune.ai/blog/hugging-face-pre-trained-models-find-the-best)
4 changes: 4 additions & 0 deletions data/202212.json

Large diffs are not rendered by default.

Loading