- Arquitectura de Transformers e imágenes como secuencias.
- Arquitecturas de ViT y el mecanismo de Attention.
- Ecosistema actual: Hugging Face y modelos preentrenados.
- GPT en NLP e ImageGPT.
- Modelos multimodales: combinación de visión y lenguaje (CLIP, DALL-E, ..)
- Segmentación con SAM y herramientas de auto etiquetado multimodales.
- OCR y detección con modelos multimodales.
- Presentación de los proyectos.
El proyecto debe ser entregado por grupos e incluir los siguientes elementos:
-
Proyecto estructurado en git que contenga:
-
Código funcional y modular (nivel-preproducción).
-
Informe técnico (pdf): Debe contener
- Objetivo del proyecto
- Arquitectura general (diagrama de flujo + descripción de componentes)
- Implementación técnica (herramientas, módulos clave)
- Evaluación (métricas de desempeño de modelos, agentes y RAG)
- Resultados y ejemplos
- Conclusiones y mejoras futuras
- Planificación del equipo (tabla con tareas, responsables y estado)
-
README orientativo.
-
-
Presentación final de 15 minutos en la clase 8: Enfocada en
- Análisis de los resultados más relevantes, con énfasis en las métricas utilizadas.
- Visualizaciones del modelo.
- Explicación de cómo el modelo puede aplicarse en un contexto real.
El código y el informe deben ser entregados a más tardar el dia de la clase 7.
En la evaluación final se tendrán en cuenta tanto los resultados de la encuesta como la presentación del proyecto final.
Rothman, D. (2024) "Transformers for Natural Language Processing and Computer Vision: Explore Generative AI and Large Language Models with Hugging Face, ChatGPT, GPT-4V, and DALL-E." Packt Publishing; 3rd edition.
Dosovitskiy, A., et al. (2020) "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." arXiv preprint arXiv:2010.11929. Link
Vaswani, A., et al. (2017) "Attention is All You Need." Advances in Neural Information Processing Systems (NeurIPS). Link
Haoran Z., et al. (2023) "Understanding Why ViT Trains Badly on Small Datasets: An Intuitive Perspective" Link
Touvron, H., et al. (2021) "Training data-efficient image transformers & distillation through attention." International Conference on Machine Learning (ICML). Link
Carion, N., et al. (2020) "End-to-End Object Detection with Transformers." European Conference on Computer Vision (ECCV). Link
Yuan, L., et al. (2021) "Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet." IEEE International Conference on Computer Vision (ICCV). Link
Wu, B., et al. (2021) "CvT: Introducing Convolutions to Vision Transformers." International Conference on Computer Vision (ICCV). Link
"Transformers and Visual Transformers, Part of the book series: Neuromethods" ((NM,volume 197)) Link
Ze Liu, Yutong Lin et.al (2021), "Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows", ICCV
Link-paper, Link-huggingface
Sachin Mehta y Mohammad Rastegari, "MOBILEVIT: Light-Weight, general-purpose, and mobile-friendly vision transformer” Link-paper, Link-huggingface
Wenhai Wang et.al. (2021), "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions" Link-paper, Link-huggingface
Esp. Abraham Rodriguez (abraham.rodz17@gmail.com); Mg. Oksana Bokhonok (bokhonokok@gmail.com)