CEIA-ViT

Programa de la materia

Arquitectura de Transformers e imágenes como secuencias.
Arquitecturas de ViT y el mecanismo de Attention.
Ecosistema actual: Hugging Face y modelos preentrenados.
GPT en NLP e ImageGPT.
Modelos multimodales: combinación de visión y lenguaje (CLIP, DALL-E, ..)
Segmentación con SAM y herramientas de auto etiquetado multimodales.
OCR y detección con modelos multimodales.
Presentación de los proyectos.

Forma de Evaluación

1. Entrega del Proyecto (Obligatoria - Grupal)

El proyecto debe ser entregado por grupos e incluir los siguientes elementos:

Proyecto estructurado en git que contenga:
- Código funcional y modular (nivel-preproducción).
- Informe técnico (pdf): Debe contener
  - Objetivo del proyecto
  - Arquitectura general (diagrama de flujo + descripción de componentes)
  - Implementación técnica (herramientas, módulos clave)
  - Evaluación (métricas de desempeño de modelos, agentes y RAG)
  - Resultados y ejemplos
  - Conclusiones y mejoras futuras
  - Planificación del equipo (tabla con tareas, responsables y estado)
- README orientativo.
Presentación final de 15 minutos en la clase 8: Enfocada en
- Análisis de los resultados más relevantes, con énfasis en las métricas utilizadas.
- Visualizaciones del modelo.
- Explicación de cómo el modelo puede aplicarse en un contexto real.

El código y el informe deben ser entregados a más tardar el dia de la clase 7.

2. Encuesta Intragrupal.

Cálculo de la Evaluación Global

En la evaluación final se tendrán en cuenta tanto los resultados de la encuesta como la presentación del proyecto final.

Bibliografía

Rothman, D. (2024) "Transformers for Natural Language Processing and Computer Vision: Explore Generative AI and Large Language Models with Hugging Face, ChatGPT, GPT-4V, and DALL-E." Packt Publishing; 3rd edition.

Dosovitskiy, A., et al. (2020) "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." arXiv preprint arXiv:2010.11929. Link

Vaswani, A., et al. (2017) "Attention is All You Need." Advances in Neural Information Processing Systems (NeurIPS). Link

Haoran Z., et al. (2023) "Understanding Why ViT Trains Badly on Small Datasets: An Intuitive Perspective" Link

Touvron, H., et al. (2021) "Training data-efficient image transformers & distillation through attention." International Conference on Machine Learning (ICML). Link

Carion, N., et al. (2020) "End-to-End Object Detection with Transformers." European Conference on Computer Vision (ECCV). Link

Yuan, L., et al. (2021) "Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet." IEEE International Conference on Computer Vision (ICCV). Link

Wu, B., et al. (2021) "CvT: Introducing Convolutions to Vision Transformers." International Conference on Computer Vision (ICCV). Link

"Transformers and Visual Transformers, Part of the book series: Neuromethods" ((NM,volume 197)) Link

Ze Liu, Yutong Lin et.al (2021), "Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows", ICCV
Link-paper, Link-huggingface

Sachin Mehta y Mohammad Rastegari, "MOBILEVIT: Light-Weight, general-purpose, and mobile-friendly vision transformer” Link-paper, Link-huggingface

Wenhai Wang et.al. (2021), "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions" Link-paper, Link-huggingface

Docentes a cargo:

Esp. Abraham Rodriguez (abraham.rodz17@gmail.com); Mg. Oksana Bokhonok (bokhonokok@gmail.com)

Name		Name	Last commit message	Last commit date
Latest commit History 69 Commits
Teoria		Teoria
TrabajosPracticos		TrabajosPracticos
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CEIA-ViT

Programa de la materia

Forma de Evaluación

1. Entrega del Proyecto (Obligatoria - Grupal)

2. Encuesta Intragrupal.

Cálculo de la Evaluación Global

Bibliografía

Docentes a cargo:

About

Uh oh!

Releases

Packages

Contributors 3

Uh oh!

Languages

FIUBA-Posgrado-Inteligencia-Artificial/CEIA-ViT

Folders and files

Latest commit

History

Repository files navigation

CEIA-ViT

Programa de la materia

Forma de Evaluación

1. Entrega del Proyecto (Obligatoria - Grupal)

2. Encuesta Intragrupal.

Cálculo de la Evaluación Global

Bibliografía

Docentes a cargo:

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Uh oh!

Languages

Packages