Skip to content

FIUBA-Posgrado-Inteligencia-Artificial/CEIA-ViT

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

69 Commits
 
 
 
 
 
 

Repository files navigation

CEIA-ViT


Programa de la materia

  1. Arquitectura de Transformers e imágenes como secuencias.
  2. Arquitecturas de ViT y el mecanismo de Attention.
  3. Ecosistema actual: Hugging Face y modelos preentrenados.
  4. GPT en NLP e ImageGPT.
  5. Modelos multimodales: combinación de visión y lenguaje (CLIP, DALL-E, ..)
  6. Segmentación con SAM y herramientas de auto etiquetado multimodales.
  7. OCR y detección con modelos multimodales.
  8. Presentación de los proyectos.

Forma de Evaluación

1. Entrega del Proyecto (Obligatoria - Grupal)

El proyecto debe ser entregado por grupos e incluir los siguientes elementos:

  • Proyecto estructurado en git que contenga:

    • Código funcional y modular (nivel-preproducción).

    • Informe técnico (pdf): Debe contener

      • Objetivo del proyecto
      • Arquitectura general (diagrama de flujo + descripción de componentes)
      • Implementación técnica (herramientas, módulos clave)
      • Evaluación (métricas de desempeño de modelos, agentes y RAG)
      • Resultados y ejemplos
      • Conclusiones y mejoras futuras
      • Planificación del equipo (tabla con tareas, responsables y estado)
    • README orientativo.

  • Presentación final de 15 minutos en la clase 8: Enfocada en

    • Análisis de los resultados más relevantes, con énfasis en las métricas utilizadas.
    • Visualizaciones del modelo.
    • Explicación de cómo el modelo puede aplicarse en un contexto real.

El código y el informe deben ser entregados a más tardar el dia de la clase 7.

2. Encuesta Intragrupal.


Cálculo de la Evaluación Global

En la evaluación final se tendrán en cuenta tanto los resultados de la encuesta como la presentación del proyecto final.

Bibliografía

Rothman, D. (2024) "Transformers for Natural Language Processing and Computer Vision: Explore Generative AI and Large Language Models with Hugging Face, ChatGPT, GPT-4V, and DALL-E." Packt Publishing; 3rd edition.

Dosovitskiy, A., et al. (2020) "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." arXiv preprint arXiv:2010.11929. Link

Vaswani, A., et al. (2017) "Attention is All You Need." Advances in Neural Information Processing Systems (NeurIPS). Link

Haoran Z., et al. (2023) "Understanding Why ViT Trains Badly on Small Datasets: An Intuitive Perspective" Link

Touvron, H., et al. (2021) "Training data-efficient image transformers & distillation through attention." International Conference on Machine Learning (ICML). Link

Carion, N., et al. (2020) "End-to-End Object Detection with Transformers." European Conference on Computer Vision (ECCV). Link

Yuan, L., et al. (2021) "Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet." IEEE International Conference on Computer Vision (ICCV). Link


Wu, B., et al. (2021) "CvT: Introducing Convolutions to Vision Transformers." International Conference on Computer Vision (ICCV). Link

"Transformers and Visual Transformers, Part of the book series: Neuromethods" ((NM,volume 197)) Link

Ze Liu, Yutong Lin et.al (2021), "Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows", ICCV
Link-paper, Link-huggingface

Sachin Mehta y Mohammad Rastegari, "MOBILEVIT: Light-Weight, general-purpose, and mobile-friendly vision transformer” Link-paper, Link-huggingface

Wenhai Wang et.al. (2021), "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions" Link-paper, Link-huggingface

Docentes a cargo:

Esp. Abraham Rodriguez (abraham.rodz17@gmail.com); Mg. Oksana Bokhonok (bokhonokok@gmail.com)

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •