Autores:
- Mariana Téllez
- Víctor Correa
Grupo: Semillero de Neuroinformática e Inteligencia Artificial (SNEIA)
Universidad Tecnológica de Pereira (UTP)
Evento: Software Freedom Day 2025
Presentar una panorámica sobre los modelos open source que han revolucionado la visión por computadora: desde las primeras CNNs hasta los modelos fundacionales multimodales basados en Transformers, explorando sus aplicaciones, impacto y comunidad.
La visión artificial es una rama de la inteligencia artificial que permite que las máquinas “vean” e interpreten el entorno.
Se centra en tres operaciones principales:
| Operación | Descripción | Ejemplo de uso |
|---|---|---|
| Clasificación | Identifica el objeto principal en una imagen. | Clasificar imágenes médicas o de animales. |
| Detección | Localiza y clasifica múltiples objetos con bounding boxes. | Detección de peatones o vehículos. |
| Segmentación | Clasifica píxel a píxel. Puede ser: *semántica, *de instancias o panóptica. | Análisis médico, agricultura, visión industrial. |
📖 Artículo recomendado:
IBM - Instance Segmentation (es)
| Época | Avance Clave | Modelos / Tecnologías |
|---|---|---|
| 1960–2000 | Extracción manual de características, SVM, Adaboost | Algoritmos clásicos de ML |
| 2012 | Aparición del Deep Learning con AlexNet | CNN profundas |
| 2014–2016 | Redes muy profundas: *VGG, **ResNet, *GoogleLeNet | Clasificación avanzada |
| 2015–2020 | Redes para detección y segmentación: *R-CNN, **YOLO, **U-Net, **Mask R-CNN, *DeepLab | Detección y segmentación |
| 2020–Presente | Modelos fundacionales y multimodales: *SAM, **Mask2Former, *Mask DINO | Segmentación universal y modelos Transformer |
- Arquitectura: Codificador-decodificador simétrico en forma de “U”.
- Aplicaciones: Segmentación biomédica (microscopía, resonancias).
- 📄 Paper: U-Net: Convolutional Networks for Biomedical Image Segmentation (arXiv:1505.04597)
- 💻 Implementación en PapersWithCode
- Innovación: Atrous Spatial Pyramid Pooling (ASPP).
- Aplicaciones: Segmentación semántica de escenas urbanas.
- 📄 Paper: Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation (arXiv:1802.02611)
- 💻 DeepLabv3+ en PapersWithCode
- Extiende: Faster R-CNN, añadiendo máscaras por instancia.
- Aplicaciones: Detección y segmentación de objetos individuales.
- 📄 Paper: Mask R-CNN (arXiv:1703.06870)
- 📘 Publicación ICCV 2017 (CVF OpenAccess)
- Desarrollado por: Meta AI (2023).
- Innovación: Segmenta “cualquier cosa” sin reentrenamiento.
- Aplicaciones: Medicina, agricultura, RA, industria.
- 📄 Paper: Segment Anything (arXiv:2304.02643)
- 📚 Artículo: Lifewire – Meta’s New Segment Anything Model for Identification Is a Big Deal
- 💻 Repositorio oficial en GitHub (Meta Research)
- Innovación: Atención enmascarada para segmentación semántica, de instancias y panóptica.
- Aplicaciones: Sistemas universales de visión.
- 📄 Paper: Masked-Attention Mask Transformer for Universal Image Segmentation (arXiv:2112.01527)
- 💻 Implementación oficial en GitHub
- Desarrollador: Ultralytics.
- YOLOv11 (2024): unifica detección, segmentación, puntos clave y clasificación.
- Aplicaciones: Industria, tráfico, robótica, Edge AI.
- 💻 Repositorio YOLOv8/YOLOv11 – Ultralytics
| Tendencia | Descripción | Ejemplo |
|---|---|---|
| Transformers en visión (ViT) | Integran modelado global con eficiencia de convoluciones. | Mask2Former, SAM2 |
| Modelos Multimodales | Integran texto, imagen y audio en una sola red. | CLIP, BiomedVLP |
| Edge AI Vision | Ejecución local de modelos complejos en dispositivos ligeros. | Cámaras, drones |
| Self-Supervised Learning | Aprendizaje sin etiquetas, preentrenamiento masivo. | Meta, OpenAI, Google Research |
Proyecto interdisciplinario entre ingeniería y medicina:
- Objetivo: Clasificación automática de neuronas y neuroglias en microfotografías de tejido nervioso.
- Modelos utilizados:
- SAM (Segment Anything) → Segmentación inicial de estructuras celulares.
- VGG-16 (CNN) → Clasificación de tipos celulares.
- YOLOv8-Seg → Detección eficiente posterior.
📂 Colaboración:
- Semillero SNEIA
- Laboratorio de Histoembriología UTP
El software libre y los datasets abiertos (como SA-1B, usado para entrenar SAM) son motores de innovación.
Fomentan:
- Democratización del conocimiento.
- Reproducibilidad científica.
- Colaboración global.
🪪 Licencias recomendadas: *MIT, **Apache 2.0, *BSD
🔗 Ejemplos de colaboración:
| Herramienta | Descripción | Repositorio |
|---|---|---|
| PyTorch | Framework de deep learning flexible y eficiente. | pytorch.org |
| Detectron2 | Framework de Meta para detección y segmentación. | facebookresearch/detectron2 |
| Segment-Anything (SAM) | Segmentación universal interactiva. | facebookresearch/segment-anything |
| Mask2Former / MaskDINO | Modelos panópticos basados en transformers. | facebookresearch/Mask2Former |
| YOLOv8 / YOLOv11 | Detección y segmentación en tiempo real. | ultralytics/ultralytics |
| MONAI | Framework para imágenes médicas. | Project-MONAI/monai |
| Modelo | Paper / Fuente | Año | Enlace |
|---|---|---|---|
| U-Net | Convolutional Networks for Biomedical Image Segmentation | 2015 | arXiv:1505.04597 |
| DeepLabv3+ | Encoder-Decoder with Atrous Separable Convolution | 2018 | arXiv:1802.02611 |
| Mask R-CNN | Mask R-CNN | 2017 | arXiv:1703.06870 |
| SAM | Segment Anything | 2023 | arXiv:2304.02643 |
| Mask2Former | Masked-Attention Mask Transformer | 2022 | arXiv:2112.01527 |
| BiomedVLP | Disease-informed VLM Adaptation (MICCAI 2024) | 2024 | Paper MICCAI 2024 |
| Recurso | Descripción | Enlace |
|---|---|---|
| Segment Anything | Implementación oficial (Meta AI) | github.com/facebookresearch/segment-anything |
| Mask2Former | Transformer para segmentación universal | github.com/facebookresearch/Mask2Former |
| YOLOv8 / YOLOv11 | Framework de detección y segmentación | github.com/ultralytics/ultralytics |
| BiomedVLP | Modelo multimodal biomédico (Microsoft Research) | huggingface.co/microsoft/BiomedVLP-BioViL-T |
| Disease-informed VLM Adaptation | Paper y código del MICCAI 2024 | github.com/RPIDIAL/Disease-informed-VLM-Adaptation |
| Detectron2 | Framework de Meta para visión avanzada | github.com/facebookresearch/detectron2 |
| MONAI | Segmentación médica basada en PyTorch | github.com/Project-MONAI/monai |
Puedes colaborar:
- Mejorando código o documentación.
- Creando datasets abiertos.
- Traduciendo papers o tutoriales.
- Compartiendo notebooks o demos.
💡 Tu participación en la comunidad open source es el primer paso para construir el futuro de la visión artificial.
Presentación preparada para Software Freedom Day / FLISOL 2025,
en colaboración con el Semillero SNEIA – Universidad Tecnológica de Pereira.
📫 Contacto: sneia@utp.edu.co
🔗 Repositorio oficial: github.com/SNEIA-FreedomDay/TheFutureVision
“Así como la visión fue esencial para el desarrollo humano, la visión artificial lo será para la evolución tecnológica.”
— SNEIA, 2025