🧠 The Future Vision

Modelos Open Source para Detección, Segmentación y Clasificación en Visión Artificial

Autores:

Mariana Téllez
Víctor Correa
Grupo: Semillero de Neuroinformática e Inteligencia Artificial (SNEIA)
Universidad Tecnológica de Pereira (UTP)
Evento: Software Freedom Day 2025

🎯 Objetivo

Presentar una panorámica sobre los modelos open source que han revolucionado la visión por computadora: desde las primeras CNNs hasta los modelos fundacionales multimodales basados en Transformers, explorando sus aplicaciones, impacto y comunidad.

📘 1. Fundamentos de la Visión por Computadora

La visión artificial es una rama de la inteligencia artificial que permite que las máquinas “vean” e interpreten el entorno.
Se centra en tres operaciones principales:

Operación	Descripción	Ejemplo de uso
Clasificación	Identifica el objeto principal en una imagen.	Clasificar imágenes médicas o de animales.
Detección	Localiza y clasifica múltiples objetos con bounding boxes.	Detección de peatones o vehículos.
Segmentación	Clasifica píxel a píxel. Puede ser: semántica, de instancias o panóptica.	Análisis médico, agricultura, visión industrial.

📖 Artículo recomendado:
IBM - Instance Segmentation (es)

🧩 2. Evolución de los Modelos

Época	Avance Clave	Modelos / Tecnologías
1960–2000	Extracción manual de características, SVM, Adaboost	Algoritmos clásicos de ML
2012	Aparición del Deep Learning con AlexNet	CNN profundas
2014–2016	Redes muy profundas: VGG, ResNet, GoogleLeNet	Clasificación avanzada
2015–2020	Redes para detección y segmentación: R-CNN, YOLO, U-Net, Mask R-CNN, DeepLab	Detección y segmentación
2020–Presente	Modelos fundacionales y multimodales: SAM, Mask2Former, Mask DINO	Segmentación universal y modelos Transformer

🧠 3. Modelos Fundamentales y Avances Clave

3.1 U-Net — Segmentación Médica Precisa

Arquitectura: Codificador-decodificador simétrico en forma de “U”.
Aplicaciones: Segmentación biomédica (microscopía, resonancias).
📄 Paper: U-Net: Convolutional Networks for Biomedical Image Segmentation (arXiv:1505.04597)
💻 Implementación en PapersWithCode

3.2 DeepLabv3+ — Contexto Multiescala

Innovación: Atrous Spatial Pyramid Pooling (ASPP).
Aplicaciones: Segmentación semántica de escenas urbanas.
📄 Paper: Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation (arXiv:1802.02611)
💻 DeepLabv3+ en PapersWithCode

3.3 Mask R-CNN — Segmentación de Instancias

Extiende: Faster R-CNN, añadiendo máscaras por instancia.
Aplicaciones: Detección y segmentación de objetos individuales.
📄 Paper: Mask R-CNN (arXiv:1703.06870)
📘 Publicación ICCV 2017 (CVF OpenAccess)

3.4 SAM — Segment Anything Model

Desarrollado por: Meta AI (2023).
Innovación: Segmenta “cualquier cosa” sin reentrenamiento.
Aplicaciones: Medicina, agricultura, RA, industria.
📄 Paper: Segment Anything (arXiv:2304.02643)
📚 Artículo: Lifewire – Meta’s New Segment Anything Model for Identification Is a Big Deal
💻 Repositorio oficial en GitHub (Meta Research)

3.5 Mask2Former — Segmentación Universal con Transformers

Innovación: Atención enmascarada para segmentación semántica, de instancias y panóptica.
Aplicaciones: Sistemas universales de visión.
📄 Paper: Masked-Attention Mask Transformer for Universal Image Segmentation (arXiv:2112.01527)
💻 Implementación oficial en GitHub

3.6 YOLOv8 / YOLOv11 — Detección y Segmentación en Tiempo Real

Desarrollador: Ultralytics.
YOLOv11 (2024): unifica detección, segmentación, puntos clave y clasificación.
Aplicaciones: Industria, tráfico, robótica, Edge AI.
💻 Repositorio YOLOv8/YOLOv11 – Ultralytics

🧬 4. Tendencias Actuales

Tendencia	Descripción	Ejemplo
Transformers en visión (ViT)	Integran modelado global con eficiencia de convoluciones.	Mask2Former, SAM2
Modelos Multimodales	Integran texto, imagen y audio en una sola red.	CLIP, BiomedVLP
Edge AI Vision	Ejecución local de modelos complejos en dispositivos ligeros.	Cámaras, drones
Self-Supervised Learning	Aprendizaje sin etiquetas, preentrenamiento masivo.	Meta, OpenAI, Google Research

🧪 5. Caso de Uso Real — UTP 🧩

Proyecto interdisciplinario entre ingeniería y medicina:

Objetivo: Clasificación automática de neuronas y neuroglias en microfotografías de tejido nervioso.
Modelos utilizados:
- SAM (Segment Anything) → Segmentación inicial de estructuras celulares.
- VGG-16 (CNN) → Clasificación de tipos celulares.
- YOLOv8-Seg → Detección eficiente posterior.

📂 Colaboración:

Semillero SNEIA
Laboratorio de Histoembriología UTP

🌍 6. Comunidad Open Source

El software libre y los datasets abiertos (como SA-1B, usado para entrenar SAM) son motores de innovación.
Fomentan:

Democratización del conocimiento.
Reproducibilidad científica.
Colaboración global.

🪪 Licencias recomendadas: *MIT, **Apache 2.0, *BSD
🔗 Ejemplos de colaboración:

💡 7. Recursos Recomendados

🔹 Librerías y Frameworks

Herramienta	Descripción	Repositorio
PyTorch	Framework de deep learning flexible y eficiente.	pytorch.org
Detectron2	Framework de Meta para detección y segmentación.	facebookresearch/detectron2
Segment-Anything (SAM)	Segmentación universal interactiva.	facebookresearch/segment-anything
Mask2Former / MaskDINO	Modelos panópticos basados en transformers.	facebookresearch/Mask2Former
YOLOv8 / YOLOv11	Detección y segmentación en tiempo real.	ultralytics/ultralytics
MONAI	Framework para imágenes médicas.	Project-MONAI/monai

🔬 8. Referencias y Papers Citados

Modelo	Paper / Fuente	Año	Enlace
U-Net	Convolutional Networks for Biomedical Image Segmentation	2015	arXiv:1505.04597
DeepLabv3+	Encoder-Decoder with Atrous Separable Convolution	2018	arXiv:1802.02611
Mask R-CNN	Mask R-CNN	2017	arXiv:1703.06870
SAM	Segment Anything	2023	arXiv:2304.02643
Mask2Former	Masked-Attention Mask Transformer	2022	arXiv:2112.01527
BiomedVLP	Disease-informed VLM Adaptation (MICCAI 2024)	2024	Paper MICCAI 2024

🧩 9. Repositorios y Recursos Abiertos

Recurso	Descripción	Enlace
Segment Anything	Implementación oficial (Meta AI)	github.com/facebookresearch/segment-anything
Mask2Former	Transformer para segmentación universal	github.com/facebookresearch/Mask2Former
YOLOv8 / YOLOv11	Framework de detección y segmentación	github.com/ultralytics/ultralytics
BiomedVLP	Modelo multimodal biomédico (Microsoft Research)	huggingface.co/microsoft/BiomedVLP-BioViL-T
Disease-informed VLM Adaptation	Paper y código del MICCAI 2024	github.com/RPIDIAL/Disease-informed-VLM-Adaptation
Detectron2	Framework de Meta para visión avanzada	github.com/facebookresearch/detectron2
MONAI	Segmentación médica basada en PyTorch	github.com/Project-MONAI/monai

🧭 10. Cómo Contribuir

Puedes colaborar:

Mejorando código o documentación.
Creando datasets abiertos.
Traduciendo papers o tutoriales.
Compartiendo notebooks o demos.

💡 Tu participación en la comunidad open source es el primer paso para construir el futuro de la visión artificial.

🏁 11. Créditos

Presentación preparada para Software Freedom Day / FLISOL 2025,
en colaboración con el Semillero SNEIA – Universidad Tecnológica de Pereira.

📫 Contacto: sneia@utp.edu.co
🔗 Repositorio oficial: github.com/SNEIA-FreedomDay/TheFutureVision

“Así como la visión fue esencial para el desarrollo humano, la visión artificial lo será para la evolución tecnológica.”
— SNEIA, 2025

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🧠 The Future Vision

Modelos Open Source para Detección, Segmentación y Clasificación en Visión Artificial

🎯 Objetivo

📘 1. Fundamentos de la Visión por Computadora

🧩 2. Evolución de los Modelos

🧠 3. Modelos Fundamentales y Avances Clave

3.1 U-Net — Segmentación Médica Precisa

3.2 DeepLabv3+ — Contexto Multiescala

3.3 Mask R-CNN — Segmentación de Instancias

3.4 SAM — Segment Anything Model

3.5 Mask2Former — Segmentación Universal con Transformers

3.6 YOLOv8 / YOLOv11 — Detección y Segmentación en Tiempo Real

🧬 4. Tendencias Actuales

🧪 5. Caso de Uso Real — UTP 🧩

🌍 6. Comunidad Open Source

💡 7. Recursos Recomendados

🔹 Librerías y Frameworks

🔬 8. Referencias y Papers Citados

🧩 9. Repositorios y Recursos Abiertos

🧭 10. Cómo Contribuir

🏁 11. Créditos

About

Uh oh!

Releases

Packages

Uh oh!

Semillero-de-neuroinformatica/Modelos-de-Vision-Artificial

Folders and files

Latest commit

History

Repository files navigation

🧠 The Future Vision

Modelos Open Source para Detección, Segmentación y Clasificación en Visión Artificial

🎯 Objetivo

📘 1. Fundamentos de la Visión por Computadora

🧩 2. Evolución de los Modelos

🧠 3. Modelos Fundamentales y Avances Clave

3.1 U-Net — Segmentación Médica Precisa

3.2 DeepLabv3+ — Contexto Multiescala

3.3 Mask R-CNN — Segmentación de Instancias

3.4 SAM — Segment Anything Model

3.5 Mask2Former — Segmentación Universal con Transformers

3.6 YOLOv8 / YOLOv11 — Detección y Segmentación en Tiempo Real

🧬 4. Tendencias Actuales

🧪 5. Caso de Uso Real — UTP 🧩

🌍 6. Comunidad Open Source

💡 7. Recursos Recomendados

🔹 Librerías y Frameworks

🔬 8. Referencias y Papers Citados

🧩 9. Repositorios y Recursos Abiertos

🧭 10. Cómo Contribuir

🏁 11. Créditos

About

Resources

Code of conduct

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Packages