Cuando hablamos de visión por computadora solemos decir que una máquina "analiza imágenes", pero esa frase es demasiado general. En realidad, existen muchos tipos de problemas visuales, y cada uno formula una pregunta diferente sobre una imagen o un video.
No es lo mismo preguntar qué hay en una imagen que preguntar dónde está, cuántas instancias hay, qué píxeles pertenecen a cada objeto o cómo se mueve una persona en el tiempo. Cada una de esas preguntas define una tarea distinta.
Comprender esta clasificación es fundamental porque ayuda a elegir correctamente el enfoque, el tipo de dataset, la arquitectura y las métricas de evaluación. En este tema veremos los principales problemas que aparecen en visión por computadora y cómo se relacionan entre sí.
Separar los problemas por tipo evita confusiones muy comunes. Por ejemplo, una persona puede decir que quiere "detectar perros en imágenes", pero esa frase puede significar varias cosas:
Aunque todos estos casos involucran perros e imágenes, no son el mismo problema. Cambian la salida esperada, el entrenamiento y la complejidad del sistema.
La clasificación de imágenes es uno de los problemas más conocidos y, en cierto sentido, uno de los más simples conceptualmente. Consiste en asignar una etiqueta global a una imagen completa.
Ejemplos típicos:
En este problema, el modelo no necesita decir dónde está el objeto ni cuántos objetos hay. Solo debe producir una clase o un conjunto de probabilidades para toda la imagen.
La clasificación es un excelente punto de partida porque introduce conceptos centrales de aprendizaje visual. Sin embargo, tiene una limitación clara: pierde información espacial detallada.
Dentro de la clasificación de imágenes existen variantes importantes:
Esta distinción es importante porque cambia el tipo de salida del modelo y también la forma de evaluar los resultados.
La localización va un paso más allá de la clasificación. Aquí no basta con decir qué objeto aparece; también hay que indicar dónde está. Generalmente esto se hace mediante una bounding box o caja delimitadora.
Por ejemplo:
En este problema suele asumirse que hay un solo objeto principal o una sola región de interés. Si en cambio hay múltiples objetos, entramos en otra categoría más compleja: la detección de objetos.
La detección de objetos es una de las tareas más importantes en visión por computadora. El objetivo es identificar múltiples objetos dentro de una imagen y, para cada uno, indicar:
La salida típica consiste en varias cajas delimitadoras con sus etiquetas y niveles de confianza.
Ejemplos:
Este problema es más exigente que la clasificación porque el sistema debe reconocer múltiples instancias y separarlas entre sí.
| Problema | Pregunta principal | Salida típica |
|---|---|---|
| Clasificación | ¿Qué hay en la imagen? | Una o varias etiquetas globales. |
| Localización | ¿Qué objeto principal hay y dónde está? | Una etiqueta y una caja. |
| Detección | ¿Qué objetos hay, cuántos y dónde están? | Múltiples cajas con clases y scores. |
Esta comparación es clave porque muchas veces se usan estos términos como si fueran equivalentes, pero no lo son.
La segmentación semántica busca etiquetar cada píxel de la imagen según la clase a la que pertenece. En lugar de trabajar con cajas aproximadas, aquí se construye un mapa detallado de regiones.
Por ejemplo, en una escena urbana cada píxel puede clasificarse como:
Esta tarea es muy valiosa cuando la forma exacta de las regiones importa más que una ubicación aproximada.
Aplicaciones comunes:
La segmentación por instancias combina ideas de detección y segmentación. No solo etiqueta píxel a píxel, sino que además distingue entre diferentes objetos de la misma clase.
Por ejemplo, si hay tres personas en una imagen:
Esto resulta útil cuando necesitamos contar objetos, medir su forma con precisión o manipular individualmente cada instancia.
La segmentación panóptica intenta unificar la segmentación semántica y la segmentación por instancias. Su objetivo es etiquetar toda la imagen, diferenciando tanto:
Es una formulación más completa de la comprensión visual de escenas, aunque también más compleja desde el punto de vista del modelado y la anotación.
Otra familia muy importante de problemas consiste en detectar y leer texto dentro de imágenes. Esto se conoce como OCR, sigla de Optical Character Recognition.
Aquí suelen aparecer dos subtareas diferentes:
Ejemplos habituales:
Este problema mezcla visión por computadora y procesamiento del lenguaje.
Cuando trabajamos con video aparece una dimensión extra: el tiempo. El seguimiento de objetos consiste en mantener la identidad de uno o varios objetos a lo largo de una secuencia de fotogramas.
Por ejemplo:
El desafío no es solo detectar objetos en cada frame, sino vincular correctamente las detecciones a través del tiempo, incluso cuando hay oclusiones, cruces o cambios de apariencia.
La estimación de pose busca localizar puntos clave en el cuerpo humano o en otros objetos articulados. En el caso del cuerpo humano, esos puntos pueden representar cabeza, hombros, codos, muñecas, caderas, rodillas y tobillos.
Esto permite responder preguntas como:
Se utiliza en deporte, rehabilitación, interfaces por gestos, vigilancia, análisis ergonómico y animación.
El reconocimiento facial es un problema especializado que involucra varias etapas visuales:
En términos conceptuales, no es una sola tarea, sino una combinación de detección, representación y comparación. A veces se usa para verificación uno a uno; otras, para identificación uno a muchos.
Otro problema interesante consiste en buscar imágenes parecidas dentro de una colección. Aquí el objetivo no es necesariamente clasificar, sino encontrar contenido visualmente similar.
Ejemplos:
En este caso, la clave es aprender una representación visual útil para medir similitud.
Hay problemas visuales donde no alcanza con entender una imagen 2D. También es necesario inferir estructura espacial del mundo. Allí aparecen tareas como estimación de profundidad, reconstrucción 3D o percepción estereoscópica.
Estas tareas buscan responder preguntas como:
Son esenciales en robótica, vehículos autónomos, fotogrametría, realidad aumentada y modelado de espacios.
No todos los problemas en visión por computadora consisten en reconocer objetos. Algunos se enfocan en mejorar la calidad visual de una imagen o recuperar información degradada.
Ejemplos de esta familia:
Estas tareas son útiles por sí mismas, pero además muchas veces actúan como etapa de preprocesamiento para otros sistemas visuales.
Otra categoría moderna consiste en generar imágenes nuevas o transformar unas imágenes en otras. Aunque esto se asocia frecuentemente con modelos generativos, sigue siendo una rama vinculada a visión por computadora.
Entre los problemas típicos están:
En algunos casos estas técnicas también se utilizan para aumentar datasets o simular escenarios difíciles de capturar en el mundo real.
Una distinción importante es si trabajamos con imágenes individuales o con secuencias temporales. En imágenes estáticas suele importar la estructura espacial. En video, además, aparece la coherencia temporal.
| Tipo de dato | Desafío principal | Ejemplos |
|---|---|---|
| Imagen | Interpretar contenido espacial en un solo instante. | Clasificación, detección, segmentación. |
| Video | Combinar percepción visual con evolución temporal. | Seguimiento, reconocimiento de acciones, monitoreo continuo. |
Por eso un modelo pensado para imágenes no siempre resuelve bien un problema de video, aunque ambas tareas estén relacionadas.
Otra forma de clasificar tareas visuales es según el tipo de aprendizaje requerido:
Esta diferencia es relevante porque anotar cajas, máscaras o secuencias puede ser costoso. En muchos proyectos reales, el tipo de etiqueta disponible condiciona el tipo de problema que resulta viable resolver.
En general, cuanto más detallada es la salida esperada, mayor es la complejidad del problema. Veámoslo de forma intuitiva:
Esta idea ayuda a entender por qué algunos problemas requieren más datos anotados, más capacidad de cómputo y modelos más sofisticados.
En un proyecto real, elegir el tipo de problema correcto es una decisión estratégica. A veces se intenta resolver un problema complejo cuando una formulación más simple sería suficiente.
Por ejemplo:
Una mala formulación puede aumentar innecesariamente el costo del proyecto, la dificultad de anotación y los requisitos de infraestructura.
Muchos problemas no están aislados, sino que se encadenan. Por ejemplo:
Esto muestra que la visión por computadora suele organizarse como una composición de tareas, más que como una única operación aislada.
Hablar de visión por computadora es hablar de una familia de problemas, no de un único algoritmo universal. Cada tarea visual tiene su propia pregunta, su propia salida y sus propias exigencias técnicas.
Comprender estas diferencias permite ordenar el campo y pensar con más claridad qué técnica conviene usar en cada caso. También prepara el terreno para los próximos temas, donde dejaremos la clasificación conceptual y empezaremos a estudiar cómo se representan digitalmente las imágenes.
En el siguiente tema veremos la representación digital de imágenes, una base imprescindible para cualquier trabajo serio en visión artificial.