Visión por Computadora - 4. Tipos de problemas en visión por computadora

4.1 Introducción

Cuando hablamos de visión por computadora solemos decir que una máquina "analiza imágenes", pero esa frase es demasiado general. En realidad, existen muchos tipos de problemas visuales, y cada uno formula una pregunta diferente sobre una imagen o un video.

No es lo mismo preguntar qué hay en una imagen que preguntar dónde está, cuántas instancias hay, qué píxeles pertenecen a cada objeto o cómo se mueve una persona en el tiempo. Cada una de esas preguntas define una tarea distinta.

Comprender esta clasificación es fundamental porque ayuda a elegir correctamente el enfoque, el tipo de dataset, la arquitectura y las métricas de evaluación. En este tema veremos los principales problemas que aparecen en visión por computadora y cómo se relacionan entre sí.

4.2 ¿Por qué conviene clasificar los problemas?

Separar los problemas por tipo evita confusiones muy comunes. Por ejemplo, una persona puede decir que quiere "detectar perros en imágenes", pero esa frase puede significar varias cosas:

Saber si en la imagen hay o no un perro.
Decidir qué clase global representa la imagen.
Marcar con una caja dónde aparece el perro.
Delimitar píxel a píxel la silueta del animal.
Seguir al perro a lo largo de un video.

Aunque todos estos casos involucran perros e imágenes, no son el mismo problema. Cambian la salida esperada, el entrenamiento y la complejidad del sistema.

En visión por computadora, formular bien la pregunta es casi tan importante como elegir el modelo. La definición del problema determina todo lo demás.

4.3 Clasificación de imágenes

La clasificación de imágenes es uno de los problemas más conocidos y, en cierto sentido, uno de los más simples conceptualmente. Consiste en asignar una etiqueta global a una imagen completa.

Ejemplos típicos:

La imagen corresponde a un gato, un perro o un caballo.
La radiografía es normal o anormal.
La hoja pertenece a una planta sana o enferma.
La escena es urbana, rural o marítima.

En este problema, el modelo no necesita decir dónde está el objeto ni cuántos objetos hay. Solo debe producir una clase o un conjunto de probabilidades para toda la imagen.

La clasificación es un excelente punto de partida porque introduce conceptos centrales de aprendizaje visual. Sin embargo, tiene una limitación clara: pierde información espacial detallada.

4.4 Clasificación binaria, multiclase y multietiqueta

Dentro de la clasificación de imágenes existen variantes importantes:

Clasificación binaria: hay dos clases posibles, por ejemplo normal o defectuoso.
Clasificación multiclase: la imagen pertenece a una sola clase entre varias, por ejemplo perro, gato, caballo o ave.
Clasificación multietiqueta: una misma imagen puede tener varias etiquetas al mismo tiempo, por ejemplo persona, bicicleta y calle.

Esta distinción es importante porque cambia el tipo de salida del modelo y también la forma de evaluar los resultados.

4.5 Localización de objetos

La localización va un paso más allá de la clasificación. Aquí no basta con decir qué objeto aparece; también hay que indicar dónde está. Generalmente esto se hace mediante una bounding box o caja delimitadora.

Por ejemplo:

La imagen contiene un perro y se indica la región donde aparece.
Se detecta un tumor y se marca aproximadamente su ubicación.
Se localiza un rostro dentro de una fotografía.

En este problema suele asumirse que hay un solo objeto principal o una sola región de interés. Si en cambio hay múltiples objetos, entramos en otra categoría más compleja: la detección de objetos.

4.6 Detección de objetos

La detección de objetos es una de las tareas más importantes en visión por computadora. El objetivo es identificar múltiples objetos dentro de una imagen y, para cada uno, indicar:

Su clase.
Su posición.
Su cantidad como instancia individual.

La salida típica consiste en varias cajas delimitadoras con sus etiquetas y niveles de confianza.

Ejemplos:

Detectar todos los peatones y vehículos en una calle.
Encontrar todas las frutas sobre una cinta transportadora.
Localizar personas en una cámara de seguridad.
Detectar lesiones o regiones sospechosas en una imagen médica.

Este problema es más exigente que la clasificación porque el sistema debe reconocer múltiples instancias y separarlas entre sí.

4.7 Diferencia entre clasificación, localización y detección

Problema	Pregunta principal	Salida típica
Clasificación	¿Qué hay en la imagen?	Una o varias etiquetas globales.
Localización	¿Qué objeto principal hay y dónde está?	Una etiqueta y una caja.
Detección	¿Qué objetos hay, cuántos y dónde están?	Múltiples cajas con clases y scores.

Esta comparación es clave porque muchas veces se usan estos términos como si fueran equivalentes, pero no lo son.

4.8 Segmentación semántica

La segmentación semántica busca etiquetar cada píxel de la imagen según la clase a la que pertenece. En lugar de trabajar con cajas aproximadas, aquí se construye un mapa detallado de regiones.

Por ejemplo, en una escena urbana cada píxel puede clasificarse como:

Calle.
Vereda.
Auto.
Persona.
Edificio.
Cielo.

Esta tarea es muy valiosa cuando la forma exacta de las regiones importa más que una ubicación aproximada.

Aplicaciones comunes:

Vehículos autónomos.
Imágenes médicas.
Análisis satelital.
Separación de fondo y primer plano.

4.9 Segmentación por instancias

La segmentación por instancias combina ideas de detección y segmentación. No solo etiqueta píxel a píxel, sino que además distingue entre diferentes objetos de la misma clase.

Por ejemplo, si hay tres personas en una imagen:

La segmentación semántica marcaría todos los píxeles de persona con la misma clase.
La segmentación por instancias separaría la silueta de cada persona como entidad individual.

Esto resulta útil cuando necesitamos contar objetos, medir su forma con precisión o manipular individualmente cada instancia.

4.10 Segmentación panóptica

La segmentación panóptica intenta unificar la segmentación semántica y la segmentación por instancias. Su objetivo es etiquetar toda la imagen, diferenciando tanto:

Objetos contables, como autos o personas.
Regiones amorfas, como cielo, césped, agua o pavimento.

Es una formulación más completa de la comprensión visual de escenas, aunque también más compleja desde el punto de vista del modelado y la anotación.

4.11 OCR y reconocimiento de texto

Otra familia muy importante de problemas consiste en detectar y leer texto dentro de imágenes. Esto se conoce como OCR, sigla de Optical Character Recognition.

Aquí suelen aparecer dos subtareas diferentes:

Detección de texto: localizar dónde hay texto dentro de la imagen.
Reconocimiento de texto: convertir la imagen de ese texto en caracteres legibles digitalmente.

Ejemplos habituales:

Leer facturas y documentos.
Reconocer patentes o matrículas.
Extraer datos de credenciales.
Traducir texto capturado por una cámara.

Este problema mezcla visión por computadora y procesamiento del lenguaje.

4.12 Seguimiento de objetos en video

Cuando trabajamos con video aparece una dimensión extra: el tiempo. El seguimiento de objetos consiste en mantener la identidad de uno o varios objetos a lo largo de una secuencia de fotogramas.

Por ejemplo:

Seguir a una persona en una cámara de seguridad.
Rastrear un vehículo en tránsito.
Monitorear el desplazamiento de jugadores en un partido.

El desafío no es solo detectar objetos en cada frame, sino vincular correctamente las detecciones a través del tiempo, incluso cuando hay oclusiones, cruces o cambios de apariencia.

4.13 Estimación de pose

La estimación de pose busca localizar puntos clave en el cuerpo humano o en otros objetos articulados. En el caso del cuerpo humano, esos puntos pueden representar cabeza, hombros, codos, muñecas, caderas, rodillas y tobillos.

Esto permite responder preguntas como:

¿Qué postura tiene una persona?
¿Está caminando, corriendo o levantando el brazo?
¿Cómo se mueve una articulación durante un ejercicio?

Se utiliza en deporte, rehabilitación, interfaces por gestos, vigilancia, análisis ergonómico y animación.

4.14 Reconocimiento facial

El reconocimiento facial es un problema especializado que involucra varias etapas visuales:

Detectar el rostro.
Alinear o normalizar la imagen facial.
Extraer una representación numérica.
Comparar con identidades registradas.

En términos conceptuales, no es una sola tarea, sino una combinación de detección, representación y comparación. A veces se usa para verificación uno a uno; otras, para identificación uno a muchos.

4.15 Recuperación de imágenes similares

Otro problema interesante consiste en buscar imágenes parecidas dentro de una colección. Aquí el objetivo no es necesariamente clasificar, sino encontrar contenido visualmente similar.

Ejemplos:

Buscar productos similares a partir de una foto.
Encontrar estudios médicos comparables.
Recuperar imágenes por parecido visual en un archivo.

En este caso, la clave es aprender una representación visual útil para medir similitud.

4.16 Reconstrucción 3D y estimación de profundidad

Hay problemas visuales donde no alcanza con entender una imagen 2D. También es necesario inferir estructura espacial del mundo. Allí aparecen tareas como estimación de profundidad, reconstrucción 3D o percepción estereoscópica.

Estas tareas buscan responder preguntas como:

¿Qué tan lejos está un objeto?
¿Cuál es la geometría aproximada de una escena?
¿Cómo reconstruir un entorno a partir de varias imágenes?

Son esenciales en robótica, vehículos autónomos, fotogrametría, realidad aumentada y modelado de espacios.

4.17 Restauración y mejora de imágenes

No todos los problemas en visión por computadora consisten en reconocer objetos. Algunos se enfocan en mejorar la calidad visual de una imagen o recuperar información degradada.

Ejemplos de esta familia:

Reducción de ruido.
Super-resolución.
Corrección de desenfoque.
Colorización.
Eliminación de artefactos.
Reconstrucción de regiones faltantes.

Estas tareas son útiles por sí mismas, pero además muchas veces actúan como etapa de preprocesamiento para otros sistemas visuales.

4.18 Generación y síntesis de imágenes

Otra categoría moderna consiste en generar imágenes nuevas o transformar unas imágenes en otras. Aunque esto se asocia frecuentemente con modelos generativos, sigue siendo una rama vinculada a visión por computadora.

Entre los problemas típicos están:

Generación de imágenes sintéticas.
Conversión de estilo visual.
Edición guiada por texto o máscara.
Traducción imagen a imagen.

En algunos casos estas técnicas también se utilizan para aumentar datasets o simular escenarios difíciles de capturar en el mundo real.

4.19 Problemas sobre imágenes versus problemas sobre video

Una distinción importante es si trabajamos con imágenes individuales o con secuencias temporales. En imágenes estáticas suele importar la estructura espacial. En video, además, aparece la coherencia temporal.

Tipo de dato	Desafío principal	Ejemplos
Imagen	Interpretar contenido espacial en un solo instante.	Clasificación, detección, segmentación.
Video	Combinar percepción visual con evolución temporal.	Seguimiento, reconocimiento de acciones, monitoreo continuo.

Por eso un modelo pensado para imágenes no siempre resuelve bien un problema de video, aunque ambas tareas estén relacionadas.

4.20 Problemas supervisados y no supervisados

Otra forma de clasificar tareas visuales es según el tipo de aprendizaje requerido:

Supervisado: se entrena con imágenes etiquetadas.
No supervisado: se busca estructura sin etiquetas explícitas.
Auto-supervisado: el propio dato genera señales de entrenamiento.
Semisupervisado: combina pocas etiquetas con muchas imágenes sin anotar.

Esta diferencia es relevante porque anotar cajas, máscaras o secuencias puede ser costoso. En muchos proyectos reales, el tipo de etiqueta disponible condiciona el tipo de problema que resulta viable resolver.

4.21 La complejidad del problema depende de la salida

En general, cuanto más detallada es la salida esperada, mayor es la complejidad del problema. Veámoslo de forma intuitiva:

Clasificar una imagen requiere una sola respuesta global.
Localizar un objeto requiere una respuesta global más una ubicación.
Detectar varios objetos exige varias respuestas y varias ubicaciones.
Segmentar demanda una decisión para cada píxel.
Seguir objetos en video suma además coherencia temporal.

Esta idea ayuda a entender por qué algunos problemas requieren más datos anotados, más capacidad de cómputo y modelos más sofisticados.

No todos los problemas visuales tienen la misma dificultad. La complejidad crece cuando la salida debe ser más precisa, más detallada o mantenerse consistente a lo largo del tiempo.

4.22 Cómo elegir la formulación correcta

En un proyecto real, elegir el tipo de problema correcto es una decisión estratégica. A veces se intenta resolver un problema complejo cuando una formulación más simple sería suficiente.

Por ejemplo:

Si solo necesitamos saber si una imagen contiene defecto, quizás alcance con clasificación.
Si necesitamos marcar dónde está el defecto, hace falta localización o detección.
Si debemos medir con precisión su forma, necesitaremos segmentación.

Una mala formulación puede aumentar innecesariamente el costo del proyecto, la dificultad de anotación y los requisitos de infraestructura.

4.23 Relación entre problemas

Muchos problemas no están aislados, sino que se encadenan. Por ejemplo:

Un sistema de reconocimiento facial primero detecta el rostro.
Un sistema de OCR primero localiza el texto y luego lo reconoce.
Un sistema de seguimiento necesita detectar objetos antes de seguirlos.
Un sistema médico puede segmentar una lesión y luego clasificar su severidad.

Esto muestra que la visión por computadora suele organizarse como una composición de tareas, más que como una única operación aislada.

4.24 Qué debes recordar de este tema

La visión por computadora incluye muchos tipos de problemas distintos, no una sola tarea general.
Clasificación, localización, detección y segmentación responden preguntas diferentes sobre la imagen.
OCR, seguimiento, estimación de pose y reconstrucción 3D son problemas especializados muy importantes.
La salida esperada determina la complejidad, el dataset y la arquitectura adecuados.
Elegir bien la formulación del problema es clave para diseñar una solución viable.
Muchas aplicaciones reales combinan varias tareas visuales encadenadas.

4.25 Conclusión

Hablar de visión por computadora es hablar de una familia de problemas, no de un único algoritmo universal. Cada tarea visual tiene su propia pregunta, su propia salida y sus propias exigencias técnicas.

Comprender estas diferencias permite ordenar el campo y pensar con más claridad qué técnica conviene usar en cada caso. También prepara el terreno para los próximos temas, donde dejaremos la clasificación conceptual y empezaremos a estudiar cómo se representan digitalmente las imágenes.

En el siguiente tema veremos la representación digital de imágenes, una base imprescindible para cualquier trabajo serio en visión artificial.

Volver al índice