2. Historia y evolución de la visión artificial

2.1 Introducción

La visión por computadora no apareció de un día para otro ni nació directamente con redes neuronales profundas. Es el resultado de décadas de trabajo en matemáticas, procesamiento de señales, percepción visual, inteligencia artificial, estadística e ingeniería de hardware. Entender su historia es importante porque explica por qué hoy se combinan técnicas clásicas con Deep Learning y por qué ciertas ideas siguen vigentes.

La evolución de la visión artificial puede verse como una búsqueda continua por responder una misma pregunta: ¿cómo transformar imágenes en información útil para una máquina? A lo largo del tiempo, la respuesta cambió según los recursos disponibles, la potencia de cómputo, la cantidad de datos y el desarrollo de nuevos algoritmos.

En este tema recorreremos los principales hitos históricos del área, desde los enfoques tempranos basados en reglas y geometría hasta la revolución reciente impulsada por las redes convolucionales, los grandes datasets y las GPU.

2.2 Los primeros antecedentes

Los orígenes de la visión artificial están ligados a varias disciplinas previas. Por un lado, la óptica y la fotografía permitieron capturar imágenes. Por otro, la matemática y el procesamiento digital ofrecieron herramientas para modelarlas numéricamente. También influyó la neurociencia, que estudió cómo el sistema visual humano detecta bordes, formas y movimiento.

Cuando comenzaron a desarrollarse las primeras computadoras digitales, surgió una idea natural: si una máquina puede procesar números, entonces también podría procesar imágenes si esas imágenes se convierten en matrices numéricas.

Ese razonamiento dio origen al procesamiento digital de imágenes, una base esencial de la visión por computadora. Antes de intentar que una máquina "comprendiera" una escena, primero había que lograr que pudiera:

  • Representar imágenes en memoria.
  • Modificar brillo, contraste y nitidez.
  • Aplicar filtros y transformaciones geométricas.
  • Reducir ruido y resaltar estructuras visuales.

2.3 Décadas de 1950 y 1960: las bases conceptuales

En las décadas de 1950 y 1960 se sentaron muchas de las bases teóricas del área. El contexto era muy diferente al actual: las computadoras tenían poca memoria, baja velocidad y capacidades gráficas mínimas. Aun así, comenzaron a formularse problemas que siguen siendo centrales hoy, como reconocimiento de patrones, análisis de formas y reconstrucción de escenas.

Uno de los enfoques iniciales consistía en describir objetos mediante propiedades geométricas simples: contornos, esquinas, áreas, perímetros o relaciones espaciales. La idea era que una máquina pudiera detectar esos rasgos y compararlos con modelos previamente definidos.

En esta etapa, la visión artificial estaba fuertemente asociada a la percepción simbólica. Se suponía que, si lográbamos extraer suficientes rasgos correctos, luego podríamos usar reglas explícitas para interpretar la escena.

En los inicios del campo, el gran desafío no era entrenar modelos complejos, sino conseguir una representación útil de las imágenes con recursos computacionales extremadamente limitados.

2.4 Los primeros sistemas basados en reglas

Durante los primeros años, la visión por computadora se apoyó fuertemente en reglas diseñadas por expertos. Si se quería detectar un objeto, se definían manualmente condiciones sobre su forma, tamaño, contraste o posición relativa. Si se quería reconocer caracteres, se comparaban patrones con plantillas.

Este paradigma tenía una ventaja: era interpretable. El programador sabía qué reglas estaba usando. Pero también tenía limitaciones muy severas:

  • Las reglas eran frágiles frente a variaciones reales.
  • Pequeños cambios de iluminación o perspectiva podían romper el sistema.
  • Era difícil escalar a escenas complejas con muchos objetos.
  • Diseñar reglas para cada nuevo problema implicaba mucho trabajo manual.

Aun así, estos sistemas fueron fundamentales porque introdujeron la idea de pipeline visual: adquisición, filtrado, extracción de características y decisión final.

2.5 Décadas de 1970 y 1980: crecimiento del procesamiento digital de imágenes

En las décadas de 1970 y 1980 la visión artificial avanzó gracias a mejoras en hardware y al desarrollo de técnicas de procesamiento digital de imágenes. Empezaron a consolidarse operaciones que hoy siguen siendo básicas:

  • Filtrado espacial.
  • Suavizado y reducción de ruido.
  • Detección de bordes.
  • Operaciones morfológicas.
  • Segmentación por umbral.
  • Transformadas matemáticas para análisis de frecuencias.

Estas técnicas permitieron construir sistemas más robustos para tareas específicas, como inspección industrial, reconocimiento de texto impreso, análisis de imágenes médicas o control automatizado en laboratorios.

La visión por computadora seguía siendo mayormente clásica: la inteligencia del sistema dependía del diseño cuidadoso de cada etapa. No había todavía aprendizaje profundo, y el aprendizaje automático en general era muy limitado dentro de aplicaciones visuales.

2.6 El problema de las características manuales

A medida que crecían las ambiciones del campo, empezó a quedar claro un problema central: extraer manualmente buenas características visuales era difícil. Los algoritmos podían detectar bordes y formas simples, pero reconocer objetos en entornos reales seguía siendo muy complejo.

Esto llevó a una etapa en la que buena parte de la investigación se enfocó en diseñar descriptores más elaborados. En lugar de trabajar solo con píxeles crudos, se buscaban representaciones más estables ante cambios de escala, rotación o iluminación.

El campo entró entonces en una transición importante: desde sistemas puramente basados en reglas hacia sistemas basados en ingeniería de características, donde la calidad del descriptor se volvió crítica.

2.7 Década de 1990: auge del reconocimiento de patrones

En los años 1990 crecieron con fuerza el reconocimiento de patrones y el aprendizaje estadístico. La visión por computadora empezó a apoyarse cada vez más en modelos capaces de aprender a separar clases a partir de datos, aunque todavía con representaciones visuales diseñadas manualmente.

Se popularizaron enfoques que combinaban dos etapas:

  1. Extraer características visuales con técnicas clásicas.
  2. Usar un clasificador estadístico para tomar la decisión final.

Esto fue un avance grande porque permitió pasar de reglas rígidas a modelos con cierta capacidad de generalización. Sin embargo, el cuello de botella seguía siendo el mismo: si las características extraídas no eran buenas, el clasificador tampoco lo sería.

2.8 Descriptores clásicos y visión antes del Deep Learning

Antes del auge del Deep Learning, la visión por computadora alcanzó resultados muy importantes con descriptores cuidadosamente diseñados. Muchos de ellos buscaron robustez frente a transformaciones visuales frecuentes.

En esa etapa se hizo común trabajar con:

  • Puntos de interés.
  • Esquinas y keypoints.
  • Descriptores locales.
  • Histogramas de gradientes.
  • Características basadas en textura.
  • Representaciones tipo bag of visual words.

Estos enfoques dominaron durante años porque ofrecían una solución práctica y razonablemente efectiva. Muchas aplicaciones reales se construyeron con estas técnicas y, de hecho, varias siguen utilizándose hoy en sistemas híbridos o escenarios con recursos limitados.

Antes del Deep Learning, una gran parte del trabajo consistía en decidir qué información visual debía medirse manualmente para que luego un clasificador pudiera usarla.

2.9 La influencia del Machine Learning clásico

Con el avance del Machine Learning clásico, empezaron a usarse con frecuencia modelos como k-NN, árboles de decisión, Naive Bayes y, sobre todo, máquinas de soporte vectorial. Estos algoritmos no operaban bien sobre millones de píxeles crudos, pero sí podían funcionar sobre vectores de características bien construidos.

La receta típica era:

  • Capturar una imagen.
  • Preprocesarla.
  • Extraer un descriptor numérico.
  • Entrenar un clasificador con esos descriptores.

Durante muchos años este enfoque fue el estándar en visión por computadora. Era más flexible que las reglas puras y menos costoso que los modelos neuronales profundos, que todavía no eran viables a gran escala.

2.10 Redes neuronales tempranas: una idea adelantada a su tiempo

Las redes neuronales no son una invención reciente. Ya existían desde décadas anteriores, pero durante mucho tiempo su uso práctico en visión fue limitado. Las razones eran varias:

  • Había poca capacidad computacional.
  • Los datasets eran pequeños.
  • Entrenar redes profundas era difícil e inestable.
  • No existían bibliotecas modernas ni aceleración accesible por GPU.

Eso hizo que, aunque la idea de aprender representaciones visuales automáticamente resultara atractiva, durante muchos años no pudiera competir consistentemente con los métodos clásicos bien optimizados.

En otras palabras, la visión basada en Deep Learning no surgió solo por una buena idea teórica. Surgió cuando esa idea se volvió finalmente entrenable y escalable.

2.11 Década de 2000: más datos, más cómputo, mejores herramientas

En la década de 2000 ocurrió un cambio progresivo pero decisivo. Empezó a haber más imágenes disponibles gracias a internet, cámaras digitales, teléfonos móviles y plataformas de almacenamiento. También mejoró la capacidad de cómputo y se desarrollaron herramientas de software más maduras.

Esto tuvo dos consecuencias clave:

  • Se pudieron entrenar modelos con conjuntos de datos cada vez más grandes.
  • Se volvió posible comparar métodos de forma más rigurosa usando benchmarks públicos.

La existencia de datasets amplios y bien etiquetados fue esencial. Sin datos suficientes, los modelos complejos no pueden aprender patrones robustos. Con datos abundantes, en cambio, empezaron a aparecer las condiciones necesarias para una transformación profunda del campo.

2.12 El punto de inflexión: la revolución de las CNN

El gran cambio histórico llegó cuando las redes neuronales convolucionales demostraron que podían aprender representaciones visuales de alto nivel directamente desde los píxeles. En lugar de depender de características diseñadas manualmente, la red aprendía filtros internos útiles durante el entrenamiento.

Este enfoque resolvió una limitación estructural de la visión clásica: ya no había que decidir explícitamente qué bordes, texturas o patrones eran los más importantes. El propio modelo los descubría.

Las CNN aprovecharon varias ideas poderosas:

  • Convoluciones para capturar patrones locales.
  • Compartición de pesos para reducir parámetros.
  • Jerarquías de características desde lo simple a lo complejo.
  • Capacidad de escalar con grandes volúmenes de datos.

Con suficiente entrenamiento, estas redes empezaron a superar claramente a los enfoques anteriores en clasificación de imágenes y, poco después, en detección y segmentación.

2.13 El papel de ImageNet y los benchmarks

Uno de los grandes motores de la evolución reciente fue la disponibilidad de grandes benchmarks visuales, especialmente conjuntos de datos masivos y estandarizados. Estos permitieron entrenar modelos comparables y medir avances de manera objetiva.

La importancia de un benchmark grande no radica solo en su tamaño. También cumple otras funciones:

  • Establece una referencia común para la comunidad.
  • Permite reproducir resultados.
  • Favorece la comparación entre arquitecturas.
  • Impulsa mejoras acumulativas año tras año.

Cuando las redes convolucionales empezaron a destacar claramente en estos benchmarks, se produjo un efecto de aceleración: más investigadores adoptaron el enfoque, se desarrollaron mejores arquitecturas y la industria comenzó a invertir masivamente en visión basada en Deep Learning.

2.14 La expansión hacia nuevas tareas

Una vez que las CNN mostraron gran rendimiento en clasificación, el campo se expandió rápidamente hacia otras tareas visuales:

  • Detección de objetos.
  • Segmentación semántica.
  • Segmentación por instancias.
  • Estimación de pose.
  • Reconocimiento facial.
  • Seguimiento en video.
  • Super-resolución y restauración de imágenes.

Esto fue posible porque la idea central era reutilizable: si un modelo podía aprender jerarquías visuales útiles para clasificar, también podía adaptarse a tareas donde además había que localizar, delimitar o reconstruir información visual.

2.15 La importancia del hardware y las GPU

La historia de la visión por computadora moderna no puede entenderse sin el avance del hardware. Las GPU, diseñadas inicialmente para gráficos, resultaron ideales para acelerar operaciones matriciales masivas, fundamentales en el entrenamiento de redes profundas.

Sin GPU, entrenar modelos complejos sobre millones de imágenes habría sido demasiado lento. Gracias a esta aceleración se volvió práctico:

  • Entrenar arquitecturas profundas.
  • Experimentar con hiperparámetros.
  • Escalar datasets grandes.
  • Aplicar inferencia en tiempo casi real en muchos escenarios.

Por eso, la evolución del campo fue tanto algorítmica como tecnológica. No bastaba con mejores ideas: también se necesitaba capacidad real para ejecutarlas.

2.16 De la investigación a la industria

Otro cambio importante fue el paso desde la investigación académica hacia aplicaciones industriales masivas. Una vez que la visión por computadora mostró resultados sólidos, comenzó a integrarse en productos comerciales y procesos de negocio.

Eso transformó las prioridades del campo. Ya no importaba solo la exactitud del modelo, sino también:

  • Latencia de inferencia.
  • Consumo de memoria.
  • Robustez en entornos reales.
  • Capacidad de actualización.
  • Explicabilidad y auditoría.
  • Despliegue en edge devices o dispositivos móviles.

La visión artificial dejó entonces de ser solo un problema de laboratorio. Se convirtió en una disciplina de ingeniería aplicada.

2.17 Tendencias actuales

En la actualidad, la visión por computadora continúa evolucionando con rapidez. Las arquitecturas profundas siguen mejorando, pero además aparecen nuevas direcciones:

  • Modelos preentrenados cada vez más grandes.
  • Transfer learning y fine-tuning como práctica estándar.
  • Modelos multimodales que combinan imagen y texto.
  • Visión en tiempo real con hardware optimizado.
  • Técnicas de compresión y cuantización para deployment.
  • Mayor interés por interpretabilidad, sesgo y seguridad.

Esto significa que el campo ya no se limita a reconocer objetos en imágenes estáticas. Hoy también se trabaja con video, lenguaje, señales 3D, razonamiento visual y sistemas interactivos.

2.18 Resumen histórico por etapas

Etapa Enfoque dominante Limitación principal
Primeros años Reglas, geometría y procesamiento básico. Poca robustez y escasa capacidad de generalización.
Visión clásica madura Características manuales y descriptores especializados. Dependencia fuerte de la ingeniería de rasgos.
Machine Learning clásico Clasificadores estadísticos sobre descriptores. No aprendía directamente desde píxeles.
Deep Learning CNN y modelos que aprenden representaciones. Gran demanda de datos y cómputo.
Etapa actual Modelos escalables, preentrenados y multimodales. Coste, explicabilidad, sesgo y deployment eficiente.

2.19 Qué debes recordar de este tema

  • La visión por computadora evolucionó desde reglas manuales hasta modelos que aprenden representaciones visuales.
  • Durante muchos años el foco estuvo en diseñar características manuales robustas.
  • El Machine Learning clásico mejoró la generalización, pero seguía dependiendo de buenos descriptores.
  • La gran revolución llegó con las CNN, los grandes datasets y las GPU.
  • La evolución del campo fue posible por la combinación de teoría, datos, software y hardware.
  • Hoy la visión artificial es una disciplina aplicada que debe equilibrar precisión, velocidad, robustez y facilidad de despliegue.

2.20 Conclusión

La historia de la visión artificial muestra una progresión muy clara: primero intentamos programar explícitamente lo que la máquina debía observar; luego tratamos de diseñar mejores rasgos; más tarde usamos aprendizaje estadístico sobre esos rasgos; finalmente, con el Deep Learning, comenzamos a aprender las representaciones visuales directamente desde los datos.

Comprender esta evolución es valioso porque permite ver que las técnicas modernas no surgieron en el vacío. Aprovechan décadas de ideas previas sobre filtrado, extracción de características, geometría, clasificación y evaluación.

En el próximo tema veremos las aplicaciones reales de la visión por computadora para conectar esta evolución histórica con problemas concretos del mundo actual.