Visión por Computadora - 19. Arquitecturas clásicas de CNN

19.1 Introducción

Una vez entendidos los bloques fundamentales de una red convolucional, el siguiente paso lógico es ver cómo se combinaron en arquitecturas concretas. Las CNN no avanzaron solo por la idea de convolución en sí, sino por una serie de diseños que introdujeron mejoras prácticas muy importantes.

Estas arquitecturas marcaron hitos históricos porque demostraron que ciertas decisiones de diseño podían cambiar radicalmente el rendimiento de los modelos visuales. Algunas ampliaron profundidad, otras mejoraron eficiencia, otras resolvieron problemas de entrenamiento y otras facilitaron el uso de redes muy grandes.

En este tema recorreremos varias arquitecturas clásicas para entender qué aportó cada una y por qué siguen siendo relevantes, incluso cuando hoy existen modelos más modernos.

19.2 ¿Qué entendemos por arquitectura?

Cuando hablamos de arquitectura de una CNN nos referimos a la forma en que se organizan sus componentes:

Cantidad de capas.
Tamaño y número de filtros.
Uso de pooling.
Conexiones entre capas.
Bloques especiales.
Etapas finales de clasificación.

En otras palabras, la arquitectura es el diseño estructural completo del modelo.

Una arquitectura no es solo “una red más grande o más chica”. Es una decisión de diseño sobre cómo fluye y se transforma la información visual dentro del modelo.

19.3 ¿Por qué importa estudiar arquitecturas clásicas?

Aunque hoy existan modelos mucho más avanzados, estudiar arquitecturas clásicas sigue siendo valioso porque:

Permite entender la evolución histórica del campo.
Ayuda a comprender por qué ciertas decisiones arquitectónicas aparecieron.
Da contexto a modelos actuales como ResNet o arquitecturas derivadas.
Proporciona una base conceptual sólida para usar modelos preentrenados.

Además, muchas ideas que hoy parecen estándar fueron en su momento innovaciones decisivas.

19.4 LeNet (1998): uno de los primeros grandes antecedentes

LeNet es una de las arquitecturas más tempranas y emblemáticas en el desarrollo de redes convolucionales. Publicada en 1998, fue diseñada para reconocimiento de dígitos escritos a mano, un problema más simple que los grandes desafíos visuales modernos, pero muy importante para mostrar la viabilidad del enfoque.

Su estructura general incluía:

Capas convolucionales.
Etapas de subsampling o pooling.
Capas finales densas para clasificación.

LeNet demostró que era posible procesar imágenes aprovechando localidad espacial y compartición de pesos en una arquitectura entrenable de extremo a extremo.

19.5 ¿Qué enseñó LeNet?

Aunque hoy parezca pequeña, LeNet dejó ideas muy importantes:

Las imágenes podían procesarse mejor con convoluciones que con redes densas planas.
La reducción espacial progresiva era útil.
Las CNN podían resolver tareas visuales reales de forma efectiva.

En cierto sentido, LeNet es el ancestro conceptual de muchas arquitecturas posteriores.

19.6 AlexNet (2012): el gran punto de inflexión

AlexNet es una de las arquitecturas más famosas en la historia del Deep Learning. Presentada en 2012, su impacto fue enorme porque mostró con claridad que las CNN profundas podían superar ampliamente a métodos clásicos en clasificación de imágenes a gran escala.

Su relevancia no estuvo solo en la arquitectura, sino en la combinación de varios factores:

Más datos disponibles.
Uso intensivo de GPU.
Entrenamiento de una red mucho más grande que LeNet.
Técnicas prácticas como ReLU y regularización.

AlexNet marcó el momento en que el Deep Learning pasó de ser una idea prometedora a convertirse en un cambio de paradigma en visión por computadora.

19.7 ¿Qué innovaciones aportó AlexNet?

Entre sus contribuciones más influyentes pueden destacarse:

Mayor profundidad y capacidad que arquitecturas anteriores.
Uso de funciones de activación ReLU, más eficientes que sigmoides o tanh en ese contexto.
Aplicación de dropout para reducir sobreajuste.
Entrenamiento con GPU, acelerando enormemente el proceso.
Data augmentation como parte importante del pipeline.

Muchas de estas prácticas se volvieron estándar en años posteriores.

19.8 VGG (2014): profundidad y simplicidad estructural

VGG es otra arquitectura muy influyente. Introducida en 2014, su gran idea fue apostar por una estructura simple y repetitiva: usar muchos filtros pequeños, principalmente 3x3, y aumentar progresivamente la profundidad de la red.

En lugar de kernels grandes o bloques muy heterogéneos, VGG mostró que se podían construir modelos muy poderosos apilando muchas capas similares.

Esto aportó una gran claridad conceptual y convirtió a VGG en una arquitectura muy usada en enseñanza, transferencia de aprendizaje y análisis de representaciones internas.

19.9 ¿Por qué VGG fue tan importante?

VGG consolidó varias ideas valiosas:

Filtros pequeños 3x3 pueden ser muy efectivos.
Mayor profundidad puede mejorar la capacidad representacional.
Una arquitectura regular y modular facilita análisis e implementación.

Sin embargo, también tenía una desventaja importante: requería muchos parámetros, especialmente en sus capas finales densas.

19.10 GoogLeNet / Inception (2014): eficiencia y multiescala

GoogLeNet, asociada a los módulos Inception y presentada en 2014, introdujo una idea muy poderosa: en lugar de aplicar un solo tipo de filtro por etapa, combinar varios caminos en paralelo con distintos tamaños de convolución y luego fusionar los resultados.

Esto permitía capturar patrones a distintas escalas dentro de un mismo bloque. La arquitectura resultante fue más eficiente que otras redes profundas con muchísimos parámetros.

La idea de procesar simultáneamente distintas escalas visuales resultó especialmente valiosa en tareas donde los objetos pueden aparecer con tamaños diversos.

19.11 ¿Qué aportó Inception?

El enfoque Inception mostró varias ideas importantes:

No siempre conviene seguir una sola ruta secuencial simple.
Se pueden combinar filtros de distintos tamaños en paralelo.
La eficiencia computacional puede mejorar con buen diseño arquitectónico.
Mayor profundidad no tiene por qué significar explosión de parámetros.

Esta arquitectura ayudó a mostrar que el diseño de una CNN podía volverse mucho más sofisticado que una simple pila uniforme de capas.

19.12 ResNet (2015): el problema de redes muy profundas

A medida que las redes crecían en profundidad, apareció un problema importante: entrenar redes muy profundas se volvía difícil. No se trataba solo de overfitting o costo computacional, sino también de optimización. ResNet apareció en 2015 como respuesta directa a ese cuello de botella.

ResNet introdujo una solución brillante mediante conexiones residuales o skip connections. En lugar de obligar a cada bloque a aprender una transformación completa desde cero, se facilita que aprenda una corrección residual sobre la entrada.

Esto permitió entrenar redes mucho más profundas de forma estable y efectiva.

19.13 Intuición de las conexiones residuales

La idea básica de una conexión residual es permitir que la información salte una o más capas y se sume más adelante. Así, el bloque no necesita reinventar toda la representación, sino ajustar o refinar lo que ya venía.

Esto ayuda porque:

Facilita el flujo del gradiente.
Reduce dificultades de optimización.
Permite construir redes mucho más profundas.

ResNet fue tan influyente que gran parte de las arquitecturas modernas heredan o adaptan esta idea.

19.14 ¿Por qué ResNet fue tan decisiva?

ResNet cambió el diseño de arquitecturas porque resolvió un cuello de botella fundamental. A partir de allí, profundizar redes dejó de ser tan problemático como antes.

Además:

Se convirtió en base de muchísimos modelos posteriores.
Es ampliamente usada en transfer learning.
Sigue siendo una referencia fuerte en aplicaciones reales.

Más adelante en el curso usaremos ResNet de manera práctica, así que esta introducción arquitectónica será especialmente útil.

19.15 DenseNet (2017) y conexiones aún más intensas

Después de ResNet aparecieron arquitecturas como DenseNet, propuesta en 2017, que llevaron aún más lejos la idea de reutilización de información. En lugar de sumar saltos residuales aislados, conectan cada capa con muchas de las siguientes.

Esto favorece reutilización de características, flujo de gradientes y eficiencia en ciertos contextos. Aunque no entraremos en detalle profundo, es importante mencionarla como parte de la evolución arquitectónica.

19.16 MobileNet (2017) y la necesidad de eficiencia

A medida que las CNN salieron del laboratorio y empezaron a desplegarse en dispositivos reales, apareció otra necesidad: modelos livianos para móviles, edge devices y sistemas con recursos limitados.

Arquitecturas como MobileNet, introducida en 2017, se diseñaron con foco en eficiencia. Una de sus ideas más conocidas es usar convoluciones separables en profundidad para reducir costo computacional sin perder demasiado rendimiento.

Esto muestra que el diseño arquitectónico no solo busca precisión, sino también viabilidad práctica.

19.17 Evolución general de las arquitecturas

Si miramos estas arquitecturas en conjunto, la evolución sigue una línea bastante clara:

LeNet (1998) muestra la viabilidad inicial.
AlexNet (2012) demuestra el poder de CNN profundas con datos y GPU.
VGG (2014) profundiza con simplicidad estructural.
GoogLeNet / Inception (2014) mejora eficiencia y multiescala.
ResNet (2015) resuelve el entrenamiento de redes muy profundas.
DenseNet (2017) intensifica la reutilización de características.
Modelos como MobileNet (2017) priorizan eficiencia de despliegue.

Esta progresión ayuda a entender por qué el campo avanzó tan rápido.

19.18 Arquitecturas clásicas y transfer learning

Muchas de estas arquitecturas no solo son importantes históricamente. También siguen siendo muy usadas en la práctica gracias al transfer learning. Modelos preentrenados sobre grandes datasets pueden adaptarse a problemas nuevos con menos datos y menos tiempo de entrenamiento.

Esto es especialmente relevante para visión por computadora aplicada, donde a menudo no disponemos de datasets gigantescos para entrenar desde cero.

19.19 ¿Qué arquitectura conviene elegir?

No existe una respuesta universal. La elección depende de varios factores:

Complejidad de la tarea.
Tamaño del dataset.
Capacidad de cómputo disponible.
Necesidad de latencia baja.
Uso de modelos preentrenados.

En la práctica, muchas veces no se diseña una arquitectura desde cero. Se parte de una arquitectura probada y se ajusta al problema.

19.20 Una mirada conceptual comparativa

Año	Arquitectura	Aporte principal	Idea destacada
1998	LeNet	Viabilidad inicial de CNN	Convolución + subsampling para imágenes simples.
2012	AlexNet	Explosión moderna del Deep Learning visual	Profundidad, GPU, ReLU y regularización.
2014	VGG	Simplicidad y profundidad	Apilar muchos filtros 3x3.
2014	GoogLeNet	Eficiencia multiescala	Módulos Inception en paralelo.
2015	ResNet	Entrenamiento de redes muy profundas	Conexiones residuales.
2017	DenseNet	Reutilización intensiva de características	Conexiones densas entre capas.
2017	MobileNet	Eficiencia para despliegue	Convoluciones separables y bajo costo.

19.21 Relación con lo que viene en el curso

Este repaso arquitectónico es importante porque en los próximos temas entraremos en etapas más prácticas:

Preparación de datasets.
Construcción de CNN en PyTorch.
Entrenamiento de clasificadores.
Uso de modelos preentrenados.
Clasificación con ResNet.

Es decir, pasaremos de comprender las ideas arquitectónicas a utilizarlas de manera concreta.

19.22 Qué debes recordar de este tema

Las arquitecturas clásicas de CNN marcaron etapas clave en la evolución del Deep Learning visual.
LeNet (1998) mostró la viabilidad temprana de las convoluciones en imágenes.
AlexNet (2012) fue el gran punto de inflexión del Deep Learning moderno en visión.
VGG (2014) destacó por profundidad y simplicidad con filtros pequeños.
GoogLeNet (2014) introdujo módulos multiescala más eficientes.
ResNet (2015) resolvió en gran parte el problema del entrenamiento de redes muy profundas.
DenseNet y MobileNet, ambas de 2017, marcaron líneas importantes de evolución: reutilización intensiva y eficiencia de despliegue.

19.23 Conclusión

Las arquitecturas clásicas de CNN no son solo una secuencia histórica de nombres famosos. Son respuestas concretas a problemas reales de diseño: cómo entrenar redes más profundas, cómo reducir parámetros, cómo captar patrones a distintas escalas y cómo hacer modelos más eficientes.

Comprender qué aportó cada arquitectura permite ver la evolución del campo como una cadena de decisiones técnicas bien fundamentadas, no como una colección arbitraria de modelos.

En el próximo tema comenzaremos a preparar el terreno para el trabajo práctico con una etapa decisiva: la preparación de datasets de imágenes.

Volver al índice