Una vez entendidos los bloques fundamentales de una red convolucional, el siguiente paso lógico es ver cómo se combinaron en arquitecturas concretas. Las CNN no avanzaron solo por la idea de convolución en sí, sino por una serie de diseños que introdujeron mejoras prácticas muy importantes.
Estas arquitecturas marcaron hitos históricos porque demostraron que ciertas decisiones de diseño podían cambiar radicalmente el rendimiento de los modelos visuales. Algunas ampliaron profundidad, otras mejoraron eficiencia, otras resolvieron problemas de entrenamiento y otras facilitaron el uso de redes muy grandes.
En este tema recorreremos varias arquitecturas clásicas para entender qué aportó cada una y por qué siguen siendo relevantes, incluso cuando hoy existen modelos más modernos.
Cuando hablamos de arquitectura de una CNN nos referimos a la forma en que se organizan sus componentes:
En otras palabras, la arquitectura es el diseño estructural completo del modelo.
Aunque hoy existan modelos mucho más avanzados, estudiar arquitecturas clásicas sigue siendo valioso porque:
Además, muchas ideas que hoy parecen estándar fueron en su momento innovaciones decisivas.
LeNet es una de las arquitecturas más tempranas y emblemáticas en el desarrollo de redes convolucionales. Publicada en 1998, fue diseñada para reconocimiento de dígitos escritos a mano, un problema más simple que los grandes desafíos visuales modernos, pero muy importante para mostrar la viabilidad del enfoque.
Su estructura general incluía:
LeNet demostró que era posible procesar imágenes aprovechando localidad espacial y compartición de pesos en una arquitectura entrenable de extremo a extremo.
Aunque hoy parezca pequeña, LeNet dejó ideas muy importantes:
En cierto sentido, LeNet es el ancestro conceptual de muchas arquitecturas posteriores.
AlexNet es una de las arquitecturas más famosas en la historia del Deep Learning. Presentada en 2012, su impacto fue enorme porque mostró con claridad que las CNN profundas podían superar ampliamente a métodos clásicos en clasificación de imágenes a gran escala.
Su relevancia no estuvo solo en la arquitectura, sino en la combinación de varios factores:
AlexNet marcó el momento en que el Deep Learning pasó de ser una idea prometedora a convertirse en un cambio de paradigma en visión por computadora.
Entre sus contribuciones más influyentes pueden destacarse:
Muchas de estas prácticas se volvieron estándar en años posteriores.
VGG es otra arquitectura muy influyente. Introducida en 2014, su gran idea fue apostar por una estructura simple y repetitiva: usar muchos filtros pequeños, principalmente 3x3, y aumentar progresivamente la profundidad de la red.
En lugar de kernels grandes o bloques muy heterogéneos, VGG mostró que se podían construir modelos muy poderosos apilando muchas capas similares.
Esto aportó una gran claridad conceptual y convirtió a VGG en una arquitectura muy usada en enseñanza, transferencia de aprendizaje y análisis de representaciones internas.
VGG consolidó varias ideas valiosas:
Sin embargo, también tenía una desventaja importante: requería muchos parámetros, especialmente en sus capas finales densas.
GoogLeNet, asociada a los módulos Inception y presentada en 2014, introdujo una idea muy poderosa: en lugar de aplicar un solo tipo de filtro por etapa, combinar varios caminos en paralelo con distintos tamaños de convolución y luego fusionar los resultados.
Esto permitía capturar patrones a distintas escalas dentro de un mismo bloque. La arquitectura resultante fue más eficiente que otras redes profundas con muchísimos parámetros.
La idea de procesar simultáneamente distintas escalas visuales resultó especialmente valiosa en tareas donde los objetos pueden aparecer con tamaños diversos.
El enfoque Inception mostró varias ideas importantes:
Esta arquitectura ayudó a mostrar que el diseño de una CNN podía volverse mucho más sofisticado que una simple pila uniforme de capas.
A medida que las redes crecían en profundidad, apareció un problema importante: entrenar redes muy profundas se volvía difícil. No se trataba solo de overfitting o costo computacional, sino también de optimización. ResNet apareció en 2015 como respuesta directa a ese cuello de botella.
ResNet introdujo una solución brillante mediante conexiones residuales o skip connections. En lugar de obligar a cada bloque a aprender una transformación completa desde cero, se facilita que aprenda una corrección residual sobre la entrada.
Esto permitió entrenar redes mucho más profundas de forma estable y efectiva.
La idea básica de una conexión residual es permitir que la información salte una o más capas y se sume más adelante. Así, el bloque no necesita reinventar toda la representación, sino ajustar o refinar lo que ya venía.
Esto ayuda porque:
ResNet fue tan influyente que gran parte de las arquitecturas modernas heredan o adaptan esta idea.
ResNet cambió el diseño de arquitecturas porque resolvió un cuello de botella fundamental. A partir de allí, profundizar redes dejó de ser tan problemático como antes.
Además:
Más adelante en el curso usaremos ResNet de manera práctica, así que esta introducción arquitectónica será especialmente útil.
Después de ResNet aparecieron arquitecturas como DenseNet, propuesta en 2017, que llevaron aún más lejos la idea de reutilización de información. En lugar de sumar saltos residuales aislados, conectan cada capa con muchas de las siguientes.
Esto favorece reutilización de características, flujo de gradientes y eficiencia en ciertos contextos. Aunque no entraremos en detalle profundo, es importante mencionarla como parte de la evolución arquitectónica.
A medida que las CNN salieron del laboratorio y empezaron a desplegarse en dispositivos reales, apareció otra necesidad: modelos livianos para móviles, edge devices y sistemas con recursos limitados.
Arquitecturas como MobileNet, introducida en 2017, se diseñaron con foco en eficiencia. Una de sus ideas más conocidas es usar convoluciones separables en profundidad para reducir costo computacional sin perder demasiado rendimiento.
Esto muestra que el diseño arquitectónico no solo busca precisión, sino también viabilidad práctica.
Si miramos estas arquitecturas en conjunto, la evolución sigue una línea bastante clara:
Esta progresión ayuda a entender por qué el campo avanzó tan rápido.
Muchas de estas arquitecturas no solo son importantes históricamente. También siguen siendo muy usadas en la práctica gracias al transfer learning. Modelos preentrenados sobre grandes datasets pueden adaptarse a problemas nuevos con menos datos y menos tiempo de entrenamiento.
Esto es especialmente relevante para visión por computadora aplicada, donde a menudo no disponemos de datasets gigantescos para entrenar desde cero.
No existe una respuesta universal. La elección depende de varios factores:
En la práctica, muchas veces no se diseña una arquitectura desde cero. Se parte de una arquitectura probada y se ajusta al problema.
| Año | Arquitectura | Aporte principal | Idea destacada |
|---|---|---|---|
| 1998 | LeNet | Viabilidad inicial de CNN | Convolución + subsampling para imágenes simples. |
| 2012 | AlexNet | Explosión moderna del Deep Learning visual | Profundidad, GPU, ReLU y regularización. |
| 2014 | VGG | Simplicidad y profundidad | Apilar muchos filtros 3x3. |
| 2014 | GoogLeNet | Eficiencia multiescala | Módulos Inception en paralelo. |
| 2015 | ResNet | Entrenamiento de redes muy profundas | Conexiones residuales. |
| 2017 | DenseNet | Reutilización intensiva de características | Conexiones densas entre capas. |
| 2017 | MobileNet | Eficiencia para despliegue | Convoluciones separables y bajo costo. |
Este repaso arquitectónico es importante porque en los próximos temas entraremos en etapas más prácticas:
Es decir, pasaremos de comprender las ideas arquitectónicas a utilizarlas de manera concreta.
Las arquitecturas clásicas de CNN no son solo una secuencia histórica de nombres famosos. Son respuestas concretas a problemas reales de diseño: cómo entrenar redes más profundas, cómo reducir parámetros, cómo captar patrones a distintas escalas y cómo hacer modelos más eficientes.
Comprender qué aportó cada arquitectura permite ver la evolución del campo como una cadena de decisiones técnicas bien fundamentadas, no como una colección arbitraria de modelos.
En el próximo tema comenzaremos a preparar el terreno para el trabajo práctico con una etapa decisiva: la preparación de datasets de imágenes.