2. Historia y evolución del NLP

2.1 Introducción

El Procesamiento de Lenguaje Natural no nació directamente con los modelos generativos actuales ni con los Transformers. Es el resultado de una evolución larga en la que participaron la lingüística, la lógica, la estadística, la teoría de la información, la inteligencia artificial y más tarde el aprendizaje profundo.

Entender esta historia es importante porque permite ver cómo cambiaron las estrategias para trabajar con lenguaje. Durante décadas se intentó describir el idioma con reglas explícitas. Luego se pasó a modelos probabilísticos y estadísticos. Más tarde aparecieron representaciones distribuidas y redes neuronales profundas. Finalmente, los Transformers cambiaron de manera radical la escala y la calidad de muchas aplicaciones.

En este tema recorreremos esa evolución para comprender por qué el NLP actual es como es y por qué muchas ideas clásicas todavía siguen siendo relevantes.

2.2 Los primeros antecedentes

Los orígenes del NLP están vinculados a la lingüística formal y a los primeros intentos de hacer que una máquina pudiera procesar lenguaje escrito de forma sistemática. Mucho antes de los modelos modernos, ya existía una pregunta central: ¿cómo representar computacionalmente la estructura y el significado del lenguaje humano?

Al principio, la motivación estuvo muy relacionada con tareas concretas como traducción automática, indexación documental y análisis sintáctico. Si una computadora podía almacenar texto, entonces parecía razonable intentar que también pudiera buscarlo, clasificarlo o transformarlo.

En esta etapa temprana se sentaron ideas fundamentales:

  • El lenguaje puede describirse mediante reglas y estructuras.
  • Las palabras y oraciones pueden segmentarse y etiquetarse.
  • La sintaxis y la semántica pueden estudiarse de forma computacional.
  • Los problemas lingüísticos requieren representaciones formales.

2.3 Décadas de 1950 y 1960: la era de las reglas

En las décadas de 1950 y 1960, el NLP estaba dominado por enfoques simbólicos. La idea principal era que el lenguaje podía modelarse mediante reglas explícitas escritas por expertos. Si se conocían las estructuras gramaticales correctas, entonces una máquina podría analizarlas.

Uno de los grandes objetivos de esa época fue la traducción automática. Existía un fuerte interés en construir sistemas que tradujeran texto entre idiomas usando diccionarios, reglas sintácticas y transformaciones manuales. Sin embargo, pronto quedó claro que el lenguaje era mucho más ambiguo y complejo de lo que se había supuesto inicialmente.

Los sistemas basados en reglas tenían algunas ventajas: eran interpretables, explícitos y relativamente controlables. Pero también presentaban limitaciones severas cuando el lenguaje se apartaba de los casos previstos.

En los comienzos del NLP, el desafío no era entrenar grandes modelos, sino intentar capturar manualmente la enorme complejidad del lenguaje humano mediante reglas formales.

2.4 El problema de la ambigüedad

Muy pronto apareció un obstáculo central: el lenguaje humano es ambiguo. Una misma palabra puede tener varios significados, una oración puede admitir varias interpretaciones y el contexto cambia completamente la lectura correcta.

Esto golpeó con fuerza a los sistemas basados en reglas. Cuantas más reglas se agregaban para cubrir nuevos casos, más difícil se volvía mantener el sistema consistente. Además, muchas excepciones y usos reales del lenguaje no encajaban de forma limpia en una gramática rígida.

La ambigüedad mostró que el NLP no podía resolverse solo con diccionarios y sintaxis formal. Hacía falta lidiar también con contexto, frecuencia de uso y probabilidad.

2.5 Décadas de 1970 y 1980: lingüística computacional y sistemas expertos

En las décadas de 1970 y 1980 el área siguió muy influida por la lingüística computacional. Se desarrollaron analizadores sintácticos, reglas gramaticales más refinadas, sistemas expertos y técnicas para etiquetado y parsing.

La meta seguía siendo estructurar el lenguaje: separar palabras, asignar categorías gramaticales, construir árboles sintácticos y detectar relaciones entre componentes de una oración.

En esta etapa se consolidaron tareas que hoy siguen siendo importantes:

  • Tokenización.
  • Etiquetado gramatical.
  • Análisis sintáctico.
  • Reconocimiento de patrones lingüísticos.
  • Recuperación de información.

Sin embargo, la dependencia de conocimiento experto seguía siendo muy alta. Cada nuevo idioma, dominio o problema requería mucho trabajo manual.

2.6 El giro hacia la estadística

A medida que crecían los corpus textuales y mejoraba la capacidad de cómputo, comenzó un cambio clave: pasar de reglas hechas a mano a modelos que aprovecharan regularidades estadísticas observadas en grandes cantidades de texto.

La idea era pragmática. En lugar de intentar describir exhaustivamente el lenguaje con reglas explícitas, podía resultar más efectivo estimar qué secuencias, etiquetas o interpretaciones eran más probables a partir de datos reales.

Este cambio fue profundo porque desplazó el foco desde el conocimiento lingüístico codificado manualmente hacia el aprendizaje a partir de corpus.

2.7 Década de 1990: auge del NLP estadístico

En los años 1990 el NLP estadístico se volvió dominante en muchas tareas. Los modelos probabilísticos comenzaron a usarse para etiquetado, parsing, traducción automática, recuperación de información y modelado del lenguaje.

El razonamiento era claro: si disponemos de muchos ejemplos, podemos estimar distribuciones y probabilidades útiles para decidir entre varias interpretaciones posibles.

En esta etapa crecieron enfoques como:

  • Modelos n-gram.
  • Etiquetadores probabilísticos.
  • Modelos ocultos de Markov.
  • Métodos basados en frecuencia y conteos.
  • Sistemas de traducción estadística.

Estos métodos representaron un gran avance respecto de los sistemas puramente basados en reglas, porque introdujeron flexibilidad y capacidad de generalización apoyadas en datos reales.

2.8 La importancia de los corpus y los datos

El crecimiento del NLP estadístico fue posible gracias a la disponibilidad de corpus cada vez más grandes. Un corpus es un conjunto de textos organizado para análisis o entrenamiento. Sin datos, los métodos estadísticos tienen muy poco que aprender.

La aparición de corpus anotados permitió entrenar y comparar modelos con mayor rigor. También favoreció la construcción de benchmarks para medir tareas específicas.

Esto introdujo una idea que sigue vigente hoy: en NLP, la calidad y cantidad de datos influyen tanto como el algoritmo utilizado.

La evolución del NLP no dependió solo de mejores modelos. También dependió de disponer de más texto, mejores anotaciones y criterios de evaluación comparables.

2.9 Machine Learning clásico aplicado al texto

Con el avance del Machine Learning clásico, se volvió habitual representar documentos como vectores numéricos y luego entrenar clasificadores sobre esas representaciones. Modelos como Naive Bayes, regresión logística, árboles y máquinas de soporte vectorial tuvieron un papel muy importante.

La receta típica era:

  1. Limpiar y tokenizar el texto.
  2. Representarlo como Bag of Words o TF-IDF.
  3. Entrenar un clasificador estadístico.
  4. Evaluar el rendimiento en un conjunto de prueba.

Este paradigma fue extremadamente exitoso en tareas como clasificación de documentos, detección de spam y análisis de sentimiento básico. Durante años fue el estándar práctico en muchísimos sistemas reales.

2.10 El límite de las características manuales

A pesar de sus éxitos, los enfoques clásicos tenían una limitación importante: dependían de representaciones bastante superficiales del texto. Bag of Words y TF-IDF son muy útiles, pero pierden orden, contexto fino y relaciones semánticas profundas.

Además, muchas soluciones requerían diseñar características manuales para cada problema: conteos especiales, diccionarios, patrones o señales específicas del dominio. Esto demandaba experiencia, tiempo y mantenimiento.

Al igual que en otras áreas de IA, empezó a surgir una necesidad clara: encontrar modelos capaces de aprender mejores representaciones del lenguaje automáticamente.

2.11 Primeras redes neuronales para NLP

Las redes neuronales comenzaron a aplicarse al texto antes de la gran explosión reciente, pero durante mucho tiempo su impacto fue limitado. Había menos datos, menos capacidad de cómputo y menos herramientas maduras para entrenar modelos grandes.

Aun así, estas primeras aproximaciones mostraron algo importante: una red podía aprender representaciones distribuidas del lenguaje en lugar de depender solo de conteos explícitos. Esa idea sería decisiva más adelante.

Durante esta transición se empezó a pasar de la representación dispersa y manual hacia espacios vectoriales aprendidos automáticamente.

2.12 El surgimiento de los embeddings

Un gran cambio conceptual fue la aparición de los embeddings de palabras. En lugar de representar cada término como una posición aislada en un vector enorme, se empezó a representarlo como un vector denso de menor dimensión aprendido desde datos.

Esto permitió capturar similitudes semánticas y relaciones de uso. Palabras que aparecían en contextos parecidos tendían a tener representaciones cercanas en el espacio vectorial.

Los embeddings marcaron un punto de inflexión porque acercaron el NLP a una representación más rica del significado estadístico del lenguaje. Ya no se trataba solo de contar palabras, sino de aprender relaciones entre ellas.

2.13 Deep Learning para secuencias de texto

Con más datos, mejores GPU y bibliotecas modernas, el Deep Learning empezó a ganar terreno en NLP. Redes recurrentes, LSTM y GRU se volvieron importantes porque podían procesar secuencias y mantener cierto estado contextual a lo largo del texto.

Esto fue un avance significativo respecto de los métodos basados en conteo, ya que el orden de las palabras y las dependencias a lo largo de la secuencia podían modelarse con mayor naturalidad.

Sin embargo, estos modelos también tenían limitaciones: entrenar secuencias largas era costoso, podían sufrir problemas de dependencia a largo plazo y el paralelismo era más difícil.

2.14 El mecanismo de atención

Antes de los Transformers, el mecanismo de atención introdujo una idea muy poderosa: en lugar de comprimir toda la información en un único estado, el modelo podía "mirar" diferentes partes de la secuencia al generar o interpretar una salida.

Esta idea mejoró especialmente tareas como traducción automática y sentó una base conceptual muy importante. La atención permitió modelar relaciones más flexibles entre palabras, incluso cuando estaban alejadas dentro de la secuencia.

Con esto, el NLP empezó a moverse hacia arquitecturas donde el contexto podía manejarse de manera más directa y eficaz.

2.15 El punto de inflexión: los Transformers

La llegada de los Transformers marcó una revolución en NLP. Estas arquitecturas reemplazaron gran parte del protagonismo de las redes recurrentes y mostraron que era posible modelar secuencias usando atención de manera mucho más escalable.

Los Transformers ofrecieron varias ventajas decisivas:

  • Mayor capacidad para capturar dependencias largas.
  • Entrenamiento más paralelizable.
  • Mejor aprovechamiento de grandes volúmenes de datos.
  • Facilidad para preentrenar y luego adaptar a múltiples tareas.

Esto transformó por completo el panorama del NLP moderno y abrió la puerta a modelos de lenguaje cada vez más potentes.

2.16 El papel del preentrenamiento

Otro cambio fundamental fue el auge del preentrenamiento. En lugar de entrenar un modelo desde cero para cada tarea, se empezó a entrenar primero sobre enormes cantidades de texto general y luego ajustarlo para tareas específicas.

Esta estrategia produjo una mejora muy grande en rendimiento y eficiencia. También cambió la práctica del desarrollo en NLP: muchas soluciones pasaron de diseñar modelos pequeños desde cero a adaptar modelos preentrenados.

El preentrenamiento hizo posible reutilizar conocimiento lingüístico adquirido a gran escala en distintos dominios y problemas.

2.17 BERT, GPT y los grandes modelos de lenguaje

Con los Transformers llegaron familias de modelos que redefinieron el área. Algunos se orientaron más a comprensión de texto, otros a generación. Lo importante es que mostraron que un modelo de lenguaje suficientemente grande podía transferirse a una enorme variedad de tareas.

Esto consolidó una nueva etapa en NLP:

  • Modelos preentrenados reutilizables.
  • Fine-tuning sobre tareas concretas.
  • Aprendizaje con instrucciones y prompting.
  • Capacidad creciente de generación, resumen, traducción y razonamiento textual.

El área dejó entonces de centrarse solo en modelos especializados por tarea. Comenzó a moverse hacia modelos generales de lenguaje capaces de adaptarse a muchos usos.

2.18 De la investigación a la industria

Con la maduración de estas técnicas, el NLP pasó rápidamente de ser un área principalmente académica a convertirse en una tecnología industrial clave. Empezó a integrarse en buscadores, atención al cliente, motores de recomendación, automatización documental, asistentes conversacionales y herramientas de productividad.

Eso cambió también las prioridades. Ya no importaba solo la precisión, sino además:

  • Latencia.
  • Costo de inferencia.
  • Escalabilidad.
  • Seguridad y privacidad.
  • Control de sesgos y alucinaciones.
  • Capacidad de integración en sistemas reales.

El NLP moderno es, por lo tanto, una disciplina científica y también un problema de ingeniería aplicada.

2.19 Tendencias actuales

En la actualidad, el NLP sigue evolucionando con mucha rapidez. Entre las tendencias más importantes se encuentran:

  • Modelos de lenguaje cada vez más grandes y multimodales.
  • Uso intensivo de modelos preentrenados como punto de partida.
  • Recuperación de información combinada con generación.
  • Mayor interés por eficiencia, compresión y deployment.
  • Evaluación más rigurosa de sesgos, seguridad y fiabilidad.
  • Integración del lenguaje con imagen, audio, herramientas y agentes.

Esto muestra que el área ya no se limita a analizar texto estático. Hoy se trabaja con interacción, generación, búsqueda semántica, multimodalidad y sistemas capaces de asistir en tareas complejas.

2.20 Resumen histórico por etapas

Etapa Año aproximado de inicio Enfoque dominante Limitación principal
Primeros años 1950 Reglas, gramáticas y diccionarios. Fragilidad frente a ambigüedad y variación real.
NLP estadístico 1990 Probabilidades, corpus y modelos n-gram. Contexto limitado y representaciones superficiales.
Machine Learning clásico 1995 TF-IDF, Bag of Words y clasificadores. Dependencia de características manuales.
Deep Learning secuencial 2013 Embeddings, RNN, LSTM y GRU. Dificultad para escalar y manejar dependencias largas.
Transformers y LLM 2017 Atención, preentrenamiento y modelos generales. Alto costo, sesgos, control y explicabilidad.

2.21 Qué debes recordar de este tema

  • El NLP evolucionó desde reglas lingüísticas explícitas hacia modelos aprendidos desde datos.
  • La estadística y los corpus cambiaron profundamente la disciplina.
  • Bag of Words y TF-IDF fueron claves durante muchos años en aplicaciones reales.
  • Los embeddings y el Deep Learning mejoraron la representación del lenguaje.
  • Los Transformers y el preentrenamiento redefinieron el estado del arte.
  • El NLP moderno combina investigación, datos, cómputo e ingeniería de productos.

2.22 Conclusión

La historia del NLP muestra una transición clara: primero se intentó programar el lenguaje con reglas; después se pasó a modelarlo con estadística; más tarde se aprendieron representaciones distribuidas; finalmente, con Transformers y grandes modelos de lenguaje, el campo alcanzó una escala y una versatilidad sin precedentes.

Comprender esta evolución ayuda a entender por qué conviven técnicas antiguas y modernas. Muchas ideas clásicas siguen siendo útiles, pero ahora forman parte de un ecosistema mucho más amplio donde datos, cómputo y modelos preentrenados tienen un papel central.

En el próximo tema veremos las aplicaciones reales del NLP para conectar esta evolución histórica con problemas concretos y usos cotidianos.