Procesamiento de Lenguaje Natural - 10. Stemming y lematización

10.1 Introducción

En el tema anterior vimos que la normalización del texto busca reducir variantes superficiales como mayúsculas, espacios o formatos. Sin embargo, el lenguaje también presenta variación a un nivel más profundo: el nivel morfológico. Una misma idea léxica puede aparecer en formas flexionadas o derivadas distintas.

Por ejemplo:

correr
corriendo
corrió
corrían

Todas estas formas están relacionadas. Para reducir esa variación, en NLP se utilizan dos técnicas clásicas: stemming y lematización. En este tema veremos qué son, cómo se diferencian y cuándo puede convenir usar cada una.

10.2 ¿Por qué necesitamos reducir variantes morfológicas?

Muchas palabras aparecen en distintas formas según género, número, tiempo verbal, persona o derivación. Si tratamos cada variante como una unidad completamente distinta, el vocabulario crece y la representación del texto se dispersa.

Por ejemplo, en una colección de textos podríamos tener:

estudiar
estudio
estudiando
estudiaron

Si la tarea no necesita distinguir entre estas formas, puede resultar útil llevarlas a una base común para que el sistema capte mejor que pertenecen a una misma familia léxica.

10.3 Stemming: idea general

El stemming consiste en reducir una palabra a una forma truncada o raíz aproximada mediante reglas heurísticas. Esa raíz no tiene por qué ser una palabra válida del idioma. Lo importante es que sirva para agrupar variantes relacionadas.

Por ejemplo, distintas formas de una misma familia pueden terminar reducidas a una base común por eliminación de sufijos.

La idea del stemming es pragmática: no intenta comprender gramaticalmente la palabra, sino recortarla de una forma útil para el análisis.

10.4 Lematización: idea general

La lematización, en cambio, busca llevar una palabra a su lema, es decir, a su forma canónica o de diccionario. A diferencia del stemming, el resultado ideal de la lematización sí es una palabra válida del idioma.

Por ejemplo, formas verbales distintas de un verbo pueden mapear al infinitivo, y formas plurales de un sustantivo pueden llevarse al singular.

La lematización suele requerir más conocimiento lingüístico que el stemming, porque no se basa solo en cortar sufijos, sino en reconocer la función y la forma base correcta.

10.5 Diferencia intuitiva entre ambos enfoques

Podemos resumir la diferencia de esta forma:

Stemming: recorta la palabra de manera aproximada.
Lematización: intenta encontrar la forma lingüísticamente correcta de base.

El stemming es más simple y rápido, pero menos preciso. La lematización es más informada y normalmente produce resultados más limpios, aunque requiere más recursos lingüísticos.

El stemming busca una raíz útil. La lematización busca un lema correcto.

10.6 Ejemplo conceptual

Tomemos formas como:

corriendo
corrió
correr

Con stemming, podrían reducirse a una base aproximada no necesariamente válida como palabra final. Con lematización, lo esperable sería llegar a un lema correcto, por ejemplo el infinitivo del verbo.

Este contraste ayuda a ver que ambas técnicas buscan agrupar variantes, pero con niveles distintos de precisión lingüística.

10.7 Qué problema intenta resolver el stemming

El stemming intenta resolver un problema práctico: si una colección de textos contiene muchas variantes flexionadas de una misma palabra, el vocabulario se expande y las frecuencias se dispersan. Al reducir esas variantes a una base común, puede resultar más fácil detectar temas y relaciones léxicas.

Esto fue especialmente útil en NLP clásico, recuperación de información y sistemas con representaciones dispersas.

10.8 Qué problema intenta resolver la lematización

La lematización apunta al mismo objetivo general de reducir variación, pero intenta hacerlo de una manera lingüísticamente más correcta. No solo busca agrupar palabras relacionadas, sino hacerlo respetando mejor la forma base real del idioma.

Esto puede ser valioso cuando interesa mantener interpretabilidad o cuando la precisión lingüística de la representación importa más.

10.9 Ventajas del stemming

El stemming tiene varias ventajas prácticas:

Es relativamente simple de implementar.
Suele ser rápido computacionalmente.
Reduce tamaño del vocabulario.
Puede mejorar algunas tareas clásicas de clasificación o búsqueda.

Por eso, fue muy popular durante años en pipelines tradicionales de NLP.

10.10 Limitaciones del stemming

La principal desventaja del stemming es que puede producir raíces artificiales o poco interpretables. Además, al ser heurístico, a veces agrupa palabras que no deberían agruparse o deja separadas formas que idealmente deberían unificarse.

En otras palabras, es útil como aproximación práctica, pero no garantiza una reducción lingüísticamente correcta.

10.11 Ventajas de la lematización

La lematización ofrece beneficios importantes cuando se necesita una representación más limpia y lingüísticamente coherente:

Produce lemas válidos del idioma.
Suele conservar mejor el sentido de las familias léxicas.
Facilita análisis más interpretables.
Es útil cuando importa la forma base real de la palabra.

10.12 Limitaciones de la lematización

La lematización también tiene costos y limitaciones:

Requiere más conocimiento lingüístico.
Puede depender de diccionarios o modelos morfosintácticos.
Suele ser más costosa que el stemming.
Su calidad depende del idioma y de las herramientas disponibles.

Además, en algunos contextos modernos puede no ser estrictamente necesaria si el modelo ya maneja contexto y variación de forma robusta.

10.13 El papel de la categoría gramatical

Una dificultad importante de la lematización es que una misma forma superficial puede corresponder a categorías o funciones distintas. Para lematizar bien, muchas veces hace falta saber si la palabra actúa como verbo, sustantivo, adjetivo u otra categoría.

Esto hace que la lematización no sea solo una cuestión de recortar letras, sino también de interpretar parcialmente la palabra dentro de su contexto gramatical.

10.14 Relación con la morfología del idioma

Stemming y lematización están estrechamente ligados a la morfología, es decir, a la forma en que las palabras cambian según reglas del idioma. En lenguas con mucha flexión, estas técnicas pueden ser especialmente útiles.

Sin embargo, también pueden ser más difíciles de aplicar correctamente cuando el idioma presenta gran riqueza morfológica, irregularidades o ambigüedades frecuentes.

10.15 Ejemplos de reducción útil

Estas técnicas pueden ayudar en casos como:

Agrupar singular y plural.
Unificar diferentes tiempos verbales.
Reducir variantes flexionadas de una misma raíz.
Disminuir dispersión en modelos basados en frecuencia.

Cuando el objetivo es capturar el contenido léxico general más que la forma exacta, esto puede ser valioso.

10.16 Ejemplos donde pueden generar problemas

También existen situaciones donde stemming o lematización pueden ser poco convenientes:

Cuando la forma exacta de la palabra importa.
Cuando el matiz temporal o gramatical es relevante.
Cuando el algoritmo de stemming produce raíces demasiado agresivas.
Cuando el modelo moderno ya maneja bien las variantes por sí mismo.

En tareas de generación o traducción, por ejemplo, reducir palabras a una base puede destruir información necesaria.

10.17 Relación con Bag of Words y TF-IDF

En NLP clásico, stemming y lematización se utilizaron mucho junto con Bag of Words y TF-IDF. Al reducir variantes morfológicas, podían concentrar frecuencias en menos términos y volver más compacta la representación.

Esto ayudaba a mejorar algunas tareas de clasificación y recuperación de información, especialmente cuando los datos eran relativamente ruidosos o el vocabulario muy disperso.

10.18 Relación con modelos modernos

En modelos modernos basados en embeddings y Transformers, la necesidad de aplicar stemming o lematización de forma agresiva suele ser menor que en NLP clásico. Estos modelos pueden capturar relaciones entre formas diferentes de una palabra sin exigir siempre una reducción manual previa.

Por eso, hoy estas técnicas se usan más selectivamente y no como pasos obligatorios universales.

10.19 ¿Cuándo conviene usar stemming?

El stemming puede ser una buena opción cuando:

Se trabaja con modelos clásicos y representaciones dispersas.
Se necesita una reducción rápida y aproximada de variantes.
La interpretabilidad exacta del resultado no es prioritaria.
Se busca simplificar vocabulario con bajo costo computacional.

10.20 ¿Cuándo conviene usar lematización?

La lematización suele ser preferible cuando:

Se quiere una representación lingüísticamente más correcta.
La interpretabilidad importa.
Se dispone de herramientas adecuadas para el idioma.
La tarea se beneficia de conservar una base léxica válida.

10.21 ¿Cuándo conviene no usar ninguna?

También hay situaciones donde puede ser mejor no aplicar ni stemming ni lematización:

Cuando el modelo moderno ya maneja bien variación morfológica.
Cuando las formas exactas aportan información relevante.
Cuando una reducción agresiva degrada demasiado el texto.
Cuando el idioma o dominio hacen poco confiable la herramienta disponible.

Como siempre en NLP, la mejor decisión depende de la tarea, del modelo y del tipo de datos.

10.22 Comparación resumida

Técnica	Qué hace	Ventaja principal	Limitación principal
Stemming	Reduce palabras a una raíz aproximada.	Rapidez y simplicidad.	Puede generar formas artificiales.
Lematización	Reduce palabras a su lema correcto.	Mayor precisión lingüística.	Requiere más recursos y análisis.

10.23 Ejemplo conceptual final

Supongamos que analizamos documentos donde aparecen muchas variantes de verbos y sustantivos. Si usamos stemming, probablemente logremos compactar el vocabulario de forma rápida, aunque con resultados menos elegantes. Si usamos lematización, obtendremos formas base más limpias, pero a mayor costo y con mayor dependencia del idioma y de la herramienta.

Ninguna opción es universalmente mejor. Lo importante es entender qué problema queremos resolver y qué compromisos estamos dispuestos a aceptar.

Stemming y lematización no son fines en sí mismos. Son herramientas para reducir variación morfológica cuando esa reducción ayuda a la tarea.

10.24 Qué debes recordar de este tema

Stemming y lematización buscan reducir variantes morfológicas de las palabras.
El stemming recorta de forma aproximada; la lematización busca la forma base correcta.
El stemming es más simple y rápido, pero menos preciso.
La lematización es más lingüísticamente correcta, pero más costosa.
Ambas técnicas fueron muy importantes en NLP clásico.
En modelos modernos, muchas veces su uso es opcional y depende del contexto.

10.25 Conclusión

Stemming y lematización son dos estrategias clásicas para reducir la variación morfológica del lenguaje. Ambas pueden ayudar a simplificar vocabularios y a concentrar mejor la información léxica, pero lo hacen con filosofías diferentes: una más heurística y otra más lingüística.

Elegir entre una, otra o ninguna no depende de una regla fija, sino de la tarea, del idioma, del modelo y del nivel de precisión que necesitemos conservar en la representación del texto.

En el próximo tema comenzaremos con las representaciones Bag of Words, una de las técnicas más clásicas para transformar texto en vectores numéricos aprovechables por modelos de Machine Learning.

Volver al índice