En el tema anterior vimos que la normalización del texto busca reducir variantes superficiales como mayúsculas, espacios o formatos. Sin embargo, el lenguaje también presenta variación a un nivel más profundo: el nivel morfológico. Una misma idea léxica puede aparecer en formas flexionadas o derivadas distintas.
Por ejemplo:
corrercorriendocorriócorríanTodas estas formas están relacionadas. Para reducir esa variación, en NLP se utilizan dos técnicas clásicas: stemming y lematización. En este tema veremos qué son, cómo se diferencian y cuándo puede convenir usar cada una.
Muchas palabras aparecen en distintas formas según género, número, tiempo verbal, persona o derivación. Si tratamos cada variante como una unidad completamente distinta, el vocabulario crece y la representación del texto se dispersa.
Por ejemplo, en una colección de textos podríamos tener:
estudiarestudioestudiandoestudiaronSi la tarea no necesita distinguir entre estas formas, puede resultar útil llevarlas a una base común para que el sistema capte mejor que pertenecen a una misma familia léxica.
El stemming consiste en reducir una palabra a una forma truncada o raíz aproximada mediante reglas heurísticas. Esa raíz no tiene por qué ser una palabra válida del idioma. Lo importante es que sirva para agrupar variantes relacionadas.
Por ejemplo, distintas formas de una misma familia pueden terminar reducidas a una base común por eliminación de sufijos.
La idea del stemming es pragmática: no intenta comprender gramaticalmente la palabra, sino recortarla de una forma útil para el análisis.
La lematización, en cambio, busca llevar una palabra a su lema, es decir, a su forma canónica o de diccionario. A diferencia del stemming, el resultado ideal de la lematización sí es una palabra válida del idioma.
Por ejemplo, formas verbales distintas de un verbo pueden mapear al infinitivo, y formas plurales de un sustantivo pueden llevarse al singular.
La lematización suele requerir más conocimiento lingüístico que el stemming, porque no se basa solo en cortar sufijos, sino en reconocer la función y la forma base correcta.
Podemos resumir la diferencia de esta forma:
El stemming es más simple y rápido, pero menos preciso. La lematización es más informada y normalmente produce resultados más limpios, aunque requiere más recursos lingüísticos.
Tomemos formas como:
corriendocorriócorrerCon stemming, podrían reducirse a una base aproximada no necesariamente válida como palabra final. Con lematización, lo esperable sería llegar a un lema correcto, por ejemplo el infinitivo del verbo.
Este contraste ayuda a ver que ambas técnicas buscan agrupar variantes, pero con niveles distintos de precisión lingüística.
El stemming intenta resolver un problema práctico: si una colección de textos contiene muchas variantes flexionadas de una misma palabra, el vocabulario se expande y las frecuencias se dispersan. Al reducir esas variantes a una base común, puede resultar más fácil detectar temas y relaciones léxicas.
Esto fue especialmente útil en NLP clásico, recuperación de información y sistemas con representaciones dispersas.
La lematización apunta al mismo objetivo general de reducir variación, pero intenta hacerlo de una manera lingüísticamente más correcta. No solo busca agrupar palabras relacionadas, sino hacerlo respetando mejor la forma base real del idioma.
Esto puede ser valioso cuando interesa mantener interpretabilidad o cuando la precisión lingüística de la representación importa más.
El stemming tiene varias ventajas prácticas:
Por eso, fue muy popular durante años en pipelines tradicionales de NLP.
La principal desventaja del stemming es que puede producir raíces artificiales o poco interpretables. Además, al ser heurístico, a veces agrupa palabras que no deberían agruparse o deja separadas formas que idealmente deberían unificarse.
En otras palabras, es útil como aproximación práctica, pero no garantiza una reducción lingüísticamente correcta.
La lematización ofrece beneficios importantes cuando se necesita una representación más limpia y lingüísticamente coherente:
La lematización también tiene costos y limitaciones:
Además, en algunos contextos modernos puede no ser estrictamente necesaria si el modelo ya maneja contexto y variación de forma robusta.
Una dificultad importante de la lematización es que una misma forma superficial puede corresponder a categorías o funciones distintas. Para lematizar bien, muchas veces hace falta saber si la palabra actúa como verbo, sustantivo, adjetivo u otra categoría.
Esto hace que la lematización no sea solo una cuestión de recortar letras, sino también de interpretar parcialmente la palabra dentro de su contexto gramatical.
Stemming y lematización están estrechamente ligados a la morfología, es decir, a la forma en que las palabras cambian según reglas del idioma. En lenguas con mucha flexión, estas técnicas pueden ser especialmente útiles.
Sin embargo, también pueden ser más difíciles de aplicar correctamente cuando el idioma presenta gran riqueza morfológica, irregularidades o ambigüedades frecuentes.
Estas técnicas pueden ayudar en casos como:
Cuando el objetivo es capturar el contenido léxico general más que la forma exacta, esto puede ser valioso.
También existen situaciones donde stemming o lematización pueden ser poco convenientes:
En tareas de generación o traducción, por ejemplo, reducir palabras a una base puede destruir información necesaria.
En NLP clásico, stemming y lematización se utilizaron mucho junto con Bag of Words y TF-IDF. Al reducir variantes morfológicas, podían concentrar frecuencias en menos términos y volver más compacta la representación.
Esto ayudaba a mejorar algunas tareas de clasificación y recuperación de información, especialmente cuando los datos eran relativamente ruidosos o el vocabulario muy disperso.
En modelos modernos basados en embeddings y Transformers, la necesidad de aplicar stemming o lematización de forma agresiva suele ser menor que en NLP clásico. Estos modelos pueden capturar relaciones entre formas diferentes de una palabra sin exigir siempre una reducción manual previa.
Por eso, hoy estas técnicas se usan más selectivamente y no como pasos obligatorios universales.
El stemming puede ser una buena opción cuando:
La lematización suele ser preferible cuando:
También hay situaciones donde puede ser mejor no aplicar ni stemming ni lematización:
Como siempre en NLP, la mejor decisión depende de la tarea, del modelo y del tipo de datos.
| Técnica | Qué hace | Ventaja principal | Limitación principal |
|---|---|---|---|
| Stemming | Reduce palabras a una raíz aproximada. | Rapidez y simplicidad. | Puede generar formas artificiales. |
| Lematización | Reduce palabras a su lema correcto. | Mayor precisión lingüística. | Requiere más recursos y análisis. |
Supongamos que analizamos documentos donde aparecen muchas variantes de verbos y sustantivos. Si usamos stemming, probablemente logremos compactar el vocabulario de forma rápida, aunque con resultados menos elegantes. Si usamos lematización, obtendremos formas base más limpias, pero a mayor costo y con mayor dependencia del idioma y de la herramienta.
Ninguna opción es universalmente mejor. Lo importante es entender qué problema queremos resolver y qué compromisos estamos dispuestos a aceptar.
Stemming y lematización son dos estrategias clásicas para reducir la variación morfológica del lenguaje. Ambas pueden ayudar a simplificar vocabularios y a concentrar mejor la información léxica, pero lo hacen con filosofías diferentes: una más heurística y otra más lingüística.
Elegir entre una, otra o ninguna no depende de una regla fija, sino de la tarea, del idioma, del modelo y del nivel de precisión que necesitemos conservar en la representación del texto.
En el próximo tema comenzaremos con las representaciones Bag of Words, una de las técnicas más clásicas para transformar texto en vectores numéricos aprovechables por modelos de Machine Learning.