Stemm-es un lematizador de español en PHP
Normalmente, en todo lo que tiene que ver con la detección de SPAM, sea cual sea el algoritmo, una pieza central es “optimizar” el proceso de aprendizaje del software que estás utilizando.
Una de las técnicas que se utiliza para esto es utilizar un lematizador. Un lematizador se encarga de reducir la duplicidad de contenidos para el aprendizaje, llevando cada palabra a su raíz. De esta forma las palabras “canción” y “canciones” serían lo mismo para el algoritmo de detección de SPAM.
Pues, en nuestra lucha constante contra el SPAM en Loquo, buscábamos un lematizador en español implementado en PHP… pero, por más que buscamos, no encontramos nada, así que se hizo uno
y claro está¡, se encuentra disponible para toda la comunidad Open Source en sourceforge.net.
Para descargarlo, vayan a la página del proyecto: http://stemmer-es.sourceforge.net/
Desde el 30/06/2007 que lo publiqué, hasta el día de hoy lo han descargado 12 veces
Espero les sea de utilidad.
Juan Manuel Hernández
Por fin encuentro un stemmer en español desarrollado en un lenguaje que puedo entender …, todo el mundo habla del algoritmo de Porter pero nadie lo quiso poner ….
En fin, muchas gracias por compartirlo.
Saludos
Apr 8th, 2008
pragone
A la orden
Bueno saber que ha sido de utilidad
Apr 9th, 2008
Esteban
Muchas Gracias,
Me paso lo mismo que Juan Manuel, gracias por compartirlo,
saludos,
Esteban
Jun 20th, 2008