pragone.com
desarrollo, comunidad y monetización
agrégalo a del.icio.us

Stemm-es un lematizador de español en PHP

Normalmente, en todo lo que tiene que ver con la detección de SPAM, sea cual sea el algoritmo, una pieza central es “optimizar” el proceso de aprendizaje del software que estás utilizando.

Una de las técnicas que se utiliza para esto es utilizar un lematizador. Un lematizador se encarga de reducir la duplicidad de contenidos para el aprendizaje, llevando cada palabra a su raíz. De esta forma las palabras “canción” y “canciones” serían lo mismo para el algoritmo de detección de SPAM.

Pues, en nuestra lucha constante contra el SPAM en Loquo, buscábamos un lematizador en español implementado en PHP… pero, por más que buscamos, no encontramos nada, así que se hizo uno :) y claro está¡, se encuentra disponible para toda la comunidad Open Source en sourceforge.net.

Para descargarlo, vayan a la página del proyecto: http://stemmer-es.sourceforge.net/

Desde el 30/06/2007 que lo publiqué, hasta el día de hoy lo han descargado 12 veces :)

Espero les sea de utilidad.

3 comentarios »

    1. Por fin encuentro un stemmer en español desarrollado en un lenguaje que puedo entender …, todo el mundo habla del algoritmo de Porter pero nadie lo quiso poner ….

      En fin, muchas gracias por compartirlo.

      Saludos

    2. A la orden ;)

      Bueno saber que ha sido de utilidad

    3. Muchas Gracias,
      Me paso lo mismo que Juan Manuel, gracias por compartirlo,

      saludos,
      Esteban

RSS feed de los comentarios. TrackBack URL

deja un comentario

Del.icio.us

enlaces de interés