STEMMING EN ESPAÑOL PARA DOCUMENTOS RECUPERADOS DE LA WEB

Authors

  • Hugo Armando Ordoñez Eraso Universidad Mariana
  • Carlos Alberto Cobos Lozada

Keywords:

Web search, stemming in spanish, evaluation n-grams

Abstract

La recuperación de información en internet, hoy en día se ha convertido en una importante área de investigación, debido al crecimiento acelerado de las fuentes de información que en la web se encuentran. La investigación en este campo se ha centrado en crear mecanismos, métodos y herramientas como los algoritmos de stemming y los meta-buscadores, que optimizan la precisión en este tipo de tareas, mejorando así los resultados retornados al usuario que utiliza el sistema. En este artículo se presenta y describe a nivel general, los componentes de un algoritmo denominado Filtro Español, que permite rea-lizar stemming a documentos escritos en español en un sistema de búsqueda web. Este se diseña, con el fin de ampliar automáticamente la búsqueda a todas las variaciones morfológicas de las palabras digitadas por los usuarios en las consultas y el contenido de los documentos. Para validar la eficiencia del analizador, se realizó un cálculo de similitud entre los documentos, aplicando el método de n-gramas. La evaluación contempla la precisión del filtro donde los resultados de la primera valoración son interesantes.

Author Biographies

Hugo Armando Ordoñez Eraso, Universidad Mariana

Docente Investigador, Facultad de Ingeniería, Universidad Mariana, San Juan de Pasto, Colombia.

Doctorando Ingeniería Telemática, Universidad del Cauca; Magíster en Computación, Universidad del Cauca; miembrodel Grupo de I+D en Tecnología de Información (GTI), Universidad del Cauca; Miembro del Grupo de Investigación en Ingeniería de Sistemas, Universidad Mariana.

Carlos Alberto Cobos Lozada

Docente Investigador Titular, Departamento de Sistemas, Universidad del Cauca, Popayán, Colombia

References

Manning, C., Raghavan, P. & Schütze, H. (2008) An Introduction to Information Retrieval. Cambridge, England: Cambridge University Press.

Baeza-Yates, R., Castillo, C. & Keith, B. (2006) Web Searching. En: Encyclopedia of Language & Linguistics. Elsevier: Oxford. p. 527-538.

Rolleke, T., Tsikrika, T. & Kazai, G (2006) A general matrix fra-mework for modelling Information Retrieval. Information Processing & Management Vol. 42, (1) 4-30.

Jardine & C.J.V. Rijsbergen. (2008) The Use of Hierarchic Clustering in Information Retrieval ... 193 - Usa: Pittsburgh.

Jansen, B. & Spink, A. (2006) How are we searching the World Wide Web? A comparison of nine search engine transaction logs. Information Processing & Management.

Carmona, J., Cervell, S., Màrquez, L., Martí, M., Padró, L., Placer, R., Rodríguez, H., Taulé M. & Turmo, J. (1998) An Environment for Morphosyntactic Processing of UnrestrictedSpanish text.

How to Cite

Ordoñez Eraso, H. A., & Lozada, C. A. C. (2014). STEMMING EN ESPAÑOL PARA DOCUMENTOS RECUPERADOS DE LA WEB. Revista UNIMAR, 29(2), 109–114. Retrieved from https://revistasumarianaeduco.biteca.online/index.php/unimar/article/view/220

Downloads

Download data is not yet available.

Languages:

spanish

Type:

text

Published

2014-04-04

Issue

Section

Artículos resultado de investigación

Altmetric

QR Code
Article metrics
Abstract views
Galley vies
PDF Views
HTML views
Other views

Some similar items: