You're viewing this item in the new Europeana website. View this item in the original Europeana.

Documentos duplicados y casi duplicados en el Web: detección con técnicas de hashing borroso

Duplicate and near duplicate documents in the web: detection by means of fuzzy hash techniques

[ES]La detección de los duplicados en la web es importante porque permite aligerar las bases de datos documentales y mejorar la eficiencia de los motores de búsqueda y la precisión de los análisis cibermétricos y los estudios de minería web, etc. Sin embargo, las técnicas estándar de hashing aplicadas habitualmente sólo detectan duplicados exactos, a nivel de bits, mientras que muchos de los dupli…