Detección de duplicados: una guía metodológica
Ver/
Citación
Comparte este contenido
Fecha
2010-12-01Otros contribuidores
Metadatos
Mostrar el registro completo del ítemDocumentos PDF
Resumen
Cuando una misma entidad del mundo real se almacena más de una vez, a través de una o
varias bases de datos, en tuplas con igual estructura pero sin un identificador único y éstas
presentan diferencias en sus valores, se presenta el fenómeno conocido como detección de
duplicados. Para esta tarea, se han desarrollado múltiples funciones de similitud las cuales
detectan las cadenas de texto que son similares mas no idénticas. En este artículo se propone
una guía metodológica para seleccionar entre nueve de estas funciones de similitud
(Levenshtein, Brecha Afín, Smith-Waterman, Jaro, Jaro-Winkler, Bi-grams, Tri-grams,
Monge-Elkan y SoftTF-IDF) la más adecuada para un caso específico o situación
particular, de acuerdo con la naturaleza de los datos que se estén analizando.
Palabras clave
Innovaciones tecnológicas; Ciencias de la computación; Desarrollo tecnológico; Ingeniería de sistemas; Investigaciones; Tecnologías de la información y la comunicaciónKeywords
Technological innovations; Computer science; Technology development; Systems engineering; Investigations; Information and communication technologies; ICT's; Data cleansing; Data preprocessing; Data quality; Duplicate detection; Similarity functionsEnlace al recurso
Fuente del recurso
- Revista Colombiana de Computación; Vol. 11 Núm. 2 (2010): Revista Colombiana de Computación; 7-23
Enlace a este registro en el Repositorio Institucional UNAB
http://hdl.handle.net/20.500.12749/8942
Comentarios