Evaluación de la eficacia de la detección de duplicados utilizando Sql Server
Ver/
Enlaces del Item
URI: http://hdl.handle.net/20.500.1 ...Compartir
Ver Estadísticas
Ver Estadísticas de usoMetadatos
Mostrar el registro completo del ítemFecha
2013Tipo de contenido
article
Resumen
Bajo el nombre de Record Linkage se conoce al conflicto que se presenta en los datos cuando una misma entidad del mundo real aparece representada dos o más veces a través de una o varias bases de datos, en registros o tuplas con igual estructura, pero sin un identificador único y presentan diferencias en sus valores. En este artículo nos referiremos a esta problemática como detección de duplicados. Para la detección de duplicados existen múltiples herramientas que utilizan funciones de similitud en la realización de esta tarea. Es bien conocido que algunas funciones de similitud son más eficaces que otras dependiendo de la situación problemática que presenten los datos. Por ejemplo, q-grams realiza una mejor tarea de detección que la distancia de edición cuando se está en presencia de palabras en diferente orden. Asimismo, las diferentes herramientas pueden lograr diferentes grados de eficacia en la detección de duplicados dependiendo de varios factores. En este artículo se presentan los ...
Palabra/s clave
Calidad de Datos
Detección de Duplicados
Fuzzy Lookup
Record Linkage
Colecciones
El ítem tiene asociados los siguientes ficheros de licencia: