Muestra las diferencias entre dos versiones de la página.
Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
pan:res_tecnicas_anonimidad [2025/01/07 22:43] – thejuanvisu | pan:res_tecnicas_anonimidad [2025/01/07 22:56] (actual) – thejuanvisu | ||
---|---|---|---|
Línea 30: | Línea 30: | ||
* Es crucial que la información sensible de un grupo sea diversificada. Si un grupo contiene solo un registro, entonces puede ser trivial solo identificar a un individuo. Si todos los registros dentro de un grupo tienen el mismo valor para los atributos sensibles, entonces todos esos individuos pueden ser identificados. | * Es crucial que la información sensible de un grupo sea diversificada. Si un grupo contiene solo un registro, entonces puede ser trivial solo identificar a un individuo. Si todos los registros dentro de un grupo tienen el mismo valor para los atributos sensibles, entonces todos esos individuos pueden ser identificados. | ||
* La dimensionalidad de los datos tiene un rol importante, cuando los datos están demasiado desperdigados, | * La dimensionalidad de los datos tiene un rol importante, cuando los datos están demasiado desperdigados, | ||
+ | |||
+ | ===== L-Diversidad ===== | ||
+ | Establece que cada uno de los grupos K-anonimos debe tener al menos L registros sensibles que los distinga, de forma que así será más robusto contra filtraciones. Cuando mayor sea el valor de L, mayor será la dificultad para inferir información de los registros en cada uno de los grupos. Puede distorsionar la verdadera distribución de los datos. | ||
+ | |||
+ | **Problemas: | ||
+ | * Si el valor de L es demasiado pequeño, puede filtrar datos importantes sobre los registros. | ||
+ | * Es vulnerable a ataques de asimetría debido a su distribución desbalanceada | ||
+ | |||
+ | ===== T-Cercanía ===== | ||
+ | Busca mantener la distribución de los valores sensibles de cada grupo lo más cerca posible a la distribución original: | ||
+ | * La distancia entre las distribuciones debe ser menor o igual a T. | ||
+ | * Para calcular la distancia entre dos distribuciones se suele usar EMC (Earth Movers Distance) | ||
+ | ===== Algoritmo de Mondrian ===== | ||
+ | Es uno de los métodos más populares para implementar la K-Anonimidad. La idea principal es la de realizar una partición multidimensional de los cuasi identificadores para generar varias regiones. Se realiza una grabación por cada región de forma que los cuasi-identificadores son anonimizados a través de ciertas estadísticas resumen: | ||
+ | * Los valores numéricos suelen ser codificados usando rangos mínimos y máximos | ||
+ | * Para atributos categóricos se suele definir un set represente todos esos elementos | ||
+ | |||
+ | ===== Privacidad de geolocalización ===== | ||
+ | Es la capacidad de una entidad de moverse en un espacio público esperando que bajo condiciones normales su localización no sea sistemaáticamente registrada de forma secreta para su posterior uso. | ||
+ |