Muestra las diferencias entre dos versiones de la página.
Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
pan:res_tecnicas_anonimidad [2025/01/07 22:35] – thejuanvisu | pan:res_tecnicas_anonimidad [2025/01/07 22:56] (actual) – thejuanvisu | ||
---|---|---|---|
Línea 5: | Línea 5: | ||
* Muchas regulaciones requieren que el uso de este tipo de mecanismos mantengan la información de ciudadanos a salvo. | * Muchas regulaciones requieren que el uso de este tipo de mecanismos mantengan la información de ciudadanos a salvo. | ||
- | Atributos personalmente identificables que deben anonimizarse: | + | **Atributos personalmente identificables que deben anonimizarse: |
* Identificadores (Atributos que identifican de manera única al individuo): DNI, carnet de conducir, fotos, etc... | * Identificadores (Atributos que identifican de manera única al individuo): DNI, carnet de conducir, fotos, etc... | ||
* Pseudo-Indentificadores: | * Pseudo-Indentificadores: | ||
- | Atributos sensibles vs no sensibles: | + | **Atributos sensibles vs no sensibles:** |
* Cualquier atributo que pueda ser enlazado al individuo debe ser considerado sensible, aunque depende mucho del contexto. | * Cualquier atributo que pueda ser enlazado al individuo debe ser considerado sensible, aunque depende mucho del contexto. | ||
* Cualquier atributo que no es relevante para el contexto se puede considerar no sensible. | * Cualquier atributo que no es relevante para el contexto se puede considerar no sensible. | ||
- | Prácticas típicas: | + | **Prácticas típicas:** |
- | * Data Masking: Se ocultan o eliminan valores del dataset de forma que los valores originales no pueden ser recuperados. Estas modificaciones pueden ser realizadas mediante cifrado, mezclado, diccionarios de sustitución o reemplazo de caracteres. Puede ser estático, lo que requiere monitorización de la base de datos y su enmascarado completo o dinámico, cuando los datos se enmascaran cuando se realizan las consultas. | + | |
- | * Pseudoanonimización: | + | |
- | * Generalización: | + | |
- | * Data Swapping: Se permutan los datos o se mezclan los valores de de una fila dentro de una misma columna | + | |
- | * Data perturbation: | + | |
- | * Datos sintéticos: | + | |
+ | |||
+ | ===== K-Anonimidad ===== | ||
+ | Un dataset es K-Anonimo cuando hay al menos k registros diferentes que comparten los mismo quasi-identificadores: | ||
+ | * Para cualquier registro dado hay al menos otros k-1 registros que comparten los mismos atributos que podrían ser usados para identificar cualquiera de ellos como único. | ||
+ | * El valor K es normalmente empleado para calcular la privacidad, cuando más grande es, más difícil es desanonimizar los datos. La utilidad de los datos suele disminuir cuando más alto sea el valor de k ya que los datos se vuelven demasiado genéricos. | ||
+ | |||
+ | **A tener en cuenta:** | ||
+ | * Los Cuasi-identificadores y atributos sensibles deben ser distinguidos de forma apropiada para que no pueda revelar información de un atributo ya anonimizado. | ||
+ | * Es crucial que la información sensible de un grupo sea diversificada. Si un grupo contiene solo un registro, entonces puede ser trivial solo identificar a un individuo. Si todos los registros dentro de un grupo tienen el mismo valor para los atributos sensibles, entonces todos esos individuos pueden ser identificados. | ||
+ | * La dimensionalidad de los datos tiene un rol importante, cuando los datos están demasiado desperdigados, | ||
+ | |||
+ | ===== L-Diversidad ===== | ||
+ | Establece que cada uno de los grupos K-anonimos debe tener al menos L registros sensibles que los distinga, de forma que así será más robusto contra filtraciones. Cuando mayor sea el valor de L, mayor será la dificultad para inferir información de los registros en cada uno de los grupos. Puede distorsionar la verdadera distribución de los datos. | ||
+ | |||
+ | **Problemas: | ||
+ | * Si el valor de L es demasiado pequeño, puede filtrar datos importantes sobre los registros. | ||
+ | * Es vulnerable a ataques de asimetría debido a su distribución desbalanceada | ||
+ | |||
+ | ===== T-Cercanía ===== | ||
+ | Busca mantener la distribución de los valores sensibles de cada grupo lo más cerca posible a la distribución original: | ||
+ | * La distancia entre las distribuciones debe ser menor o igual a T. | ||
+ | * Para calcular la distancia entre dos distribuciones se suele usar EMC (Earth Movers Distance) | ||
+ | ===== Algoritmo de Mondrian ===== | ||
+ | Es uno de los métodos más populares para implementar la K-Anonimidad. La idea principal es la de realizar una partición multidimensional de los cuasi identificadores para generar varias regiones. Se realiza una grabación por cada región de forma que los cuasi-identificadores son anonimizados a través de ciertas estadísticas resumen: | ||
+ | * Los valores numéricos suelen ser codificados usando rangos mínimos y máximos | ||
+ | * Para atributos categóricos se suele definir un set represente todos esos elementos | ||
+ | |||
+ | ===== Privacidad de geolocalización ===== | ||
+ | Es la capacidad de una entidad de moverse en un espacio público esperando que bajo condiciones normales su localización no sea sistemaáticamente registrada de forma secreta para su posterior uso. |