Muestra las diferencias entre dos versiones de la página.
| Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
| pan:tecnicas_anonimidad_v2 [2026/01/01 17:09] – [T-Proximidad] thejuanvisu | pan:tecnicas_anonimidad_v2 [2026/01/01 18:48] (actual) – thejuanvisu | ||
|---|---|---|---|
| Línea 159: | Línea 159: | ||
| $EMD(X,Y)= 1/2 ∑_{i=1}^m|X_i-Y_i|$ | $EMD(X,Y)= 1/2 ∑_{i=1}^m|X_i-Y_i|$ | ||
| </ | </ | ||
| + | Un ejemplo del cálculo de T-Proximidad categórico sería el siguiente: | ||
| + | |||
| + | <WRAP box> | ||
| + | $Y = [Gripe, Covid, Gripe, Cancer, Gripe, Covid]$ -> $Y = {Gripe, Covid, Cancer}$; Y={$\frac{1}{2}$ , | ||
| + | </ | ||
| + | |||
| + | <WRAP box> | ||
| + | $X = [Gripe, Covid, Cancer]$ -> $X= {Gripe, Covid, Caner}$; X = {$\frac{1}{3}$, | ||
| + | </ | ||
| + | |||
| + | <WRAP box> | ||
| + | $EMD(X,Y) = \frac{1}{2}[|\frac{1}{3} - \frac{1}{2}| + |\frac{1}{3} - \frac{1}{3}| + |\frac{1}{3} - \frac{1}{6}|] = \frac{1}{2}[\frac{1}{6} + \frac{1}{6}] = 0.1667$ | ||
| + | </ | ||
| + | |||
| + | ==== Ejemplo de T-Proximidad ==== | ||
| + | Para este ejemplo vamos a tomar la siguiente tabla como base: | ||
| + | ^ ID ^ Codigo Postal | ||
| + | | 1 | 15846 | 15 | M | * | Covid | | ||
| + | | 2 | 25105 | 41 | F | * | Gripe | | ||
| + | | 3 | 15834 | 18 | F | * | Cancer | ||
| + | | 4 | 25504 | 25 | M | * | Gripe | | ||
| + | | 5 | 15894 | 22 | M | * | Infección | ||
| + | | 6 | 15833 | 31 | F | * | Cancer | ||
| + | | 7 | 25974 | 58 | M | * | Covid | | ||
| + | | 8 | 25785 | 29 | M | * | Gripe | | ||
| + | | 9 | 15874 | 62 | F | * | Corazón | ||
| + | |||
| + | Comenzamos mirando la **distribución global de las enfermedades**: | ||
| + | * Gripe = $\frac{3}{9}$ | ||
| + | * Covid = $\frac{2}{9}$ | ||
| + | * Cancer = $\frac{2}{9}$ | ||
| + | * Infección = $\frac{1}{9}$ | ||
| + | * Corazón = $\frac{1}{9}$ | ||
| + | |||
| + | Ralizamos **agrupaciones por rango de edades**: | ||
| + | * Grupo 1 (15 a 25 años): | ||
| + | * Covid | ||
| + | * Cancer | ||
| + | * Gripe | ||
| + | * Infección | ||
| + | * Grupo 2 (26 a 35 años) | ||
| + | * Cancer | ||
| + | * Gripe | ||
| + | * Grupo 3 (40 a 65 años) | ||
| + | * Gripe | ||
| + | * Covid | ||
| + | * Corazón | ||
| + | |||
| + | **Cálculo de la distribución** de enfermedades por grupo: | ||
| + | * Grupo 1: | ||
| + | * Gripe = $\frac{1}{4}$ | ||
| + | * Covid = $\frac{1}{4}$ | ||
| + | * Cancer = $\frac{1}{4}$ | ||
| + | * Infección = $\frac{1}{4}$ | ||
| + | * Corazón = $\frac{0}{4}$ | ||
| + | * Grupo 2: | ||
| + | * Gripe = $\frac{1}{2}$ | ||
| + | * Covid = $\frac{0}{2}$ | ||
| + | * Cancer = $\frac{1}{2}$ | ||
| + | * Infección = $\frac{0}{2}$ | ||
| + | * Corazón = $\frac{0}{2}$ | ||
| + | * Grupo 3: | ||
| + | * Gripe = $\frac{1}{3}$ | ||
| + | * Covid = $\frac{1}{3}$ | ||
| + | * Cancer = $\frac{0}{3}$ | ||
| + | * Infección = $\frac{0}{3}$ | ||
| + | * Corazón = $\frac{1}{3}$ | ||
| + | |||
| + | **Medir Distancia (EMD)** | ||
| + | |||
| + | En este caso tenemos los siguientes datos: | ||
| + | * $X_i$ = Probabilidad global | ||
| + | * $Y_i$ = Probabilidad del grupo | ||
| + | |||
| + | En este caso, por ejemplo, tomamos el grupo 2 y calculamos $|X_i-Y_i|$ para cada enfermedad: | ||
| + | * Gripe = $|\frac{3}{9} -\frac{1}{2}| = 0.17$ | ||
| + | * Covid = $|\frac{2}{9} -0| = 0.22$ | ||
| + | * Cancer = $|\frac{2}{9} -\frac{1}{2}| = 0.28$ | ||
| + | * Infección = $|\frac{1}{9} - 0| = 0.11$ | ||
| + | * Corazón = $|\frac{1}{9} - 0| = 0.11$ | ||
| + | |||
| + | Tras eso realizamos la suma de $|X_i-Y_i|$ para cada enfermedad: | ||
| + | |||
| + | $0.17+0.22+0.28+0.11+0.11=0.89$ | ||
| + | |||
| + | Finalmente completamos el cálculo de la EMD dividiendo el resultado entre 2 | ||
| + | |||
| + | EMD = $|\frac{1}{2} * 0.89 = 0.445$ | ||
| + | |||
| + | Teniendo en cuenta podemos decir que el siguiente dataset tiene 2-Anonimidad, | ||
| + | |||
| + | ^ ID ^ Codigo Postal | ||
| + | | 1 | * | 15-25 | * | * | Covid | Grupo 1 | | ||
| + | | 3 | * | 15-25 | * | * | Cancer | ||
| + | | 4 | * | 15-25 | * | * | Gripe | ::: | | ||
| + | | 5 | * | 15-25 | * | * | Infección | ||
| + | | 6 | * | 26-35 | * | * | Cancer | ||
| + | | 8 | * | 26-35 | * | * | Gripe | ::: | | ||
| + | | 2 | * | 40-65 | * | * | Gripe | Grupo 3 | | ||
| + | | 7 | * | 40-65 | * | * | Covid | ::: | | ||
| + | | 9 | * | 40-65 | * | * | Corazón | ||
| + | |||
| + | ===== Algoritmo de Mondrian ===== | ||
| + | Es uno de los métodos más populares para implementar la K-Anonimidad. | ||
| + | * Se realizar un particionamiento multidimensional de los cuasi-identificadores para generar varias regiones. | ||
| + | * Para cada cada región se anonimizan los cuasi-identificadores de la siguiente forma: | ||
| + | * Atributos numéricos: Se usan rangos | ||
| + | * Atributos Categóricos: | ||
| + | |||
| + | ===== Privacidad de geolocalización ===== | ||
| + | Cuando trabajamos con ubicaciones tenemos mayores problemas ya que trabajamos con datos críticos como: | ||
| + | * Identidades | ||
| + | * Información espacial (Coordenadas) | ||
| + | * Información temporal (marca de tiempo) | ||
| + | |||
| + | La geolicalización (Location Based information Systems o LBS) esta compuesta por la siguiente arquitectura y componentes: | ||
| + | |||
| + | {{drawio> | ||
| + | |||
| + | Se deben declarar los usos que se le van a dar a estos datos. Se debe deben aplicar cifrado y anonimización sobre estos datos. La privacidad de la localización se define como la capacidad de una entidad de moverse por espacios públicos dando por hecho que su localización no va a ser registrada de forma sistemática y secreta. | ||
| + | |||
| + | ==== Ataques de localización ==== | ||
| + | * Scrapping de post públicos | ||
| + | * Servidores comprometidos | ||
| + | * Interceptación de datos de red | ||
| + | * Enlace de contexto | ||
| + | * Se combinan datos de localización con otras bases de datos | ||
| + | * Uso de machine learning para predecir la localización. | ||
| + | |||
| + | ==== Mecanismos de preservación de la privacidad de la localización ==== | ||
| + | * Métodos criptográficos: | ||
| + | * Uso de una clave compartida entre las entidades interesadas | ||
| + | * LBS Federado en el cual los datos de localización estan distribuidos entre diferentes servidores | ||
| + | * Métodos de anonimización | ||
| + | * K-Anonimidad, | ||
| + | * Un LBS de confianza debe anonimizar los datos de forma que cuando un usuario envíe una consulta que contenga su localización, | ||
| + | * Zonas-Mix | ||
| + | * Este método usa pseudónimos que cambian cada vez que un usuario entra una zona mix, que puede ser vista como una " | ||
| + | * Métodos de Ofuscación | ||
| + | * Se usan localizaciones falsas para enmascarar la verdadera localización del usuario (Falso positivo) | ||
| + | * Uso de áreas en vez de posiciones específicas | ||
| + | * Añadido de ruido (Privacidad Diferencial) a la localización del usuario para proteger su privacidad en un radio r. | ||