Knoppia

Wiki de Informática y otras historias

Herramientas de usuario

Herramientas del sitio


pan:tecnicas_anonimidad_v2

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anteriorRevisión previa
Próxima revisión
Revisión previa
pan:tecnicas_anonimidad_v2 [2026/01/01 16:55] – [Tabla] thejuanvisupan:tecnicas_anonimidad_v2 [2026/01/01 18:48] (actual) thejuanvisu
Línea 117: Línea 117:
  
 ^ ID  ^ Codigo Postal  ^ Edad  ^ Género  ^ Religión  ^ Enfermedad  ^ Agrupación  ^ ^ ID  ^ Codigo Postal  ^ Edad  ^ Género  ^ Religión  ^ Enfermedad  ^ Agrupación  ^
-  | 25xxx          | <30   | M       | *         | Gripe        Grupo 1    | +  | 25xxx          | <30   | M       | *         | Gripe        Grupo 1    | 
-  | 25xxx          | <30   | M       | *         | Gripe        :::        +  | 25xxx          | <30   | M       | *         | Gripe       | :::         
-  | 25xxx          | >40   | *       | *         | Covid        Grupo 2    | +  | 25xxx          | >40   | *       | *         | Covid        Grupo 2    | 
-  | 25xxx          | >40   | *       | *         | Gripe        :::        |+  | 25xxx          | >40   | *       | *         | Gripe       | :::         |
 | 5   | 158xx          | <25   | *       | *         | Infección    Grupo 3    | | 5   | 158xx          | <25   | *       | *         | Infección    Grupo 3    |
-  | 158xx          | <25   | *       | *         | Covid        :::        +  | 158xx          | <25   | *       | *         | Covid       | :::         
-  | 158xx          | <25   | *       | *         | Cancer      |  :::        +  | 158xx          | <25   | *       | *         | Cancer      | :::         
-  | 158xx          | >30   | F       | *         | Cancer      |  Grupo 4    | +  | 158xx          | >30   | F       | *         | Cancer      |  Grupo 4    | 
-| 9   | 158xx          | >30   | F       | *         | Corazón      :::        |+| 9   | 158xx          | >30   | F       | *         | Corazón     | :::         |
  
-Queremos aplicar una L-Diversidad donde L=2. Como mencionamos antes, esto se cumple para todos los grupos menos para el grupo 1, donde los valores sensibles son iguales. Para Hacer que este dataset cumpla con la 2-Diversidad vamos a juntar el grupo 1 con el grupo 2:+Queremos aplicar una L-Diversidad donde L=2. Como mencionamos antes, esto se cumple para todos los grupos menos para el grupo 1, donde los valores sensibles son iguales. Para Hacer que este dataset cumpla con la 2-Diversidad vamos a juntar el grupo 1 con el grupo 2 realizando las siguientes operaciones adicionales: 
 +  * Suprimimos las Edades 
 +  * Suprimimos el género 
 + 
 +De esta forma se crea un nuevo "Grupo 1-2" el cual va agrupado por el código postal en vez de por la edad:
  
 ^ ID  ^ Codigo Postal  ^ Edad  ^ Género  ^ Religión  ^ Enfermedad  ^ Agrupación  ^ ^ ID  ^ Codigo Postal  ^ Edad  ^ Género  ^ Religión  ^ Enfermedad  ^ Agrupación  ^
-  | 25xxx          | <30         | *         | Gripe        Grupo 1    +  | 25xxx          | *           | *         | Gripe        Grupo 1-2  
-  | 25xxx          | <30         | *         | Gripe        :::        +  | 25xxx          | *           | *         | Gripe       | :::         
-  | 25xxx          | >40   | *       | *         | Covid       |  Grupo 2    +  | 25xxx          | *     | *       | *         | Covid       |  :::        
-  | 25xxx          | >40   | *       | *         | Gripe        :::        |+  | 25xxx          | *     | *       | *         | Gripe       | :::         |
 | 5   | 158xx          | <25   | *       | *         | Infección    Grupo 3    | | 5   | 158xx          | <25   | *       | *         | Infección    Grupo 3    |
-  | 158xx          | <25   | *       | *         | Covid        :::        +  | 158xx          | <25   | *       | *         | Covid       | :::         
-  | 158xx          | <25   | *       | *         | Cancer      |  :::        +  | 158xx          | <25   | *       | *         | Cancer      | :::         
-  | 158xx          | >30   | F       | *         | Cancer      |  Grupo 4    | +  | 158xx          | >30   | F       | *         | Cancer      |  Grupo 4    | 
-| 9   | 158xx          | >30   | F       | *         | Corazón      :::        |+| 9   | 158xx          | >30   | F       | *         | Corazón     :::         | 
 + 
 + 
 +===== T-Proximidad ===== 
 + 
 +Queremos conseguir que la distribución cumpla con un umbral de distancia: 
 +  * La distancia entre las distribuciones debe ser menor o igual que T 
 + 
 +<WRAP box> 
 +$Dist(X,Y)≤t$ 
 +</WRAP> 
 + 
 +  * Hay varias métricas que se pueden utilizar para medir la distancia entre 2 distribuciones. Una de las más usadas es EMD (Earths Mover's Distance) 
 +  * Dadas 2 distribuciones X e Y, con probabilidades $X_i$ e $Y_i$ para el elemento i de cada set, el EMD se puede definir de la siguiente forma para atributos categóricos: 
 +<WRAP box> 
 +$EMD(X,Y)= 1/2 ∑_{i=1}^m|X_i-Y_i|$ 
 +</WRAP> 
 +Un ejemplo del cálculo de T-Proximidad categórico sería el siguiente: 
 + 
 +<WRAP box> 
 +$Y = [Gripe, Covid, Gripe, Cancer, Gripe, Covid]$ -> $Y = {Gripe, Covid, Cancer}$; Y={$\frac{1}{2}$ ,$\frac{1}{3}$, $\frac{1}{6}$} 
 +</WRAP> 
 + 
 +<WRAP box> 
 +$X = [Gripe, Covid, Cancer]$ -> $X= {Gripe, Covid, Caner}$; X = {$\frac{1}{3}$, $\frac{1}{3}$, $\frac{1}{3}$} 
 +</WRAP> 
 + 
 +<WRAP box> 
 +$EMD(X,Y) = \frac{1}{2}[|\frac{1}{3} - \frac{1}{2}| + |\frac{1}{3} - \frac{1}{3}| + |\frac{1}{3} - \frac{1}{6}|] = \frac{1}{2}[\frac{1}{6} + \frac{1}{6}] = 0.1667$ 
 +</WRAP> 
 + 
 +==== Ejemplo de T-Proximidad ==== 
 +Para este ejemplo vamos a tomar la siguiente tabla como base: 
 +^ ID  ^ Codigo Postal  ^ Edad  ^ Género  ^ Religión  ^ Enfermedad 
 +1   | 15846          | 15    | M       | *         | Covid       | 
 +| 2   | 25105          | 41    | F       | *         | Gripe       | 
 +| 3   | 15834          | 18    | F       | *         | Cancer      | 
 +| 4   | 25504          | 25    | M       | *         | Gripe       | 
 +| 5   | 15894          | 22    | M       | *         | Infección   | 
 +| 6   | 15833          | 31    | F       | *         | Cancer      | 
 +| 7   | 25974          | 58    | M       | *         | Covid       | 
 +| 8   | 25785          | 29    | M       | *         | Gripe       | 
 +| 9   | 15874          | 62    | F       | *         | Corazón     | 
 + 
 +Comenzamos mirando la **distribución global de las enfermedades**: 
 +  * Gripe = $\frac{3}{9}$ 
 +  * Covid = $\frac{2}{9}$ 
 +  * Cancer = $\frac{2}{9}$ 
 +  * Infección = $\frac{1}{9}$ 
 +  * Corazón = $\frac{1}{9}$ 
 + 
 +Ralizamos **agrupaciones por rango de edades**: 
 +  * Grupo 1 (15 a 25 años): 
 +    * Covid 
 +    * Cancer 
 +    * Gripe 
 +    * Infección 
 +  * Grupo 2 (26 a 35 años) 
 +    * Cancer 
 +    * Gripe 
 +  * Grupo 3 (40 a 65 años) 
 +    * Gripe 
 +    * Covid 
 +    * Corazón 
 + 
 +**Cálculo de la distribución** de enfermedades por grupo: 
 +  * Grupo 1: 
 +    * Gripe = $\frac{1}{4}$ 
 +    * Covid = $\frac{1}{4}$ 
 +    * Cancer = $\frac{1}{4}$ 
 +    * Infección = $\frac{1}{4}$ 
 +    * Corazón = $\frac{0}{4}$ 
 +  * Grupo 2: 
 +    * Gripe = $\frac{1}{2}$ 
 +    * Covid = $\frac{0}{2}$ 
 +    * Cancer = $\frac{1}{2}$ 
 +    * Infección = $\frac{0}{2}$ 
 +    * Corazón = $\frac{0}{2}$ 
 +  * Grupo 3: 
 +    * Gripe = $\frac{1}{3}$ 
 +    * Covid = $\frac{1}{3}$ 
 +    * Cancer = $\frac{0}{3}$ 
 +    * Infección = $\frac{0}{3}$ 
 +    * Corazón = $\frac{1}{3}$ 
 + 
 +**Medir Distancia (EMD)** 
 + 
 +En este caso tenemos los siguientes datos: 
 +  * $X_i$ = Probabilidad global 
 +  * $Y_i$ = Probabilidad del grupo 
 + 
 +En este caso, por ejemplo, tomamos el grupo 2 y calculamos $|X_i-Y_i|$ para cada enfermedad: 
 +  * Gripe = $|\frac{3}{9} -\frac{1}{2}| = 0.17$ 
 +  * Covid = $|\frac{2}{9} -0| = 0.22$ 
 +  * Cancer = $|\frac{2}{9} -\frac{1}{2}| = 0.28$ 
 +  * Infección = $|\frac{1}{9} - 0| = 0.11$ 
 +  * Corazón = $|\frac{1}{9} - 0| = 0.11$ 
 + 
 +Tras eso realizamos la suma de $|X_i-Y_i|$ para cada enfermedad: 
 + 
 +$0.17+0.22+0.28+0.11+0.11=0.89$ 
 + 
 +Finalmente completamos el cálculo de la EMD dividiendo el resultado entre 2 
 + 
 +EMD = $|\frac{1}{2} * 0.89 = 0.445$ 
 + 
 +Teniendo en cuenta podemos decir que el siguiente dataset tiene 2-Anonimidad, 2-Diversidad y 0.44-Proximidad: 
 + 
 +^ ID  ^ Codigo Postal  ^ Edad   ^ Género  ^ Religión  ^ Enfermedad  ^ Grupo    ^ 
 +| 1   | *              | 15-25  | *       | *         | Covid       | Grupo 1  | 
 +| 3   | *              | 15-25  | *       | *         | Cancer      | :::      | 
 +| 4   | *              | 15-25  | *       | *         | Gripe       | :::      | 
 +| 5   | *              | 15-25  | *       | *         | Infección   | :::      | 
 +| 6   | *              | 26-35  | *       | *         | Cancer      | Grupo 2  | 
 +| 8   | *              | 26-35  | *       | *         | Gripe       | :::      | 
 +| 2   | *              | 40-65  | *       | *         | Gripe       | Grupo 3  | 
 +| 7   | *              | 40-65  | *       | *         | Covid       | :::      | 
 +| 9   | *              | 40-65  | *       | *         | Corazón     | :::      | 
 + 
 +===== Algoritmo de Mondrian ===== 
 +Es uno de los métodos más populares para implementar la K-Anonimidad.  
 +  * Se realizar un particionamiento multidimensional de los cuasi-identificadores para generar varias regiones. 
 +  * Para cada cada región se anonimizan los cuasi-identificadores de la siguiente forma: 
 +    * Atributos numéricos: Se usan rangos 
 +    * Atributos Categóricos: Se define un set que representa todos los elementos 
 + 
 +===== Privacidad de geolocalización ===== 
 +Cuando trabajamos con ubicaciones tenemos mayores problemas ya que trabajamos con datos críticos como: 
 +  * Identidades 
 +  * Información espacial (Coordenadas) 
 +  * Información temporal (marca de tiempo) 
 + 
 +La geolicalización (Location Based information Systems o LBS) esta compuesta por la siguiente arquitectura y componentes: 
 + 
 +{{drawio>pan:anongeoloc.png}} 
 + 
 +Se deben declarar los usos que se le van a dar a estos datos. Se debe deben aplicar cifrado y anonimización sobre estos datos. La privacidad de la localización se define como la capacidad de una entidad de moverse por espacios públicos dando por hecho que su localización no va a ser registrada de forma sistemática y secreta.
  
 +==== Ataques de localización ====
 +  * Scrapping de post públicos
 +  * Servidores comprometidos
 +  * Interceptación de datos de red
 +  * Enlace de contexto
 +    * Se combinan datos de localización con otras bases de datos
 +  * Uso de machine learning para predecir la localización.
  
 +==== Mecanismos de preservación de la privacidad de la localización ====
 +  * Métodos criptográficos: 
 +    * Uso de una clave compartida entre las entidades interesadas
 +    * LBS Federado en el cual los datos de localización estan distribuidos entre diferentes servidores
 +  * Métodos de anonimización
 +    * K-Anonimidad, L-diversidad y T-Proximidad
 +      * Un LBS de confianza debe anonimizar los datos de forma que cuando un usuario envíe una consulta que contenga su localización, el server en cuentre un grupo que satisfaga los criterios de anonimización para el área que contiene dicha licalización.
 +    * Zonas-Mix
 +      * Este método usa pseudónimos que cambian cada vez que un usuario entra una zona mix, que puede ser vista como una "Non-tracking Area", de forma que el usuario no puede ser completamente trazado si hay otros usuarios en dichas Zonas Mix.
 +    * Métodos de Ofuscación
 +      * Se usan localizaciones falsas para enmascarar la verdadera localización del usuario (Falso positivo)
 +      * Uso de áreas en vez de posiciones específicas
 +      * Añadido de ruido (Privacidad Diferencial) a la localización del usuario para proteger su privacidad en un radio r.
pan/tecnicas_anonimidad_v2.1767286502.txt.gz · Última modificación: 2026/01/01 16:55 por thejuanvisu