La privacidad puede tener varias definiciones:
Usando bases de datos externas es posible desanonimizar a personas con atributos externos. El adversario puede acceder por cualquier clase de medio a una base de datos no anonimizada y cruzando los datos es capaz de desanonimizar a cualquier individuo.
Netflix lanzó un concurso para buscar herramientas de recomendación para sus usuarios. Lo que hicieron fue ofrecer un premio a quien pudiera crear el mejor sistema de recomendaciones. Cada uno de los datasets estaba conpuesto por el ID de usuario anonimizado, un ID de una película, la puntuación que le dió dicha persona y la fecha de la puntuación. Se pensaba que esta información era completamente privada y segura.
La base de datos era bastante dispersa por los miles de atributos que habían, el conjunto de películas que una persona había visto era una variable casi única. Algunas películas habían sido vistas por solo un pequeño grupo de personas, siendo esto atributos únicos. Lo que se hizo fue medir la similitud entre los registros de datos con cierta tolerancia entre la puntuación y la fecha. Se empezaron a utilizar 1 y 0 para indicar si una película gustaba o no. Se tomó la base de datos de netflix y se cruzón con IMDb, buscando la gente que dio puntuaciones parecidas en las mismas fechas consitentemetne.
Con este método se pudieron identificar 2 de cada 50 personas cruzando los datos con IMDB. Las consecuencias de esto fue una denuncia contra netflix por parte de las personas cuyos datos estaban en eld ataset al ser esto una violación de la privacidad. Netflix tuvo que pagar 9 Millones de dólares a los usuarios afectados.
Se tomaron datos GPS de vehículos en el área de Detroit con un minuto de diferencia. Cuando los coches estaban apagados no enviaban datos. Se eliminaron sitios donde no se trabajaba por la tarde y se eliminaron los coches fuera de las áreas residenciales. Con estos datos fue posible localizar la casa de múltiples individuos. Durante 2 semanas, con los datos de 172 personas, mediante el uso de heurística (Las 3 Am estaba en casa, Luegar donde pasaban más tiempo, Uso de geolocalización reversa y páginas amarillas) para separar los vehículos se logró desanonimizar a un 5% de los sujetos.
Datos personales: cualquier información relacionada con un individuo que puede ser directa o indirectamente identificada. Nombres y direcciones de correo son datos personales obvios. Los datos pseudoanónimos también pueden caer bajo esta definición.