Muestra las diferencias entre dos versiones de la página.
| Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
| pan:machine_learning_privacy_v2 [2026/01/07 21:54] – thejuanvisu | pan:machine_learning_privacy_v2 [2026/01/07 23:07] (actual) – thejuanvisu | ||
|---|---|---|---|
| Línea 54: | Línea 54: | ||
| * Ataques contra Modelos generativos: | * Ataques contra Modelos generativos: | ||
| * Ataque contra prendizaje federado: Un participante trata de inferir si un registro forma parte del set de entrenamiento de un participante específico o cualquier participante. | * Ataque contra prendizaje federado: Un participante trata de inferir si un registro forma parte del set de entrenamiento de un participante específico o cualquier participante. | ||
| + | * Filtración de la cantidad de miembtros a través de las salidas de predicción. | ||
| + | * Problema de la inferencia de miembros. Usando un shadwo training se puede crear un sahdow model que imita el comportamiento del modelo. | ||
| + | * El atacante no tiene datos para entrenar ni estradísticas sobre su distribución. | ||
| + | * General datos sintéticos usando el modelo objetivo | ||
| + | |||
| + | ===== Ataque de reconstrucción | ||
| + | Se trata de recrear los ejemplos de entrenamiento y sus etiquetas. La reconstrucción puede ser parcial o completa. Dadas las etiquetas de salida y conocimiento parcial sobre características se puede intentar recuperar características sensibles o toda la muestra de datos. | ||
| + | * Inversión del modelo: | ||
| + | * Un alto nivel de error de generalización puede resultar en una mayor probabilidad de inferir atributos de los datos. Un poder predictivo mñas alto es mñas susceptible a ataques de reconstrucción. | ||
| + | * El ataque se implementa de la siguiente forma: | ||
| + | * El adversario tiene axceso al modelo y la salida del modelo para un ejemplo específico. | ||
| + | * El ataque se basa en estimar los valores de características sensibles dados los valores de características no sensibles y las etiquetas de salida. | ||
| + | * La inversión del modelo produce las características medias que mejor caracterica la salida de una clase. No construye un número específico de miembros del dataset de entrenamiento. No determina si una entrada específica fue usada para entrenar el modelo. | ||
| + | |||
| + | ===== Ataque de inferencia de propiedades ===== | ||
| + | La capacidad para extraer propiedades del dataset no codificadas como características o no correlacionadas con la tarea de aprendizaje. Este tipo de ataque tiene implicaciones de privacidad. Puede permitir a un atacante crear modelos similares. Puede ser usado para detectar vulnerabilidades en un sistema. Es posible de realizar incluso en modelos bien generalizados. | ||
| + | |||
| + | ===== Ataque de extracción del modelo ===== | ||
| + | El adversario trata de extraer información y potencialmente reconstruir el modelo. Crea un modelo sustituto que se comporta de forma similar al modelo atacado. El adversario quiere ser lo más eficiente posible. | ||
| + | * Task Accuracy Extraction: Para igualar la exactud del modelo objetivo, se usand atos con una distribución relacionada con los datos de aprendizaje. | ||
| + | * Fidelity extraction: Para hacer coincidir un set de puntos de entrada no necesariamente relacionado con la tarea de aprendizaje se crea una falsificación llamada Extracción de funcionalidad. | ||
| + | No es encesario saber la arquitectura del modelo bajo ataque si el modelo sustituto tiene la misma o mayor complejidad. | ||
| + | |||
| + | |||
| + | ====== Técnicas de defensa en Machine Learning ====== | ||
| + | Las técnicas de privacidad diferencial pueden resistir ataques de inferencia de membresía añadiendo rudio en los datos de entrada, interaciones del algoritmo de machine learning y en la salida del algoritmo. | ||
| + | |||
| + | * **Perturbación de la entrada**: Tras el enetranamiento en datos saneados, la salida será privadamente diferencial. Requiere la adición de ruido en los datos de entrada ya que estos datos suelen tener mayor sensibilidad. | ||
| + | * **Perturbación del algoritmo**: | ||
| + | * **Perturbación del objetivo**: Se añade ruido a la función objetivo del algoritmo de aprendizaje. La mayoría de los mecanismos de perturbación asumen un espacio acotado. Si el espacio de muestra está acotado, el valor de cada muestra será truncado en la fase de preprocesado. | ||
| + | * **Perturbación de la salida**: Se usa un algoritmo no privado de aprendizaje y después se añade ruido al modelo generado. Normalmente se aplica sobre modelos que producen estadísticas complejas. No apto para muchos de los algoritmos supervisados que requieren interacturar con datos de prueba muchas veces. | ||
| + | |||
| + | ===== Generación de datos sintéticos que preservan la privacidad ===== | ||
| + | Algunos usuarios de los datos pueden pedir los datos originales para usarlos localmente. Métodos conservadores de la privacidad para la compartición de datos pueden ser usados para este propósito. La generación de datos sintéticos es una solución para la compartición de datos. Se generan datos artificiamente que tienen distribuciones y propiedades similares a los datos originales. | ||
| + | |||
| + | Los datos sintéticos son un tipo de datos artificialmente formulados generados por algoritmos artificales. Tienen algunas características críticas de los datos actuales. Puede producir resultados similares a los de datos reales. Puede ser generado para características espècíficas de escenarios de prueba poco comunes. | ||
| + | |||
| + | Los datos sintéticos ayudan a asegurtar la protección de la privacidad, al comaprtirlos se mantiene la utilidad de la aplicación y se preserva la privacidad. | ||
| + | |||
| + | ===== Ténicas de minado de datos que preservan la privacidad ===== | ||
| + | La minería de datos son herramientas y técnicas que pueden ser usadas para recolectar información y analizarla para extraer conocimiento de esta. | ||
| + | * Modelo descriptivo: | ||
| + | * Modelo Prescriptivo: | ||