Los datos sintéticos no protegen la privacidad de manera confiable, afirman los investigadores

Una nueva colaboración de investigación entre Francia y el Reino Unido pone en duda la creciente confianza de la industria en que los datos sintéticos pueden resolver los problemas de privacidad, calidad y disponibilidad (entre otros) que amenazan el progreso en el sector del aprendizaje automático.

Entre varios puntos clave abordados, los autores afirman que los datos sintéticos modelados a partir de datos reales retienen suficiente información genuina como para proporcionar una protección confiable contra ataques de inferencia y membresía, que buscan desanonimizar los datos y volver a asociarlos con personas reales.

Además, las personas con mayor riesgo de tales ataques, incluidas aquellas con condiciones médicas críticas o facturas hospitalarias elevadas (en el caso de la anonimización de registros médicos), tienen más probabilidades de ser reidentificadas por la naturaleza ‘atípica’ de su condición. estas técnicas.

El documento observa:

‘Dado el acceso a un conjunto de datos sintéticos, un adversario estratégico puede inferir, con gran confianza, la presencia de un registro objetivo en los datos originales.’

El documento también señala que datos sintéticos diferencialmente privadosque oscurece la firma de registros individuales, de hecho protege la privacidad de las personas, pero solo paraliza significativamente la utilidad de los sistemas de recuperación de información que la utilizan.

En todo caso, observan los investigadores, enfoques diferencialmente privados, que utilizan información ‘real’ ‘a la vez’ a través de datos sintéticos: hacen que el escenario de seguridad sea peor de lo que hubiera sido de otra manera:

‘[Synthetic] los conjuntos de datos no brindan ninguna transparencia sobre esta compensación. Es imposible predecir qué características de los datos se conservarán y qué patrones se suprimirán.’

El nuevo papeltitulado Datos sintéticos: anonimización del día de la marmota, proviene de dos investigadores de la École Polytechnique Fédérale de Lausanne (EPFL) en París y un investigador del University College London (UCL).

Los investigadores realizaron pruebas de algoritmos de entrenamiento de modelos generativos privados existentes y descubrieron que ciertas decisiones de implementación violan las garantías formales de privacidad proporcionadas en los marcos, dejando diversos registros expuestos a ataques de inferencia.

Los autores ofrecen una versión revisada de cada algoritmo que potencialmente mitiga estas exposiciones y están creando el código disponible como una biblioteca de código abierto. Afirman que esto ayudará a los investigadores a evaluar las ganancias de privacidad de los datos sintéticos y comparar de manera útil los métodos populares de anonimización. El nuevo marco incorpora dos métodos de ataque a la privacidad pertinentes que se pueden aplicar a cualquier algoritmo de entrenamiento de modelos generativos.

Datos sintéticos

Los datos sintéticos se utilizan para entrenar modelos de aprendizaje automático en varios escenarios, incluidos los casos en los que la falta de información completa puede potencialmente completarse con datos sucedáneos. Un ejemplo de esto es la posibilidad de usar caras generadas por CGI para proporcionar fotos de caras ‘difíciles’ o poco frecuentes para conjuntos de datos de síntesis de imágenes, donde las imágenes de perfil, ángulos agudos o expresiones inusuales a menudo rara vez se ven en el material de origen.

Se han utilizado otros tipos de imágenes CGI para poblar conjuntos de datos que eventualmente se ejecutarán en datos no sintéticos, como conjuntos de datos que presentan las manos y mueble.

En términos de protección de la privacidad, los datos sintéticos pueden generarse a partir de datos reales mediante sistemas de redes generativas antagónicas (GAN) que extraen características de los datos reales y crean registros ficticios similares que probablemente se generalicen bien a datos posteriores (no vistos, reales). pero están destinados a ofuscar los detalles de las personas reales que aparecen en los datos de origen.

Metodología

Para los propósitos de la nueva investigación, los autores evaluaron las ganancias de privacidad a través de cinco algoritmos de entrenamiento de modelos generativos. Tres de los modelos no ofrecen protección de privacidad explícita, mientras que los otros dos vienen con garantías de privacidad diferenciales. Estos modelos tabulares fueron elegidos para representar una amplia gama de arquitecturas.

Las modelos atacadas fueron BayNetPrivBay (una derivación de PrivBayes/BayNet), CTGAN, PATEGAN y IndHist.

El marco de evaluación de los modelos se implementó como una biblioteca de Python con dos clases principales: GenerativeModels y PrivacyAttacks. Este último presenta dos facetas: un adversario de inferencia de membresía y un ataque de inferencia de membresía. El marco también puede evaluar los beneficios de privacidad de los datos ‘desinfectados’ (es decir, anonimizados) y los datos sintéticos.

Los dos conjuntos de datos utilizados en las pruebas fueron los Conjunto de datos para adultos del Repositorio de aprendizaje automático de UCI, y el Archivo de datos de uso público de datos de alta hospitalaria del Departamento Estatal de Servicios de Salud de Texas. La versión del conjunto de datos de Texas utilizada por los investigadores contiene 50 000 registros muestreados de registros de pacientes para el año 2013.

Ataques y Hallazgos

El objetivo general de la investigación es establecer la ‘vinculabilidad’ (la reasociación de datos reales con datos sintéticos que se inspiraron en ella). Los modelos de ataque utilizados en el estudio incluyen clasificadores de regresión logística, bosques aleatorios y vecinos más cercanos.

Los autores seleccionaron dos grupos objetivo que constaban de cinco registros seleccionados al azar para categorías de “minoría” de la población, ya que estos son más probable ser susceptible a un ataque de vinculación. También seleccionaron registros con ‘valores de atributos categóricos raros’ fuera de ese cuantil de atributos del 95%. Los ejemplos incluyen registros relacionados con alto riesgo de mortalidad, altos cargos hospitalarios totales y gravedad de la enfermedad.

Aunque el artículo no profundiza en este aspecto, desde el punto de vista de los posibles atacantes del mundo real, estos son exactamente el tipo de pacientes “caros” o de “alto riesgo” que tienen más probabilidades de ser el objetivo de la inferencia de membresía y otros tipos de enfoques de exfiltración. a los registros de los pacientes.

Se entrenaron múltiples modelos de ataque contra información de referencia pública para desarrollar ‘modelos de sombra’ más de diez objetivos. Los resultados de una variedad de experimentos (como se describió anteriormente) indican que varios registros eran “altamente vulnerables” a los ataques de vinculación dirigidos a ellos por parte de los investigadores. Los resultados también encontraron que el 20% de todos los objetivos en los ensayos recibieron una ganancia de privacidad de cero a partir de datos sintéticos producidos por métodos GAN.

Los investigadores señalan que los resultados variaron, según el método utilizado para generar datos sintéticos, el vector de ataque y las características del conjunto de datos objetivo. El informe encuentra que, en muchos casos, la supresión de identidad efectiva a través de enfoques de datos sintéticos reduce la utilidad de los sistemas resultantes. Efectivamente, la utilidad y la precisión de dichos sistemas pueden ser, en muchos casos, un índice directo de cuán vulnerables son a los ataques de reidentificación.

Los investigadores concluyen:

“Si un conjunto de datos sintético conserva las características de los datos originales con alta precisión y, por lo tanto, conserva la utilidad de los datos para los casos de uso para los que se anuncia, al mismo tiempo permite que los adversarios extraigan información confidencial sobre las personas.

“Solo se puede lograr una gran ganancia en privacidad a través de cualquiera de los mecanismos de anonimización que evaluamos si la versión sintética o desinfectada publicada de los datos originales no transmite la señal de los registros individuales en los datos sin procesar y, de hecho, suprime su registro”.

Deja un comentario