Reidentificación de datos de origen para generadores GAN

Una nueva investigación de Francia ha propuesto una técnica para ‘reidentificar’ las identidades de origen que han contribuido a los datos generados sintéticamente, como las ‘personas inexistentes’ generadas por GAN en proyectos de generación de rostros como Esta persona no existe.

El método descrito en el papel, titulado Esta persona (probablemente) existe. Los ataques de membresía de identidad contra rostros generados por GAN no requieren (poco probable) acceso a la arquitectura de entrenamiento o a los datos del modelo, y se pueden aplicar a una variedad de aplicaciones para las cuales el uso de redes adversarias generativas (GAN) se está explorando actualmente como métodos para ya sea para anonimizar la información de identificación personal (PII), o como un medio para generar datos sintéticos mientras se protege el material de origen.

Los investigadores han formulado un método llamado Identity Membership Attack, que evalúa la probabilidad de que una sola identidad aparezca con frecuencia en un conjunto de datos contribuyentes, en lugar de intentar identificar características particulares de una identidad (es decir, en los grupos de píxeles de una imagen original que fue utilizado para entrenar el modelo generativo).

Fuente: https://arxiv.org/pdf/2107.06018.pdf

Fuente: https://arxiv.org/pdf/2107.06018.pdf

En la imagen de arriba, de la investigación, cada fila comienza con una imagen generada por GAN creada por StyleGAN. El bloque de imágenes de la izquierda se creó a partir de una base de datos de 40.000 imágenes, el del medio de 80.000 y el bloque de la derecha de 46.000 imágenes. Todas las imágenes provienen del conjunto de datos VGG2Face2.

Algunas muestras tienen un parecido fugaz, mientras que otras se correlacionan fuertemente con los datos de entrenamiento. Los investigadores identificaron con éxito los rostros utilizando una red de identificación de rostros.

Más que valor nominal

Los enfoques de reidentificación de esta naturaleza tienen múltiples implicaciones en muchos campos de investigación; los investigadores, con sede en la Universidad de Caen en Normandía, enfatizan que su técnica no se limita a conjuntos de rostros y marcos GAN generadores de rostros, sino que es igualmente aplicable a conjuntos de datos de imágenes médicas y datos biométricos, entre otras posibles superficies de ataque en la síntesis de imágenes. marcos

“Sostenemos que, si tiene éxito, dicho ataque se revelaría como un serio obstáculo para el intercambio seguro de GAN en contextos sensibles. Por ejemplo, en el contexto de pinturas u otras obras de arte, la distribución de un generador no privado bien podría descartarse por cuestiones obvias de derechos de autor. Más importante aún, considere una empresa biométrica A que lanza un generador que expone su identidad de consumidor. Otra empresa B podría detectar potencialmente cuáles de sus propios consumidores también son clientes de la empresa A. Situaciones similares pueden plantear problemas graves para los datos médicos, donde revelar una GAN podría violar la información personal sobre la enfermedad de un paciente.

Reidentificación ilegítima de datos privados o extraídos de la web

Aunque el documento solo toca ligeramente el tema, la capacidad de identificar los datos de la fuente original a partir de la salida abstracta (como las caras generadas por GAN, aunque esto se aplica igualmente a los sistemas de codificador/decodificador y otras arquitecturas) tiene implicaciones notables para implementaciones de protección de derechos de autor en los próximos 5 a 10 años.

Actualmente, la mayoría de los países están operando con un enfoque de laissez faire para el raspado de datos web públicos para no quedarse atrás en la etapa de desarrollo de las próximas economías de aprendizaje automático. A medida que ese clima se comercializa y se consolida, existe un potencial significativo para que una nueva generación de ‘Trolls de datos’ presente reclamos de derechos de autor sobre imágenes que se ha confirmado que se han utilizado históricamente en conjuntos de datos que han contribuido a los algoritmos de aprendizaje automático.

A medida que los algoritmos desarrollados maduran y se vuelven más valiosos con el tiempo, cualquier imagen no permitida que se haya utilizado en su desarrollo inicial, y que pueda inferirse de su resultado mediante métodos similares a los propuestos en el nuevo documento francés, es una responsabilidad legal potencial. en la escala de SCO Vs IBM (una legendaria demanda tecnológica de larga duración que sigue amenazando el sistema operativo Linux).

Explotando el enfrentamiento mexicano de la diversidad frente a la frecuencia

La técnica principal utilizada por los investigadores franceses explota la frecuencia de las imágenes del conjunto de datos original como clave para la reidentificación. Cuanto más frecuentemente se encuentre una identidad particular en el conjunto de datos, más probable será que sea posible hacer una identificación de esa identidad original, al correlacionar los resultados del ataque con conjuntos de datos disponibles pública o privadamente.

Los investigadores señalan que esto se puede mitigar al incluir una diversidad mucho mayor de datos (por ejemplo, de caras) en el conjunto de datos de origen y al no entrenar el conjunto de datos por tanto tiempo que se produzca un sobreajuste. El problema con esto es que el modelo debe lograr una buena abstracción en un espacio dimensional mucho mayor y con una cantidad de datos mucho mayor que la estrictamente necesaria para obtener resultados sintéticos plausibles.

Lograr una generalización óptima de este tipo es costoso y requiere mucho tiempo: el espacio latente (la parte del análisis de fórmulas del modelo de aprendizaje automático en el que se alimentan los datos) necesitará más recursos; el conjunto de datos necesitará más curación; y dado que la cantidad de datos deberá ser significativa, los tamaños de los lotes y la programación de tasas deberán optimizarse para la calidad y los altos niveles de generalización, en lugar de la velocidad de capacitación y la economía, lo que generará costos de desarrollo más altos y tiempos de desarrollo más prolongados.

Además, los algoritmos generativos sobreajustados pueden lograr datos sintéticos altamente realistas, incluso si los datos de salida (es decir, rostros, mapas, imágenes biomédicas, etc.) no son completamente abstractos, sino que presentan rasgos distintivos de los datos de origen más grandes de lo que sería ideal: una tentación. atajo. En el clima actual del “salvaje oeste” del sector del aprendizaje automático, donde las iniciativas más pequeñas intentan desafiar el liderazgo de FAANG con recursos más escasos (o llamar la atención para una compra), es cuestionable si los estándares siempre se elevan tan alto.

El documento también observa que la diversidad de puntos de datos de origen (como rostros) no es suficiente por sí misma para evitar la reidentificación a través de estos y otros métodos similares, ya que la interrupción prematura del entrenamiento puede dejar las identidades de origen insuficientemente abstraídas.

Deja un comentario