Investigadores de la Universidad Nacional de Singapur han concluido que cuanto más explicable se vuelve la IA, más fácil será eludir las características vitales de privacidad en los sistemas de aprendizaje automático. También encontraron que incluso cuando un modelo no es explicable, es posible usar explicaciones de modelos similares para ‘decodificar’ datos confidenciales en el modelo no explicable.
Él investigartitulado Exploiting Explanations for Model Inversion Attacks, destaca los riesgos de utilizar la opacidad ‘accidental’ de la forma en que funcionan las redes neuronales como si se tratara de una característica de seguridad por diseño, sobre todo porque una ola de nuevas iniciativas globales, incluida la de la Unión Europea proyecto de reglamento de IA, son caracterizando La IA explicable (XAI) como requisito previo para la eventual normalización del aprendizaje automático en la sociedad.
En la investigación, se reconstruye con éxito una identidad real a partir de datos supuestamente anónimos relacionados con las expresiones faciales, mediante la explotación de múltiples explicaciones del sistema de aprendizaje automático. Fuente: https://arxiv.org/pdf/2108.10800.pdf
Los investigadores comentan:
‘La inteligencia artificial explicable (XAI) proporciona más información para ayudar a los usuarios a comprender las decisiones del modelo, pero este conocimiento adicional expone riesgos adicionales para los ataques a la privacidad. Por lo tanto, proporcionar una explicación daña la privacidad.’
Reidentificación de Datos Privados
Los participantes en conjuntos de datos de aprendizaje automático pueden haber dado su consentimiento para ser incluidos asumiendo el anonimato; en el caso de la información de identificación personal (PII) que termina en los sistemas de inteligencia artificial a través de la recopilación de datos ad hoc (por ejemplo, a través de las redes sociales), la participación puede ser técnicamente legal, pero pone a prueba la noción de “consentimiento”.
En los últimos años han surgido varios métodos que han demostrado ser capaces de eliminar el anonimato de la PII de flujos de datos de aprendizaje automático aparentemente opacos. Extracción de modelo utiliza acceso API (es decir, acceso de ‘caja negra’, sin disponibilidad especial del código fuente o los datos) para extraer PII incluso de proveedores de MLaaS de gran escala, incluidos los servicios web de Amazonmientras que los ataques de inferencia de membresía (MIA), operando bajo restricciones similares, puede potencialmente obtener información médica confidencial; Además, los ataques de inferencia de atribución (AIA) pueden recuperar datos confidenciales de la salida de la API.
caras reveladoras
Para el nuevo artículo, los investigadores se han concentrado en un ataque de inversión de modelos diseñado para obtener una identidad de un subconjunto de datos de emociones faciales que no deberían ser capaces de revelar esta información.
El objetivo del sistema era asociar imágenes encontradas en la naturaleza (ya sea publicadas casualmente en Internet o en una posible violación de datos) con su inclusión en los conjuntos de datos que sustentan un algoritmo de aprendizaje automático.
Los investigadores entrenaron un modelo de ataque de inversión capaz de reconstruir la imagen contribuyente a partir de la salida API anonimizada, sin acceso especial a la arquitectura original. El trabajo previo en este campo se ha concentrado en sistemas donde la identificación (proteger o revelar) era el objetivo tanto del sistema objetivo como del sistema atacante; en este caso, el marco ha sido diseñado para explotar la salida de un dominio y aplicarlo a un dominio diferente.
A transpuesto Se empleó una red neuronal convolucional (CNN) para predecir una cara de origen ‘original’ basada en el vector de predicción de destino (mapa de prominencia) para un sistema de reconocimiento de emociones, utilizando un Arquitectura U-Net para mejorar el rendimiento de la reconstrucción facial.
El sistema de reidentificación está alimentado e informado por IA explicable (XAI), donde el conocimiento de la activación de neuronas, entre muchas facetas públicas XAI contribuyentes, se explota para reconstruir las maquinaciones internas de la arquitectura solo a partir de su salida, lo que permite la reidentificación de contribuyentes imágenes del conjunto de datos.
Pruebas
Al probar el sistema, los investigadores lo aplicaron contra tres conjuntos de datos: iCV-MEFED Expresiones de la cara; celeb; y dígitos manuscritos MNIST. Para adaptarse al tamaño del modelo que utilizan los investigadores, los tres conjuntos de datos se redimensionaron respectivamente a 128 × 128, 265 × 256 y 32 × 32 píxeles. El 50% de cada conjunto se usó como datos de entrenamiento y la otra mitad se usó como un conjunto de datos de ataque para entrenar los modelos antagonistas.
Cada conjunto de datos tenía diferentes modelos de destino, y cada red de ataque se ajustó a las limitaciones de las explicaciones que sustentan el proceso, en lugar de utilizar modelos neuronales más profundos cuya complejidad superaría la generalización de las explicaciones.
Los tipos de explicación XAI utilizados para potenciar los intentos incluidos Explicación del gradiente, Entrada de gradiente, Graduado-CAM y propagación de relevancia por capas (LRP). Los investigadores también evaluaron múltiples explicaciones a lo largo de los experimentos.
Reconstrucción de imágenes facilitada por un ataque de inversión compatible con XAI en los tres conjuntos de datos, con objetivos y tareas de ataque idénticos.
Las métricas para la prueba fueron la similitud de píxeles evaluada por el error cuadrático medio (MSE); Similitud de imagen (SSIM), un índice de similitud basado en la percepción; precisión de ataque, determinada por si un clasificador puede volver a etiquetar con éxito una imagen reconstruida; y ataque de similitud de incrustación, que compara las incrustaciones de características de datos de origen conocidos con datos reconstruidos.
Se logró la reidentificación, con diferentes niveles según la tarea y los conjuntos de datos, en todos los conjuntos. Además, los investigadores descubrieron que al inventar un modelo de destino sustituto (sobre el que, naturalmente, tenían un control total), todavía era posible lograr la reidentificación de datos de modelos “cerrados” externos, basados en principios XAI conocidos.
Los investigadores encontraron que los resultados más precisos se obtuvieron mediante explicaciones basadas en la activación (mapa de prominencia), que filtraron más PII que los enfoques basados en la sensibilidad (gradiente).
En el trabajo futuro, el equipo tiene la intención de incorporar diferentes tipos de explicación XAI en ataques novedosos, como visualizaciones de funciones y Vectores de active concept.