Machine Learning As a Service (MLaaS) comercializa los frutos de costosas investigaciones y capacitación de modelos a través de API que brindan a los clientes acceso a información del sistema. Aunque el razonamiento del sistema se revela inevitablemente en cierta medida a través de estas transacciones, la arquitectura del modelo central, los pesos que definen la utilidad del modelo y los datos de entrenamiento específicos que lo hicieron útil se guardan celosamente por varias razones.
En primer lugar, es probable que el marco haya explotado una serie de repositorios de código libre o de código abierto (FOSS), y los rivales potenciales podrían hacer lo mismo trivialmente en busca de los mismos fines; en segundo lugar, en muchos casos, las ponderaciones utilizadas por los modelos representan el 95 % o más de la capacidad del modelo para interpretar los datos de entrenamiento mejor que los modelos rivales, y podría decirse que constituyen el valor central de una inversión costosa, tanto en términos de horas de investigación como de gran escala. Capacitación de modelos con buenos recursos en GPU de grado industrial.
Además, la combinación de datos privados y de cara al público detrás del conjunto de datos de entrenamiento del modelo es un asunto potencialmente incendiario: cuando los datos son trabajo ‘original’ obtenido a través de métodos costosos, la capacidad de un usuario de API para inferir la estructura de datos o el contenido a través de API -Las solicitudes permitidas podrían permitirles reconstruir esencialmente el valor del trabajo, ya sea al comprender el esquema de los datos (permitiendo una reproducción práctica) o al reproducir los pesos que orquestan las características de los datos, lo que potencialmente permite la reproducción de un ‘ arquitectura vacía pero efectiva en la que el material subsiguiente podría procesarse de manera útil.
Lavado de datos
Además, la forma en que los datos se abstraen en el espacio latente del modelo de aprendizaje automático durante el entrenamiento los “lavan” efectivamente en funciones generalizadas que dificultan que los titulares de los derechos de autor comprendan si su trabajo original se ha asimilado sin permiso en un modelo.
Es probable que el actual clima de laissez faire en todo el mundo con respecto a esta práctica caiga bajo una regulación cada vez más estricta en los próximos 5 a 10 años. El borrador de las regulaciones de la UE para la IA ya contiene restricciones sobre la procedencia de los datos y un marco de transparencia putativo que dificultaría que las empresas de recopilación de datos eludan las regulaciones de dominio sobre el web-scraping con fines de investigación. otros gobiernos, incluyendo los EE. UU.están ahora cometiendo a marcos regulatorios similares a largo plazo.
A medida que el campo del aprendizaje automático evoluciona de una cultura de prueba de concepto a una ecoestructura comercial viable, los modelos de ML que hayan infringido las restricciones de datos, incluso en iteraciones mucho más tempranas de sus productos, podrían verse legalmente expuestos.
Por lo tanto, el riesgo de inferir fuentes de datos a través de llamadas API se relaciona no solo con el espionaje industrial a través de inversión del modelo y otros métodos, pero posiblemente a los métodos forenses emergentes para la protección de la propiedad intelectual que pueden afectar a las empresas después de que la era del “salvaje oeste” de la investigación del aprendizaje automático llegue a su fin.
Exfiltración impulsada por API como medio para desarrollar un ataque adversario
Algunos marcos de aprendizaje automático actualizan constantemente sus datos y algoritmos de entrenamiento, en lugar de derivar un modelo único definitivo a largo plazo de un gran corpus de datos históricos (como con GPT-3, por ejemplo). Estos incluyen sistemas relacionados con la información de tráfico y otros sectores donde los datos en tiempo real son críticos para el valor continuo de un servicio basado en ML.
Si la lógica o la ponderación de datos de un modelo se pueden ‘mapear’ al sondearlo sistemáticamente a través de las API, estos factores pueden potencialmente volverse contra el sistema en forma de ataques adversarios, donde los datos creados con fines malintencionados pueden dejarse en la naturaleza, en áreas donde es probable que el sistema de destino lo recoja; o infiltrándose en las rutinas de adquisición de datos por otros métodos.
Por lo tanto, las medidas contra el mapeo centrado en API también tienen implicaciones para la seguridad de los modelos de aprendizaje automático.
Prevención de la exfiltración impulsada por API
En los últimos años han surgido una serie de iniciativas de investigación para proporcionar metodologías que puedan evitar la inferencia de la arquitectura del modelo y datos de origen específicos a través de llamadas API. El último de estos es delineado en una colaboración preliminar entre investigadores del Instituto Indio de Ciencias de Bangalore y Nference, una plataforma de software basada en IA con sede en Cambridge, Massachusetts.
Titulado Stateful Detection of Model Extraction Attacks, la investigación propone un sistema llamado VarDetect, para el cual se ha desarrollado un código preliminar. Hecho disponible en GitHub.
Al ejecutarse en el lado del servidor, VarDetect monitorea continuamente las consultas de los usuarios a una API, buscando tres patrones distintos de ataques de patrones de extracción de modelos repetitivos. Los investigadores informan que VarDetect es el primer mecanismo de defensa de este tipo que resiste los tres tipos. Además, puede contrarrestar las contramedidas de los atacantes que se dan cuenta de un mecanismo de defensa y que buscan vencerlo ocultando los patrones de ataque con pausas o aumentando el volumen de consultas para ofuscar las solicitudes que intentan construir un mapa de el modelo.
La arquitectura VarDetect. Fuente: https://arxiv.org/pdf/2107.05166.pdf
VarDetect utiliza codificadores automáticos variacionales (VAEs) para crear efectivamente una sonda evaluativa de estilo heurístico para las solicitudes entrantes. A diferencia de los métodos anteriores, el sistema se entrena con datos propietarios, lo que elimina la necesidad de acceder a los datos del atacante, una debilidad de los enfoques anteriores y un escenario poco probable.
El modelo personalizado diseñado para el proyecto se deriva de tres conjuntos de datos o enfoques disponibles públicamente: el trabajar desarrollado en 2016 por el Instituto Federal Suizo de Tecnología y Cornell Tech; agregando ruido a los datos del ‘dominio del problema’, como se demostró por primera vez en el 2017 papel prada De finlandia; y rastreando imágenes de cara al público, inspiradas en ActiveThief 2020 investigar del Instituto Indio de Ciencias.
Una comparación de muestras de datos benignos y “malignos” en los cinco conjuntos de datos utilizados en VarDetect.
Las distribuciones de frecuencia que coincidan con las características del conjunto de datos integrado se marcarán como señales de extracción.
Los investigadores reconocen que los patrones de solicitud ordinarios de los usuarios finales benignos pueden desencadenar potencialmente falsos positivos en el sistema, impidiendo el uso normal. Por lo tanto, dichas señales “seguras” percibidas pueden agregarse posteriormente al conjunto de datos de VarDetect, incorporándose al algoritmo a través de un programa de entrenamiento continuo, según las preferencias del sistema host.