Investigadores en los EE. UU. han desarrollado un ataque contradictorio contra la capacidad de los sistemas de aprendizaje automático para interpretar correctamente lo que ven, incluidos elementos de misión crítica como las señales de tráfico, al iluminar objetos del mundo real con patrones de luz. En un experimento, el enfoque logró que el significado de una señal de ‘ALTO’ al borde de la carretera se transformara en una señal de límite de velocidad de ’30 mph’.
Las perturbaciones en un letrero, creadas al brillar una luz artificial sobre él, distorsionan la forma en que se interpreta en un sistema de aprendizaje automático. Fuente: https://arxiv.org/pdf/2108.06247.pdf
Él investigar se titula Optical Adversarial Attack, y proviene de la Universidad de Purdue en Indiana.
Un ataque OPtical ADversarial (OPAD), como se propone en el documento, utiliza iluminación estructurada para alterar la apariencia de los objetos objetivo y solo requiere un proyector básico, una cámara y una computadora. Los investigadores pudieron realizar con éxito ataques de caja blanca y de caja negra utilizando esta técnica.
La configuración de OPAD y las distorsiones mínimamente percibidas (por las personas) que son adecuadas para causar una clasificación errónea.
La configuración para OPAD consta de un proyector ViewSonic 3600 Lumens SVGA, una cámara Canon T6i y una computadora portátil.
Caja negra y ataques dirigidos
Los ataques de caja blanca son escenarios poco probables en los que un atacante puede tener acceso directo a un procedimiento de modelo de entrenamiento o al gobierno de los datos de entrada. Los ataques de caja negra, por el contrario, generalmente se formulan infiriendo cómo se compone un aprendizaje automático, o al menos cómo se comporta, elaborando modelos ‘sombra’ y desarrollando ataques contradictorios diseñados para funcionar en el modelo original.
Aquí vemos la cantidad de perturbación visual necesaria para engañar al clasificador.
En el último caso, no se necesita un acceso especial, aunque tales ataques se ven favorecidos en gran medida por la ubicuidad de las bibliotecas y bases de datos de visión artificial de código abierto en la investigación académica y comercial actual.
Todos los ataques OPAD descritos en el nuevo documento son ataques ‘dirigidos’, que buscan específicamente alterar la forma en que se interpretan ciertos objetos. Aunque también se ha demostrado que el sistema es capaz de lograr ataques generalizados y abstractos, los investigadores sostienen que un atacante del mundo real tendría un objetivo disruptivo más específico.
El ataque OPAD es simplemente una versión del mundo real del principio investigado con frecuencia de inyectar ruido en las imágenes que se utilizarán en los sistemas de visión por computadora. El valor del enfoque es que uno puede simplemente ‘proyectar’ las perturbaciones en el objeto de destino para desencadenar la clasificación errónea, mientras que garantizar que las imágenes del ‘caballo de Troya’ terminen en el proceso de entrenamiento es bastante más difícil de lograr.
En el caso en que OPAD pudo imponer el significado hash de la imagen de ‘velocidad 30’ en un conjunto de datos en una señal de ‘PARE’, la imagen de referencia se obtuvo iluminando el objeto uniformemente a una intensidad de 140/255. Luego se aplicó la iluminación compensada por el proyector como una proyección ataque de descenso de gradiente.
Ejemplos de ataques de clasificación errónea de OPAD.
Los investigadores observan que el principal desafío del proyecto ha sido calibrar y configurar el mecanismo del proyector para que logre un ‘engaño’ limpio, ya que los ángulos, la óptica y varios otros factores son un desafío para la explotación.
Además, es probable que el enfoque solo funcione de noche. Si la iluminación obvia revelaría el ‘truco’ también es un factor; si un objeto como un letrero ya está iluminado, el proyector debe compensar esa iluminación y la cantidad de perturbación reflejada también debe ser resistente a los faros. Parecería ser un sistema que funcionaría mejor en entornos urbanos, donde es probable que la iluminación ambiental sea más estable.
La investigación construye efectivamente una iteración orientada a ML de la Universidad de Columbia investigación de 2004 en cambiar la apariencia de los objetos proyectando otras imágenes sobre ellos, un experimento basado en la óptica que carece del potencial maligno de OPAD.
En las pruebas, OPAD pudo engañar a un clasificador en 31 de 64 ataques, una tasa de éxito del 48 %. Los investigadores señalan que la tasa de éxito depende en gran medida del tipo de objeto atacado. Las superficies moteadas o curvas (como, respectivamente, un osito de peluche y una taza) no pueden proporcionar suficiente reflectividad directa para realizar el ataque. Por otro lado, las superficies planas intencionalmente reflectantes, como las señales de tráfico, son entornos ideales para una distorsión OPAD.
Superficies de ataque de código abierto
Todos los ataques se llevaron a cabo contra un conjunto específico de bases de datos: la base de datos alemana de reconocimiento de señales de tráfico (GTSRBllamado GTSRB-CNN en el nuevo documento), que se utilizó para entrenar el modelo para un escenario de ataque similar en 2018; la red de imágenes VGG16 conjunto de datos; y la ImageNet Resnet-50 colocar.
Entonces, ¿son estos ataques ‘meramente teóricos’, ya que están dirigidos a conjuntos de datos de código abierto, y no a los sistemas cerrados propietarios en vehículos autónomos? Lo serían, si las principales ramas de investigación no se basaran en la ecoestructura de código abierto, incluidos los algoritmos y los conjuntos de datos, y en su lugar trabajaran en secreto para producir conjuntos de datos de código cerrado y algoritmos de reconocimiento opacos.
Pero en general, no es así como funciona. Los conjuntos de datos emblemáticos se convierten en los puntos de referencia contra los cuales se mide todo el progreso (y la estima/aclamación), mientras que los sistemas de reconocimiento de imágenes de código abierto, como la serie YOLO, se adelantan, a través de la cooperación global común, a cualquier sistema cerrado desarrollado internamente que pretenda operar con principios similares. .
La exposición de FOSS
Incluso cuando los datos en un marco de visión por computadora finalmente se sustituyan con datos completamente cerrados, los pesos de los modelos ‘vaciados’ todavía se calibran con frecuencia en las primeras etapas de desarrollo mediante datos FOSS que nunca se descartarán por completo, lo que significa que los sistemas resultantes pueden potencialmente ser objeto de métodos FOSS.
Además, confiar en un enfoque de código abierto para los sistemas CV de esta naturaleza hace posible que las empresas privadas aprovechen, de forma gratuita, las innovaciones ramificadas de otros proyectos de investigación globales, lo que agrega un incentivo financiero para mantener la arquitectura accesible. A partir de entonces, pueden intentar cerrar el sistema solo en el punto de comercialización, momento en el cual una serie completa de métricas inferibles de FOSS están profundamente integradas en él.