Investigadores en Suiza y EE. UU. han ideado un nuevo enfoque de aprendizaje automático para la detección de material publicitario de sitios web que se basa en la forma en que dicho material interactúa con el navegador, en lugar de analizar su contenido o el comportamiento de la red, dos enfoques que han resultado ineficaces en el a largo plazo frente al encubrimiento CNAME (ver más abajo).
Doblado gráfico webel marco utiliza un graficoUn enfoque de bloqueo de anuncios basado en IA para detectar contenido promocional concentrándose en actividades tan esenciales de publicidad en la red, incluidos los intentos de telemetría y el almacenamiento local del navegador, que la única técnica de evasión efectiva sería no realizar estas actividades.
Aunque los enfoques anteriores han logrado tasas de detección ligeramente más altas que WebGraph, todos ellos son propensos a técnicas evasivas, mientras que WebGraph puede acercarse al 100 % de integridad frente a las respuestas adversarias, incluidas las respuestas hipotéticas más sofisticadas que pueden surgir frente a este novedoso método de bloqueo de anuncios.
El artículo está dirigido por dos investigadores del Instituto Federal Suizo de Tecnología, en conjunto con investigadores de la Universidad de California, Davis y la Universidad de Iowa.
Más allá de AdGraph
El trabajo es un desarrollo de una iniciativa de investigación de 2020 con el navegador Brave llamado gráfico de anunciosque contó con dos de los investigadores del nuevo artículo.
Comparación de AdGraph frente a WebGraph, con líneas de puntos que representan innovaciones arquitectónicas en el enfoque anterior. Fuente: https://arxiv.org/pdf/2107.11309.pdf
AdGraph se basa en el contenido (anuncio) características, derivada del análisis de URLs, como clave para la detección de material comercial. Sin embargo, estas características representan un único punto potencial de falla para los adversarios que buscan detectar la presencia de sistemas de detección de anuncios y formular métodos para evitarlos. Esta dependencia de las propiedades del contenido hace que AdGraph sea esencialmente una versión mecanizada de enfoques basados en listas de filtros seleccionadas manualmente, que comparten sus debilidades.
Encubrimiento CNAME
El material que se origina en el propio dominio de un sitio web cae en una categoría ‘confiable’, en la medida en que el propio dominio es de confianza. Para un sitio web de alta autoridad, existe una prima valiosa en la ejecución de campañas publicitarias que presentan material que parece estar alojado en el propio sitio de autoridad, ya que dicha publicidad es inmune a las listas de bloqueo de anuncios basadas en filtros e incluso al enfoque AdGraph 2020.
Sin embargo, las campañas personalizadas son difíciles de negociar, caras de implementar y se ejecutan en contra de los principios básicos del modelo de publicidad en red desarrollado durante los últimos 25 años, donde una plataforma de terceros inserta código directamente en el sitio host, generalmente “subastando”. el espacio publicitario en microsegundos según la conveniencia de la palabra clave y varios otros factores.
Dado que casi todos los sistemas de bloqueo de anuncios utilizan material de terceros en las páginas web (es decir, elementos alojados en dominios ‘ajenos’), los anunciantes han estado contraatacando con Técnicas de encubrimiento CNAME durante los últimos cinco años. El encubrimiento de CNAME engaña a los rastreadores haciéndoles creer que un subdominio del sitio host (es decir, información.ejemplo.com en lugar de ejemplo.com) es un complemento genuino del sitio, cuando en realidad es un mecanismo de publicación de anuncios proxy organizado con publicidad de terceros. proveedores
En marzo de 2021 un estudio reveló que los incidentes de encubrimiento de CNAME aumentaron un 22 % entre 2018 y 2020, con casi el 10 % de los 10 000 sitios web principales de Tranco empleando al menos un rastreador basado en CNAME para octubre de 2020.
Rebaja de la confianza en las URL
Las técnicas de engaño de CNAME implican la manipulación de las URL involucradas en el proceso de publicación de anuncios. Cualquier sistema de bloqueo de anuncios que confíe en la cadena de URL estará sujeto a manipulación y evasión. Por lo tanto, WebGraph cambia aleatoriamente las URL proporcionadas en un proceso (incluidas las cadenas de consulta, la cantidad de parámetros y los nombres de los parámetros), buscando patrones de uso en lugar de URL específicas prohibidas o aceptadas.
El sistema tiene que considerar dos configuraciones comunes en una arquitectura de servicio de anuncios: una, donde el host se confabula directamente con el anunciante; y un segundo escenario (más común) donde el anunciante brinda una cooperación limitada debido a la necesidad de protegerse contra la manipulación por parte de sus clientes.
En los enfoques basados en listas, incluido AdGraph, la manipulación exitosa de URL por parte del sistema de publicación de anuncios es casi una victoria completa, ya que atribuye una procedencia ‘local’ al anuncio y, por lo tanto, evade casi todos los intentos de bloquear sistemáticamente el contenido publicitario.
¿Qué queda, a modo de firma? WebGraph se enfoca en cambio en la necesidad de los sistemas publicitarios de compartir información a través de varios medios semi-ofuscados, como rastreadores web, comunicaciones entre iframes y ‘oyentes’ web, que sondean constantemente el estado en vivo de la página host en busca de actividad que sea significativa en términos de métricas web para el anuncio. Dicha actividad incluye el almacenamiento de variables en cookies o almacenamiento local basado en HTML5.
WebGraph utiliza la medición de privacidad web de Mozilla (OpenWPM framework) para rastrear dicha actividad en Firefox. Captura toda la actividad en la capa de JavaScript y todas las solicitudes de red salientes y sus respuestas en la capa de red.
Este escrutinio adicional introduce nuevos bordes de “flujo de información” en la red de gráficos propuesta anteriormente por AdGraph, lo que permite que WebGraph registre y cuantifique explícitamente los patrones de intercambio de información en función de la actividad local, e independientemente de las URL de origen y destino para la telemetría u otros tipos de comunicaciones internas en sistemas de publicación de anuncios.
Resultados
Los investigadores usaron una versión extendida de OpenWPM para rastrear sistemáticamente 10 000 sitios web tomados de los 100 000 sitios principales de Alexa y una muestra aleatoria de 9000 sitios clasificados entre 1k y 100k, almacenando sus representaciones gráficas antes de pasar los resultados a un clasificador de árbol de decisión modelado en AdGraph. diseño original y el uso de listas de filtros de anuncios populares como información básica. De esta forma, se construyó un conjunto de datos para el entrenamiento del modelo central.
El sistema logró resultados comparables a los de AdGraph, con un 92,33 % de precisión. Sin embargo, la resiliencia del nuevo sistema a la resistencia de los adversarios aumenta de una tasa de falla casi total para AdGraph a solo un 8 % de susceptibilidad con WebGraph.
Direcciones futuras
El documento sostiene que las redes publicitarias necesitarían reestructurar notablemente sus sistemas para evadir la detección frente al enfoque de WebGraph, y sugiere que dichos cambios requerirían una revisión de la relación de confianza actualmente circunspecta entre los anunciantes externos y el alojan sitios en los que aparecen sus anuncios.
El documento también señala que WebGraph no tiene en cuenta las técnicas de seguimiento sin estado, como las huellas dactilares del navegador (a través del elemento Canvas), que utilizan API que el sistema no supervisa actualmente. Los investigadores sugieren que WebGraph puede ampliarse en el futuro para dar cuenta también de ese tipo de interacciones y significantes de almacenamiento local.