Investigadores en los EE. UU. han desarrollado un sistema de aprendizaje automático multimodal que es capaz de identificar las cuentas y las publicaciones de los traficantes de drogas en Instagram mediante el análisis de una variedad de contenido, incluido el contenido de imágenes.
Él investigartitulado Identificación de traficantes de drogas ilícitas en Instagram con fusión de datos multimodal a gran escala, es una colaboración entre tres investigadores de la Universidad de West Virginia y uno de la Universidad Case Western Reserve.
Para facilitar el proyecto, los investigadores crearon una base de datos llamada Identificación de traficantes de drogas en Instagram (IDDIG), con 4000 cuentas de usuario, con 1400 cuentas de traficantes de drogas y el resto como grupo de control para probar el proceso de identificación.
El marco del sistema multimodal de detección de distribuidores. El modelo incluye imágenes publicadas, comentarios publicados, así como información de imágenes de la página de inicio y textos biográficos publicados en la página de inicio. Fuente: https://arxiv.org/pdf/2108.08301.pdf
Las pruebas iniciales de la técnica informan una tasa de precisión de casi el 95 % en la identificación de traficantes de drogas basados en Instagram, y el marco también ha llevado a un proyecto de detección comunitaria basado en hashtags diseñado para descubrir indicadores cambiantes de actividad relacionada con la venta de drogas ilegales, utilizando factores geográficos e identificación de tipos específicos de drogas.
Dado que la base de datos desarrollada para el proyecto requería un etiquetado manual, el marco presenta un sistema de anotación fácil de usar, que utiliza un sistema de clasificación basado en las Representaciones de codificador bidireccional de Transformers (BERT) de Google, así como la clasificación de imágenes basada en ResNet.
El sistema de anotación basado en la web (con indicaciones adicionales de los autores del artículo) para IDDIG.
Detectar a los traficantes en conversaciones relacionadas con las drogas
Las drogas recreativas se discuten en una gran cantidad de contextos en las plataformas de redes sociales como Instagram. Muchos de los que publican son consumidores en lugar de vendedores. Dependiendo de las regulaciones en su localidad, y la posibilidad de recetar medicamentos incluso en localidades que difieren en su legislación sobre medicamentos, también pueden ser consumidores legales.
Imágenes relacionadas con las drogas traídas a la base de datos del proyecto.
Además, el comportamiento de los narcotraficantes en Instagram no siempre es explícito; con frecuencia, los traficantes se anuncian a través de comentarios y hashtags en lugar de publicaciones multimedia, que en general serían más fáciles de identificar como contenido de ‘tráfico de drogas’, tanto para los sistemas de supervisión humanos como para los de las máquinas. Por lo tanto, los hashtags y la actividad de comentarios se han incorporado como activos de identificación en el nuevo sistema.
Múltiples patrones del narcotráfico en publicaciones de Instagram.
Además del análisis de texto basado en BERT y la investigación de imágenes derivadas de ResNet, el trabajo incorpora fusión de datos multimodal a nivel de características, como se propone en el IEEE de 2016. papel Análisis de correlación discriminante: fusión de niveles de características en tiempo real para el reconocimiento biométrico multimodal.
Hashtags como semillas para una base de datos
El mecanismo de web-scraping del proyecto comienza su viaje hacia la identificación de cuentas de tráfico de drogas rastreando la ruta de 200 hashtags relacionados con las drogas identificados por expertos en el dominio, utilizando el búsqueda de etiquetas API.
Las imágenes en las publicaciones que usan los hashtags se clasifican luego usando un binario basado en VGG-16 modelo de clasificación. Las imágenes que se correlacionan con imágenes de drogas conocidas se guardan en el sistema y la publicación se convierte en un objeto JSON para su posterior recuperación.
Luego, el marco se extiende a los comentarios e información relacionados (tanto texto como imágenes) contenidos en la página de inicio de los carteles que han participado en el hashtag y cuyo contenido ha sido marcado como relacionado con las drogas. De esta forma, se incorporaron al conjunto de datos 10 000 publicaciones potenciales y 23 034 páginas de inicio de usuarios.
Dado que los hashtags relacionados con las drogas evolucionan constantemente para evadir la detección de patrones y la atención de las autoridades, cualquier hashtag nuevo en la publicación marcada que no formaba parte de la colección de hashtags iniciales se anota y registra para uso futuro.
Después de etiquetar en la interfaz basada en la web (ver la imagen de arriba), la fusión de datos multimodal tiene que adaptarse al hecho de que no todas las publicaciones van a contener los cuatro tipos de datos posibles. Por lo tanto, el algoritmo es capaz de tolerar nueve de un total de 16 subpuntos entre los cuatro tipos de datos, utilizando funciones de concatenación y fusionadas, donde los elementos faltantes corresponderán a cero en el cálculo.
RedX
El conjunto de datos se utiliza finalmente a través de la Paquete de lenguaje NetworkX Python propuesto en 2008 por el Laboratorio Nacional de Los Álamos en Nuevo México. Network X se ha utilizado ampliamente en operaciones a gran escala, incluidos gráficos con más de 10 millones de nodos.
Al tratar los hashtags en el conjunto de datos como si se hubieran incluido en una publicación, los investigadores pudieron generar un gráfico no dirigido relacionado con las drogas para que NetworkX lo analizara.
El conjunto de datos de IDDIG se probó en una variedad de protocolos que incluyen Fusión de datos multimodal, Fusión de datos de múltiples fuentes y Fusión de base cuádruple, y logró resultados de precisión de hasta el 95 % en términos de identificación de publicaciones y usuarios relacionados con las drogas, al comparación con los métodos de identificación humanos en el circuito.
También fue posible generar ‘gráficos de rayos solares’ que revelan indicadores amplios de la disposición geográfica de la actividad relacionada con las drogas en Instagram y otras posibles líneas futuras de investigación en proyectos similares.