En colaboración con investigadores académicos en China, Alibaba ha desarrollado una IA de simulación de motor de búsqueda que utiliza datos del mundo real de la infraestructura en vivo del gigante del comercio electrónico para desarrollar nuevos modelos de clasificación que no se vean obstaculizados por información “histórica” o desactualizada.
El motor, llamado AESim, representa el segundo anuncio importante en una semana para reconocer la necesidad de que los sistemas de IA puedan evaluar e incorporar datos en vivo y actuales, en lugar de simplemente abstraer los datos que estaban disponibles en el momento en que se entrenó el modelo. El anuncio anterior fue de Facebook, que la semana pasada desvelado el modelo de lenguaje BlenderBot 2.0, una interfaz NLP que presenta encuestas en vivo de resultados de búsqueda en Internet en respuesta a consultas.
El objetivo del proyecto AESim es proporcionar un entorno experimental para el desarrollo de nuevos Learning-To-Rank (LTR) soluciones, algoritmos y modelos en sistemas de recuperación de información comercial. Al probar el marco, los investigadores descubrieron que reflejaba con precisión el rendimiento en línea dentro de parámetros útiles y procesables.
Los autores del artículo, incluidos cuatro representantes de la Universidad de Nanjing y de la división de investigación de Alibaba, afirman que era necesario un nuevo enfoque para las simulaciones LTR por dos razones: el fracaso de iniciativas similares recientes en aprendizaje profundo para crear técnicas reproducibles, con una avalancha de atención -algoritmos de recolección no poder traducir en sistemas aplicables del mundo real; y la falta de transferibilidad, en términos de rendimiento de los datos de entrenamiento frente a datos novedosos en los casos en que los sistemas inicialmente fueron más efectivos.
Va en directo
El documento afirma que AESim es la primera plataforma de simulación de comercio electrónico que se basa en los datos de los usuarios y la actividad en vivo y actuales, y que puede reflejar con precisión el rendimiento en línea mediante el uso unilateral de datos en vivo, proporcionando un campo de entrenamiento de cielo azul para investigadores posteriores. evaluar metodologías e innovaciones LTR.
El modelo incorpora una nueva versión de un esquema típico de los motores de búsqueda industriales: la primera etapa es la recuperación de elementos relacionados con la consulta del usuario, que no se presentan inicialmente al usuario, sino que primero se clasifican mediante un modelo LTR ponderado. Luego, los resultados ordenados se pasan a través de un filtro que considera los objetivos de la empresa al proporcionar los resultados, objetivos que pueden incluir publicidad y factores de diversidad.
Arquitectura de AESim
En AESim, las consultas se reemplazan con índices de categoría, lo que permite que el sistema recupere elementos de un índice de categoría antes de pasarlos a un reclasificador personalizable que produce la lista final. Aunque el marco permite a los investigadores estudiar los efectos de la clasificación conjunta en múltiples modelos, este aspecto se deja para trabajos futuros y la implementación actual busca automáticamente la evaluación ideal basada en un solo modelo.
La arquitectura de AESim. Fuente: https://arxiv.org/pdf/2107.07693.pdf
AESim crea incrustaciones (representaciones virtuales en la arquitectura de aprendizaje automático) que encapsulan al ‘usuario virtual’ y su consulta, y utiliza una red adversa generativa de Wasserstein con penalización de gradiente (WGAN-GP) Acercarse.
La arquitectura comprende una base de datos de millones de elementos disponibles ordenados por categoría, un sistema de clasificación personalizable, un módulo de comentarios y conjuntos de datos sintéticos generados por los componentes basados en GAN. El módulo de comentarios es la etapa final del flujo de trabajo, capaz de evaluar el rendimiento de la última iteración de un modelo de clasificación.
Aprendizaje por imitación adversario generativo
Para modelar la lógica de decisión del ‘Módulo de usuario virtual’, el módulo de retroalimentación (que proporciona los resultados finales) se entrena a través del aprendizaje de imitación adversario generativo (GAIL), una teoría propuesta por primera vez por los investigadores de Stanford en 2016. GAIL es un paradigma sin modelo que permite que un sistema desarrolle una política directamente a partir de datos a través del aprendizaje por imitación.
Los conjuntos de entrenamiento desarrollados por AESim son esencialmente los mismos que los conjuntos de datos históricos estáticos utilizados en modelos de aprendizaje supervisado anteriores para sistemas similares. La diferencia con AESim es que no depende de un conjunto de datos estáticos para la retroalimentación, y no está obstaculizado por los pedidos de artículos que se generaron en el momento en que se compilaron los datos de capacitación (antiguos).
El aspecto generativo de AESim se centra en la creación de un usuario virtual a través de WGAN-GP, que genera características de usuario y consulta ‘falsas’, y luego intenta discernir estos datos falsos de los datos de usuario genuinos proporcionados por las redes activas a las que AESim tiene acceso. .
Una representación en la nube de usuarios falsos y reales en una simulación típica de un motor de búsqueda industrial.
Pruebas
Los investigadores probaron AESim desplegando un por pares, por puntos y ListaMLE instancia en el sistema, cada uno de los cuales tenía que servir un segmento aleatorio no intersectado de consultas de búsqueda en el contexto de un algoritmo de reclasificación.
En este punto, AESim se ve desafiado por los datos en vivo diversos y que cambian rápidamente de la misma manera que probablemente lo sea el nuevo modelo de lenguaje de Facebook. Por lo tanto, los resultados se han considerado a la luz del rendimiento general.
Probado durante diez días, AESim demostró una consistencia notable en tres modelos, aunque los investigadores notaron que una prueba adicional de un modelo de lenguaje de contexto de documento (DLCM) se desempeñó de manera deficiente en el entorno fuera de línea, pero muy bien en el entorno en vivo, y admite que el sistema demostrará brechas con sus contrapartes en vivo, según la configuración y los modelos que se prueben.