Un nuevo artículo de cuatro investigadores de Google propone un sistema ‘experto’ capaz de responder con autoridad a las preguntas de los usuarios sin presentar una lista de posibles resultados de búsqueda, similar al paradigma de preguntas y respuestas que llamó la atención del público con la llegada de GPT-3 en el pasado. año.
Él papeltitulado Repensar la búsqueda: convertir a los diletantes en expertos, sugiere que el estándar actual de presentar al usuario una lista de resultados de búsqueda en respuesta a una consulta es una “carga cognitiva” y propone mejoras en la capacidad de un sistema de procesamiento de lenguaje natural. (NLP) para proporcionar una respuesta autorizada y definitiva.
Bajo el modelo propuesto de un oráculo ‘experto’ entre dominios, las miles de posibles fuentes de resultados de búsqueda se integrarán en un modelo de lenguaje en lugar de estar explícitamente disponibles como un recurso exploratorio para que los usuarios evalúen y naveguen por sí mismos. Fuente: https://arxiv.org/pdf/2105.02274.pdf
El documento, dirigido por Donald Metzler en Google Research, propone mejoras en el tipo de respuestas de Oracle multidominio que actualmente se pueden obtener a partir de modelos de lenguaje autorregresivos de aprendizaje profundo como GPT-3. Las principales mejoras previstas son a) que el modelo sería capaz de citar con precisión las fuentes que informaron la respuesta, y b) que se evitaría que el modelo tuviera respuestas “alucinantes” o inventara material fuente inexistente, lo cual es actualmente un problema. con tales arquitecturas.
Capacitación y capacidades multidominio
Además, el modelo de lenguaje propuesto, caracterizado en el documento como ‘Un modelo único para todas las tareas de recuperación de información’, se entrenaría en una variedad de dominios, incluidas imágenes y texto. También necesitaría una comprensión sobre la procedencia del conocimiento, que falta en las arquitecturas de estilo GPT-3.
‘Para reemplazar los índices con un modelo único y unificado, debe ser posible que el propio modelo tenga conocimiento sobre el universo de identificadores de documentos, de la misma manera que lo hacen los índices tradicionales. Una forma de lograr esto es alejarse de los LM tradicionales y adoptar modelos de corpus que modelen conjuntamente las relaciones término-término, término-documento y documento-documento.’
En la imagen de arriba, del documento, tres enfoques en respuesta a la consulta de un usuario: a la izquierda, los modelos de lenguaje implícitos en los resultados algorítmicos de búsqueda de Google han elegido y priorizado una “mejor respuesta”, pero la han dejado como el mejor resultado de muchas. Center, una respuesta conversacional estilo GPT-3, que habla con autoridad, pero no justifica sus afirmaciones ni cita fuentes. Correcto, el sistema experto propuesto incorpora la “mejor respuesta” de los resultados de búsqueda clasificados directamente en una respuesta didáctica, con citas al pie de página de estilo académico (no representadas en la imagen original) que indican las fuentes que informan la respuesta.
Eliminación de resultados venenosos e inexactos
Los investigadores señalan que la naturaleza dinámica y constantemente actualizada de los índices de búsqueda es un desafío para replicar por completo en un modelo de aprendizaje automático de esta naturaleza. Por ejemplo, cuando una fuente que alguna vez fue confiable ha sido entrenada directamente en la comprensión del mundo por parte del modelo, eliminar su influencia (por ejemplo, después de desacreditarla) puede ser más difícil que simplemente eliminar una URL de las SERP, ya que los conceptos de datos pueden volverse abstracto y ampliamente representado durante la asimilación en el entrenamiento.
Además, dicho modelo necesitaría capacitación continua para proporcionar el mismo nivel de capacidad de respuesta a los nuevos artículos y publicaciones que proporciona actualmente el rastreo constante de fuentes de Google. Efectivamente, esto significa una implementación continua y automatizada, en contraste con el régimen actual, donde se realizan modificaciones menores a los pesos y configuraciones del algoritmo de búsqueda de forma libre, pero el algoritmo en sí generalmente solo se actualiza con poca frecuencia.
Superficies de ataque para un oráculo experto centralizado
Un modelo centralizado que asimile y generalice constantemente nuevos datos podría transformar la superficie de ataque para las consultas de búsqueda.
Actualmente, un atacante puede obtener beneficios logrando una clasificación alta para dominios o páginas que contienen información errónea o código malicioso. Bajo los auspicios de un oráculo ‘experto’ más opaco, la oportunidad de redirigir a los usuarios a dominios de ataque disminuye considerablemente, pero la posibilidad de inyectar ataques de datos venenosos aumenta considerablemente.
Esto se debe a que el sistema propuesto no elimina el algoritmo de clasificación de búsqueda, sino que lo oculta del usuario, automatizando efectivamente la prioridad de los principales resultados y convirtiéndolo (o convertirlos) en una declaración didáctica. Durante mucho tiempo, los usuarios malintencionados han podido orquestar ataques contra el algoritmo de búsqueda de Google, para vender productos falsosusuarios directos a dominios que propagan malwareo con fines de manipulacion politicaentre muchos otros casos de uso.
No AGI
Los investigadores enfatizan que es poco probable que un sistema de este tipo califique como Inteligencia General Artificial (AGI) y ubican la perspectiva de un experto en respuesta universal en el contexto del procesamiento del lenguaje natural, sujeto a todos los desafíos que tales modelos enfrentan actualmente.
El documento describe cinco requisitos para una respuesta de “alta calidad”:
1: Autoridad
Al igual que con los algoritmos de clasificación actuales, la “autoridad” parece derivarse de citas de dominios de alta calidad que se consideran autorizados en sí mismos. Los investigadores observan:
‘Las respuestas deben generar contenido extrayéndolo de fuentes altamente autorizadas. Esta es otra razón por la cual es tan crucial establecer conexiones más explícitas entre las secuencias de términos y los metadatos del documento. Si todos los documentos en un corpus están anotados con un puntaje de autoridad, ese puntaje debe tenerse en cuenta al entrenar el modelo, generar respuestas o ambos.’
Aunque los investigadores no sugieren que los resultados de las SERP tradicionales dejarían de estar disponibles si se descubriera que un oráculo experto de este tipo es eficaz y popular, todo el documento presenta el sistema de clasificación tradicional y las listas de resultados de búsqueda, a la luz de ‘décadas antiguo y anticuado sistema de recuperación de información.
“El mismo hecho de que la clasificación sea un componente crítico de este paradigma es un síntoma de que el sistema de recuperación proporciona a los usuarios una selección de posibles respuestas, lo que induce una carga cognitiva bastante significativa en el usuario. El deseo de devolver respuestas en lugar de listas clasificadas de resultados fue uno de los factores que motivaron el desarrollo de sistemas de respuesta a preguntas. ‘
2: Transparencia
Los investigadores comentan:
‘Siempre que sea posible, se debe poner a disposición del usuario la procedencia de la información que se presenta. ¿Es esta la principal fuente de información? Si no, ¿cuál es la fuente primaria?’
3: manejo del sesgo
El documento señala que los modelos de lenguaje previamente entrenados están diseñados no para evaluar la verdad empírica, sino para generalizar y priorizar las tendencias dominantes en los datos. Admite que esta directiva abre el modelo para atacar (como ocurrió con el de Microsoft chatbot involuntariamente racista en 2016), y que se necesitarán sistemas auxiliares para protegerse contra tales respuestas sesgadas del sistema.
4: Habilitación de diversos puntos de vista
El documento también propone mecanismos para asegurar una pluralidad de puntos de vista:
‘Las respuestas generadas deben representar una variedad de perspectivas diversas, pero no deben ser polarizantes. Por ejemplo, para consultas sobre temas controvertidos, ambos lados del tema deben cubrirse de manera justa y equilibrada. Obviamente, esto tiene vínculos estrechos con el sesgo del modelo.
5: Lenguaje Accesible
Además de proporcionar traducciones precisas en los casos en que la respuesta considerada autorizada está en un idioma diferente, el documento sugiere que las respuestas encapsuladas deben “escribirse en términos tan claros como sea posible”.