Investigadores de Corea del Sur han desarrollado un conjunto de datos diseñado para ayudar a la investigación sobre la comprensión de la IA de la forma en que los humanos usan imágenes en el diálogo y para ayudar a los modelos de lenguaje natural a participar en este desarrollo muy reciente en las comunicaciones humanas.
Él papelde KAIST en Daedeok Innopolis, señala que la investigación de tales sistemas de diálogo multimodal durante los últimos diez años se ha visto obstaculizada por conjuntos de datos y metodologías centradas en disciplinas que son periféricas al tema, como respuesta a preguntas visuales y subtítulos de imagen.
En estos enfoques más antiguos, las imágenes se evalúan fuera del contexto léxico de una conversación, sin comprender la forma en que el diálogo es mejorado y desarrollado por las respuestas de imágenes, y sin un esquema de dominio cruzado para decodificar las contribuciones de las contribuciones visuales al discurso.
Las imágenes como facetas de primera clase del diálogo
Muchos de los enfoques antes mencionados hasta la fecha han sido iniciativas o desarrollos del brazo de investigación de IA de Microsoft, que en 2017 también examinado el tema de las conversaciones multimodales que se inician con una imagen, en lugar de usar imágenes libremente como componentes del diálogo.
Para abordar la escasez de datos de investigación, los investigadores de Corea del Sur han desarrollado un conjunto de datos de 45 000 instancias de diálogo que involucran el uso ad hoc de imágenes, sin concentrarse en Imágenes virales de memes; este último, aunque es un área de interés en la investigación del lenguaje, podría decirse que es un desafío menor, porque el significado de los memes virales puede ser inferida más fácilmente a través de miles de usos en contexto en plataformas de redes sociales.
Desarrollo de ilustraciones como sustituto del texto
Con el fin de desarrollar una metodología para la transliteración bilateral palabra/frase>imagen, los investigadores de Corea del Sur han entrenado un sistema de aprendizaje automático para sustituir partes de una conversación basada en texto en contenido de imagen semánticamente relevante.
Arquitectura del sistema coreano para generar un conjunto de datos para la investigación de diálogo multimodal. Fuente: https://arxiv.org/pdf/2107.08685.pdf
El procesamiento previo de las frases objetivo implicó la eliminación de Para las palabras eso podría inhibir la predicción de la siguiente salida en la conversación y la poda de intercambios de calidad inferior a través de filtros de similitud contextual.
Para probar la utilidad del conjunto de datos, los investigadores configuraron un módulo para predecir el siguiente “giro” en el diálogo considerando el contexto de la conversación y las imágenes involucradas.
La GUI de evaluación humana utilizada en la investigación.
Se utilizaron cinco conjuntos de datos externos como material base para el conjunto de datos de 45k (que es disponible en GitHub). Tres son elementos basados en texto: DiálogoDiario, un conjunto basado en texto de varios turnos anotado manualmente de 2017; y el de facebook EmpáticosDiálogos y PersonaChatambos de 2018. Los dos conjuntos de datos basados en imágenes utilizados fueron MS-COCO y Parpadeo30k.
Pares de imagen/texto: esquema JSON de frases en el conjunto de datos, asociado con imágenes (en este ejemplo) de la base de datos de imágenes COCO de Microsoft.
El reemplazo de texto a imagen para el sistema fue impulsado por el pre-entrenado Red de Razonamiento Semántico Visual (VSRN), desarrollado en 2019 en la Universidad Northeastern de Boston. VSRN se configuró para operar en frases preseleccionadas manualmente de los conjuntos de datos de texto contribuyentes.
Estableciendo Coherencia
La coherencia de los conjuntos de datos de origen se estableció mediante el desarrollo de seis combinaciones de cada conjunto de datos de diálogo, correlacionados con instancias en cada conjunto de datos de imágenes y evaluados en varias rondas por humanos.
La puntuación humana se basó en tres criterios: coherencia con el contexto del intercambio; relevancia de la imagen para el concepto central que la imagen estaba tratando de expresar; y la medida en que la imagen contenía objetos clave de la oración de destino.
Teniendo en cuenta este último criterio, se podría argumentar que el esquema que decidieron los investigadores ha descartado en gran medida la posibilidad de posibilidades humorísticas, sarcásticas, abstractas o metafísicas para el significado semántico de una imagen que podría inyectarse en una conversación de texto.
Sin embargo, este es un trabajo seminal, y tiene que comenzar en alguna parte, mientras que se están realizando esfuerzos considerables en otras partes del sector del Procesamiento del lenguaje natural (NLP) para mapear instancias de sarcasmo, entre otros ejemplos menos tangibles de la relación imagen/texto.
Pruebas
Para probar el marco de generación de datos, los investigadores utilizaron un modelo de recuperación de tres partes basado en el 2020 de Facebook. Imagen-Chat investigar. El módulo comprende Resnext-101 como codificador de imágenes; de Google BERT para el codificador de texto; y un módulo de fusión personalizado para estos.
El sistema logró 50,35 y 14,38 en la tarea de predicción de oraciones actual y siguiente, mejorando la línea de base para cada tarea.
Más tarde, se encargó a dos investigadores que crearan 100 diálogos multimodales mediante la inserción manual de imágenes en las conversaciones y ejecutaran el sistema contra estas conversaciones multimodales “orgánicas”. El sistema fue capaz de predecir los intercambios actuales y del próximo turno con un alto conocimiento del contexto, incluso para estos ejemplos ad hoc.
Resultados de las pruebas del sistema de generación de conjuntos de datos multimodales de Corea, que revelan una alta correlación constante entre la similitud de texto a imagen y las puntuaciones de preguntas basadas en humanos sobre los mismos datos.