Generación de paráfrasis mediante el aprendizaje por refuerzo profundo – Thought Leaders

Al escribir o hablar, todos nos hemos preguntado si existe una mejor manera de comunicar una idea a los demás. ¿Qué palabras debo usar? ¿Cómo debo estructurar el pensamiento? ¿Cómo es probable que respondan? En Frasepasamos mucho tiempo pensando en el lenguaje: qué funciona y qué no.

Imagine que está escribiendo el asunto de una campaña de correo electrónico que se enviará a 10 millones de personas en su lista para promocionar un 20 % de descuento en una elegante computadora portátil nueva.

¿Qué línea elegirías:

  • Ahora puede obtener un 20% de descuento adicional en su próximo pedido
  • Prepárate: un 20 % de descuento adicional

Si bien transmiten la misma información, uno logró una tasa de apertura casi un 15 % más alta que el otro (y apuesto a que no puede vencer a nuestro modelo para predecir cuál). Si bien el lenguaje a menudo se puede evaluar a través de Pruebas A/B o bandidos armadosla generación automática de paráfrasis sigue siendo un problema de investigación realmente desafiante.

Dos oraciones se consideran paráfrasis entre sí si comparten el mismo significado y se pueden usar indistintamente. Otra cosa importante que a menudo se da por sentada es si una oración generada por una máquina es fluida.

A diferencia del aprendizaje supervisado, los agentes de aprendizaje por refuerzo (RL) aprenden interactuando con su entorno y observando las recompensas que reciben como resultado. Esta diferencia algo matizada tiene implicaciones masivas sobre cómo funcionan los algoritmos y cómo se entrenan los modelos. Deep Reinforcement Learning utiliza redes neuronales como un aproximador de funciones para permitir que el agente aprenda cómo superar a los humanos en entornos complejos como IrAtari y Star Craft II.

A pesar de este éxito, el aprendizaje por refuerzo no se ha aplicado ampliamente a problemas del mundo real, incluido el procesamiento del lenguaje natural (NLP).

como parte de mi Tesis de maestría en ciencia de datos, demostramos cómo se puede usar Deep RL para superar los métodos de aprendizaje supervisado en la generación automática de paráfrasis del texto de entrada. El problema de generar la mejor paráfrasis puede verse como encontrar la serie de palabras que maximiza la similitud semántica entre oraciones mientras se mantiene la fluidez en la salida. Los agentes de RL están bien preparados para encontrar el mejor conjunto de acciones para lograr la máxima recompensa esperada en entornos de control.

En contraste con la mayoría de los problemas en el aprendizaje automático, el mayor problema en la mayoría de las aplicaciones de generación de lenguaje natural (NLG) no radica en el modelado sino en la evaluación. Si bien la evaluación humana se considera actualmente el estándar de oro en la evaluación de NLG, adolece de desventajas significativas, que incluyen ser costosa, lenta, difícil de ajustar y falta de reproducibilidad entre experimentos y conjuntos de datos. (Han, 2016). Como resultado, los investigadores han estado buscando durante mucho tiempo métricas automáticas que sean simples, generalizables y que reflejen el juicio humano. (Papineni et al., 2002).

Los métodos de evaluación automática más comunes en la evaluación de leyendas de imágenes generadas por máquinas se resumen a continuación con sus ventajas y desventajas:

Generación de paráfrasis mediante canalización de aprendizaje por refuerzo

Desarrollamos un sistema llamado ParaPhrasee que genera paráfrasis de alta calidad. El sistema consta de múltiples pasos para aplicar el aprendizaje por refuerzo de una manera computacionalmente eficiente. A continuación se muestra un breve resumen de la canalización de alto nivel con más detalles en el tesis.

conjunto de datos

Hay varios conjuntos de datos de paráfrasis disponibles que se utilizan en la investigación, incluidos: Corpus de paráfrasis de Microsoft, Concurso de similitud de texto semántico de ACL, Preguntas duplicadas de Quoray Enlaces compartidos de Twitter. hemos seleccionado MS-COCO dado su tamaño, limpieza y uso como punto de referencia para dos documentos notables de generación de paráfrasis. MS-COCO contiene 120 000 imágenes de escenas comunes con 5 leyendas de imagen por imagen proporcionadas por 5 anotadores humanos diferentes.

Si bien está diseñado principalmente para la investigación de la visión por computadora, los subtítulos tienden a tener una gran similitud semántica y son paráfrasis interesantes. Dado que las leyendas de las imágenes son proporcionadas por diferentes personas, tienden a tener ligeras variaciones en los detalles proporcionados en la escena, por lo tanto, las oraciones generadas tienden a alucinar los detalles.

modelo supervisado

Si bien el aprendizaje por refuerzo ha mejorado considerablemente en términos de eficiencia de la muestra, tiempos de capacitación y mejores prácticas generales, la capacitación de modelos RL desde cero sigue siendo comparativamente muy lenta e inestable. (Arulkumaran et al., 2017). Por lo tanto, en lugar de entrenar desde cero, primero entrenamos un modelo supervisado y luego lo ajustamos usando RL.

Usamos un Codificador-Decodificador marco del modelo y evaluar el rendimiento de varios modelos supervisados ​​de referencia. Al ajustar el modelo usando RL, solo ajustamos la red del decodificador y tratamos la red del codificador como estática. Como tal, consideramos dos marcos principales:

  • Entrenamiento del modelo supervisado desde cero usando un decodificador de codificador estándar/vainilla con GRU
  • Uso de modelos de incrustación de oraciones previamente entrenados para el codificador, que incluyen: incrustaciones de palabras agrupadas (GloVe), InferSent y BERT

Los modelos supervisados ​​tienden a funcionar de manera bastante similar en todos los modelos con BERT y el codificador-decodificador de vainilla logrando el mejor rendimiento.

Si bien el desempeño tiende a ser razonable, hay tres fuentes comunes de error: tartamudeo, generación de fragmentos de oraciones y alucinaciones. Estos son los principales problemas que el uso de RL pretende resolver.

Modelo de aprendizaje por refuerzo

La implementación de algoritmos RL es muy desafiante, especialmente cuando no sabe si el problema se puede resolver. Puede haber problemas en la implementación de su entorno, sus agentes, sus hiperparámetros, su función de recompensa o una combinación de todo lo anterior. Estos problemas se exacerban al hacer RL profundo a medida que te diviertes con la complejidad añadida de depuración de redes neuronales.

Al igual que con todas las depuraciones, es crucial comenzar de manera simple. Implementamos variaciones de dos entornos de RL de juguete bien entendidos (CartPole y FrozenLake) para probar los algoritmos de RL y encontrar una estrategia repetible para transferir conocimiento desde el modelo supervisado.

Encontramos que usando un Algoritmo actor-crítico superó a REINFORCE en estos entornos. En cuanto a la transferencia de conocimiento al modelo actor-crítico, encontramos que inicializar los pesos del actor con el modelo supervisado entrenado y entrenar previamente al crítico logró el mejor desempeño. Nos resultó difícil generalizar enfoques sofisticados de destilación de políticas a nuevos entornos, ya que introducen muchos hiperparámetros nuevos que requieren ajuste para funcionar.

Con el apoyo de estas ideas, pasamos luego a desarrollar un enfoque para la tarea de generación de paráfrasis. Primero tenemos que crear un entorno.

El entorno nos permite probar fácilmente el impacto del uso de diferentes métricas de evaluación como funciones de recompensa.

Luego definimos al agente, dadas sus múltiples ventajas utilizamos una arquitectura actor-crítico. El actor se utiliza para seleccionar la siguiente palabra en la secuencia y tiene sus pesos inicializados utilizando el modelo supervisado. El crítico proporciona una estimación de la recompensa esperada que probablemente reciba un estado para ayudar al actor a aprender.

Diseñando la Función de Recompensa Correcta

El componente más importante del diseño de un sistema de RL es la función de recompensa, ya que esto es lo que el agente de RL está tratando de optimizar. Si la función de recompensa es incorrecta, los resultados se verán afectados incluso si todas las demás partes del sistema funcionan.

Un ejemplo clásico de esto es corredores de la costa donde los investigadores de OpenAI establecieron la función de recompensa para maximizar el puntaje total en lugar de ganar la carrera. El resultado de esto es que el agente descubrió un bucle en el que podía obtener la puntuación más alta al golpear turbos sin siquiera completar la carrera.

Dado que evaluar la calidad de las paráfrasis es en sí mismo un problema sin resolver, diseñar una función de recompensa que capture automáticamente este objetivo es aún más difícil. La mayoría de los aspectos del lenguaje no se descomponen bien en métricas lineales y dependen de la tarea. (Novikova et al., 2017).

El agente de RL a menudo descubre una estrategia interesante para maximizar las recompensas que explota las debilidades en la métrica de evaluación en lugar de generar texto de alta calidad. Esto tiende a generar un rendimiento deficiente en las métricas que el agente no está optimizando directamente.

Consideramos tres enfoques principales:

  • Métricas de superposición de palabras
  • Las métricas de evaluación comunes de NLP consideran la proporción de superposición de palabras entre la paráfrasis generada y la oración de evaluación. Cuanto mayor sea la superposición, mayor será la recompensa. El desafío con los enfoques a nivel de palabra es que el agente incluye demasiadas palabras de conexión como «a is on of» y no hay medida de fluidez. Esto da como resultado paráfrasis de muy baja calidad.

  • Métricas de similitud y fluidez a nivel de oración
  • Las principales propiedades de una paráfrasis generada son que debe ser fluida y semánticamente similar a la oración de entrada. Por lo tanto, tratamos de calificarlos explícitamente de forma individual y luego combinar las métricas. Para la similitud semántica, usamos la similitud del coseno entre incrustaciones de oraciones de modelos previamente entrenados, incluido BERT. Para la fluidez, usamos una puntuación basada en la perplejidad de una oración de GPT-2. Cuanto mayor sea la similitud del coseno y las puntuaciones de fluidez, mayor será la recompensa.

    Probamos muchas combinaciones diferentes de modelos de incrustación de oraciones y modelos de fluidez y, si bien el rendimiento fue razonable, el principal problema que enfrentó el agente fue no equilibrar suficientemente la similitud semántica con la fluidez. Para la mayoría de las configuraciones, el agente priorizó la fluidez, lo que resultó en la eliminación de detalles y la mayoría de las entidades se colocaron «en el medio» de algo o se movieron «sobre una mesa» o «al lado de la carretera».

    El aprendizaje por refuerzo multiobjetivo es una pregunta de investigación abierta y es muy desafiante en este caso.

  • Uso de un modelo adversario como función de recompensa
  • Dado que los humanos se consideran el estándar de oro en la evaluación, entrenamos un modelo separado llamado discriminador para predecir si dos oraciones son o no paráfrasis entre sí (similar a la forma en que evaluaría un humano). El objetivo del modelo RL es entonces convencer a este modelo de que la oración generada es una paráfrasis de la entrada. El discriminador genera una puntuación de la probabilidad de que las dos oraciones sean paráfrasis entre sí, que se usa como recompensa para entrenar al agente.

    Cada 5000 conjeturas, se le dice al discriminador qué paráfrasis proviene del conjunto de datos y cuál se generó para que pueda mejorar sus futuras conjeturas. El proceso continúa durante varias rondas con el agente tratando de engañar al discriminador y el discriminador tratando de diferenciar entre las paráfrasis generadas y las paráfrasis de evaluación del conjunto de datos.

    Después de varias rondas de entrenamiento, el agente genera paráfrasis que superan a los modelos supervisados ​​y otras funciones de recompensa.

    Conclusión y limitaciones

    Los enfoques adversarios (incluido el autojuego para juegos) brindan un enfoque extremadamente prometedor para entrenar algoritmos de RL para superar el rendimiento del nivel humano en ciertas tareas sin definir una función de recompensa explícita.

    Si bien RL pudo superar el aprendizaje supervisado en este caso, la cantidad de sobrecarga adicional en términos de código, computación y complejidad no compensa la ganancia de rendimiento para la mayoría de las aplicaciones. Es mejor dejar RL para situaciones en las que el aprendizaje supervisado no se puede aplicar fácilmente, y una función de recompensa es fácil de definir (como los juegos de Atari). Los enfoques y algoritmos son mucho más maduros en el aprendizaje supervisado y la señal de error es mucho más fuerte, lo que da como resultado un entrenamiento mucho más rápido y estable.

    Otra consideración es, al igual que con otros enfoques neuronales, que el agente puede fallar drásticamente en los casos en que la entrada es diferente de las entradas que ha visto anteriormente, lo que requiere una capa adicional de controles de cordura para las aplicaciones de producción.

    La explosión de interés en los enfoques de RL y los avances en la infraestructura computacional en los últimos años desbloquearán enormes oportunidades para aplicar RL en la industria, especialmente dentro de la PNL.

    Deja un comentario