Un nuevo estudio de la Universidad de Massachusetts Amherst ha enfrentado a los profesores de inglés con los trabajadores colaborativos en Turco mecánico de Amazonas al evaluar el resultado de los sistemas de generación de lenguaje natural (NLG), concluyendo que los estándares laxos y el “juego” de tareas preciadas entre los trabajadores de AMT podrían estar obstaculizando el desarrollo del sector.
El informe llega a una serie de conclusiones condenatorias con respecto a la medida en que la subcontratación barata a “escala industrial” de las tareas de evaluación de NLG abiertas podría conducir a resultados y algoritmos inferiores en este sector.
Los investigadores también compilaron una lista de 45 artículos sobre la generación de texto abierto en los que la investigación había hecho uso de AMT, y encontraron que “la gran mayoría” no informó detalles críticos sobre el uso del servicio de multitud de Amazon, lo que dificulta su reproducción. los hallazgos de los documentos.
Trabajo de taller de explotación
El informe critica tanto la naturaleza de taller clandestino de Amazon Mechanical Turk como los proyectos académicos (probablemente limitados en el presupuesto) que otorgan a AMT credibilidad adicional al usarlo (y citarlo) como un recurso de investigación válido y consistente. Los autores señalan:
“Si bien AMT es una solución conveniente y asequible, observamos que la gran variación entre los trabajadores, la mala calibración y las tareas cognitivamente exigentes pueden llevar a los investigadores a sacar conclusiones científicas engañosas (por ejemplo, que el texto escrito por humanos es “peor” que el de GPT-2 ).’
El informe culpa al juego en lugar de a los jugadores, y los investigadores observaron:
‘[Crowd] los trabajadores suelen estar mal pagados por su trabajo, lo que perjudica tanto la calidad de la investigación como, lo que es más importante, la capacidad de estos trabajadores colectivos para ganarse la vida adecuadamente.’
Él papeltitulado The Perils of Using Mechanical Turk to Evaluate Open-Ended Text Generation, concluye además que ‘evaluadores expertos’, como profesores de idiomas y lingüistas, deben usarse para evaluar el contenido NLG artificial abierto, incluso si AMT es más barato.
Tareas de prueba
Al comparar el rendimiento de AMT con lectores expertos menos limitados en el tiempo, los investigadores gastaron $ 144 en los servicios de AMT realmente utilizados en las pruebas de comparación (aunque se gastó mucho más en resultados ‘no utilizables’, consulte a continuación), que requieren ‘turcos’ aleatorios para evaluar uno de 200 textos, divididos entre contenido de texto creado por humanos y texto generado artificialmente.
Asignar a maestros profesionales el mismo trabajo costó $187,50 y confirmar su desempeño superior (en comparación con los trabajadores de AMT) mediante la contratación de trabajadores independientes de Upwork para replicar las tareas costó $262,50 adicionales.
Cada tarea constaba de cuatro criterios de evaluación: gramática (‘¿Cuán gramaticalmente correcto es el texto del fragmento de la historia?’); coherencia (‘¿Qué tan bien encajan las oraciones en el fragmento de la historia?’); simpatía (‘¿Qué tan agradable encuentra el fragmento de la historia?’); y relevancia (‘¿Cuán relevante es el fragmento de la historia para el mensaje?’).
Generando los Textos
Para obtener material NLG para las pruebas, los investigadores utilizaron la generación de historias neuronales jerárquicas 2018 de Facebook AI Research. conjunto de datosque comprende 303,358 historias en inglés compuestas por usuarios en el muy popular (más de 15 millones de usuarios) r/indicaciones de escritura subreddit, donde las historias de los suscriptores se “sembran” mediante “indicaciones” de una sola oración de manera similar a las prácticas actuales en generación de texto a imagen – y, por supuesto, en la generación de lenguaje natural abierto sistemas.
Se seleccionaron aleatoriamente 200 indicaciones del conjunto de datos y se pasaron a través de un modelo GPT-2 de tamaño mediano utilizando los transformadores Hugging-Face biblioteca. Por lo tanto, se obtuvieron dos conjuntos de resultados de las mismas indicaciones: los ensayos discursivos escritos por humanos de los usuarios de Reddit y los textos generados por GPT-2.
Para evitar que los mismos trabajadores de AMT juzguen la misma historia varias veces, se solicitaron tres juicios de trabajadores de AMT por ejemplo. Junto con los experimentos sobre las capacidades del idioma inglés de los trabajadores (ver el final del artículo) y los resultados descontados de los trabajadores de bajo esfuerzo (ver ‘Tiempo corto’ a continuación), esto aumentó el gasto total en AMT a alrededor de $1500 USD.
Para crear igualdad de condiciones, todas las pruebas se realizaron entre semana entre las 11:00 a. m. y las 11:30 a. m. PST.
Resultados y Conclusiones
El extenso estudio cubre mucho terreno, pero los puntos clave son los siguientes:
Poco tiempo
El documento encontró que un tiempo de tarea promedio informado oficialmente por Amazon de 360 segundos se redujo a un tiempo de trabajo real de solo 22 segundos, y un tiempo de trabajo medio de solo 13 segundos, una cuarta parte del tiempo que toma el profesor de inglés más rápido. replicando la tarea.
Desde el día 2 del estudio: los trabajadores individuales (en naranja) dedicaron notablemente menos tiempo a evaluar cada tarea que los maestros mejor pagados y (posteriormente) los contratistas de Upwork aún mejor pagados. Fuente: https://arxiv.org/pdf/2109.06835.pdf
Dado que AMT no impone ningún límite a las tareas de inteligencia humana (HIT) que un trabajador individual puede realizar, han surgido “grandes bateadores” de AMT, con reputaciones (rentables) por completar una gran cantidad de tareas por experimento. Para compensar los hits aceptados por el mismo trabajador, los investigadores midieron el tiempo entre HIT enviados consecutivamente, comparando el tiempo de inicio y finalización de cada HIT. De esta manera, la diferencia entre los WorkTimeInSeconds informados por AMT y el tiempo real dedicado a la tarea se hizo evidente.
Dado que dicho trabajo no se puede realizar en estos plazos reducidos, los investigadores tuvieron que compensar esto:
“Como es imposible leer cuidadosamente una historia de un párrafo y evaluar las cuatro propiedades en tan solo 13 segundos, medimos el impacto en las calificaciones promedio cuando filtramos a los trabajadores que pasan muy poco tiempo por HIT… Específicamente, eliminamos los juicios de trabajadores cuya mediana de tiempo está por debajo de los 40 s (que es una barra baja), y descubren que, en promedio, alrededor del 42 % de nuestras calificaciones se filtran (que van del 20 % al 72 % en todos los experimentos).’
El documento sostiene que el tiempo de trabajo real mal informado en AMT es “un problema importante” que los investigadores que utilizan los servicios suelen pasar por alto.
Necesario sujetar con la mano
Los hallazgos sugieren además que los trabajadores de AMT no pueden distinguir de manera confiable entre el texto escrito por un humano y el texto escrito por una máquina, a menos que vean ambos textos uno al lado del otro, lo que comprometería efectivamente un escenario de evaluación típico (donde el lector debería poder hacer un juicio basado en una sola muestra de texto, ‘real’ o generado artificialmente).
Aceptación casual de texto artificial de baja calidad
Los trabajadores de AMT calificaron constantemente el texto artificial basado en GPT de baja calidad a la par con el texto coherente de mayor calidad escrito por humanos, en contraste con los profesores de inglés, que pudieron distinguir fácilmente la diferencia en calidad.
Sin tiempo de preparación, cero contexto
Entrar en la mentalidad correcta para una tarea tan abstracta como la evaluación de la autenticidad no es algo natural; Los profesores de inglés requerían 20 tareas para calibrar su sensibilidad en el entorno evaluativo, mientras que los trabajadores de AMT normalmente no reciben ningún “tiempo de orientación”, lo que reduce la calidad de sus aportes.
Jugando el sistema
El informe sostiene que el tiempo total que los trabajadores de AMT dedican a tareas individuales está inflado por trabajadores que aceptan múltiples tareas simultáneamente y ejecutan las tareas en diferentes pestañas en sus navegadores, en lugar de concentrarse en una tarea durante la duración de la tarea registrada.
El país de origen es importante
La configuración predeterminada de AMT no filtra a los trabajadores por país de origen, y las notas del informe trabajo prioritario lo que indica que los trabajadores de AMT usan VPN para eludir las restricciones geográficas, lo que permite que los hablantes no nativos se presenten como hablantes nativos de inglés (en un sistema que, quizás de manera bastante ingenua, equipara la lengua materna de un trabajador con su ubicación geográfica basada en IP).
Por lo tanto, los investigadores volvieron a ejecutar las pruebas de evaluación en AMT con filtros que limitaban a los posibles compradores a países de habla no inglesa y encontraron que ‘los trabajadores de países de habla no inglesa calificaron la coherencia, la relevancia y la gramática… significativamente más bajas que los trabajadores igualmente calificados de habla inglesa. -países de habla’.
El informe concluye:
‘[Expert] Siempre que sea posible, se deben utilizar evaluadores como lingüistas o profesores de idiomas, ya que ya han sido capacitados para evaluar textos escritos, y no es mucho más costoso…’.
Publicado el 16 de septiembre de 2021 – Actualizado el 18 de diciembre de 2021: Etiquetas añadidas