El lenguaje generado por IA está comenzando a contaminar la literatura científica

Investigadores de Francia y Rusia han publicado un estudio que indica que el uso de generadores de texto probabilísticos impulsados ​​por IA, como GPT-3, está introduciendo “lenguaje torturado”, citas de literatura inexistente y reutilización de imágenes no acreditadas ad hoc en canales anteriormente respetables para la publicación de nueva literatura científica.

Quizás lo más preocupante es que los artículos estudiados también contienen contenido científicamente inexacto o no reproducible presentado como fruto de una investigación objetiva y sistemática, lo que indica que los modelos de lenguaje generativo se están utilizando no solo para reforzar las habilidades limitadas en inglés de los autores de los artículos, sino sino en realidad hacer el trabajo duro involucrado (e, invariablemente, hacerlo mal).

Él informetitulado Frases torturadas: un estilo de escritura dudoso que emerge en la ciencia, ha sido compilado por investigadores del Departamento de Ciencias de la Computación de la Universidad de Toulouse y el investigador de Yandex Alexander Magazinov, actualmente en la Universidad de Tel Aviv.

El estudio se centra particularmente en el crecimiento de publicaciones científicas sin sentido generadas por IA en Elsevier Journal. Microprocesadores y Microsistemas.

Por cualquier otro nombre

Los modelos de lenguaje autorregresivos como GPT-3 se entrenan con grandes volúmenes de datos y están diseñados para parafrasear, resumir, cotejar e interpretar esos datos contribuyentes en modelos de lenguaje generativo cohesivo que son capaces de reproducir patrones de habla y escritura naturales, al tiempo que conservan el original. intención de los datos de entrenamiento.

Dado que dichos marcos son frecuentemente castigados en la etapa de entrenamiento del modelo por ofrecer regurgitación directa y ‘no absorbida’ de los datos originales, inevitablemente buscan sinónimos, incluso para frases bien establecidas.

Las presentaciones científicas aparentemente creadas/asistidas por IA descubiertas por los investigadores incluyen una cantidad extraordinaria de intentos fallidos de sinónimos creativos para frases conocidas en el sector del aprendizaje automático:

red neuronal profunda: ‘organización neuronal profunda’
red neuronal artificial: ‘organización neuronal (falsa | falsificada)’
red móvil: ‘organización versátil’
ataque de red: ‘organización (emboscada | asalto)’
conexión de red: ‘asociación de organización’
big data: ‘información (enorme | enorme | inmensa | colosal)’
almacén de datos: ‘información (almacén | centro de distribución)’
inteligencia artificial (IA): ‘conciencia (falsificada | hecha por humanos)’
informática de alto rendimiento: ‘figuras de élite’
niebla/neblina/computación en la nube: ‘creación de neblina’
unidad de procesamiento de gráficos (GPU): ‘unidad de preparación de diseños’
unidad central de procesamiento (CPU): ‘unidad de preparación focal’
motor de flujo de trabajo: ‘motor de proceso de trabajo’
reconocimiento facial: ‘reconocimiento facial’
reconocimiento de voz: ‘reconocimiento de discurso’
error cuadrático medio: ‘cuadrado medio (error | metedura de pata)’
significa error absoluto: ‘significa (absolutamente | supremo) (error | metedura de pata)’
señal a ruido: ‘(movimiento | bandera | indicador | signo | señal) a (clamor | conmoción | ruido)’
parámetros globales: ‘parámetros mundiales’
acceso aleatorio: ‘(arbitrario | irregular) obtener derecho de paso a’
bosque aleatorio: ‘(arbitrario | irregular) (bosques | bosques | territorio exuberante)’
valor aleatorio: ‘estima (arbitraria | irregular)’
colonia de hormigas: ‘insecto subterráneo (estado | provincia | área | región | asentamiento)’
colonia de hormigas: ‘rastrero espeluznante subterráneo (estado | provincia | área | región | asentamiento)’
energía restante: ‘vitalidad sobrante’
energía cinética: ‘vitalidad motora’
ingenuo Bayes: ‘(crédulo | inocente | crédulo) Bayes’
asistente digital personal (PDA): ‘colaborador computarizado individual’

En mayo de 2021, los investigadores consultaron la Dimensiones motor de búsqueda académico en busca de este tipo de lenguaje manipulado y automatizado, teniendo cuidado de excluir frases legítimas como “información enorme” (que es una frase válida, y no un sinónimo fallido de “grandes datos”). En este punto, observaron que los microprocesadores y los microsistemas tenían el mayor número de casos de paráfrasis mal manejada.

En el momento actual, todavía es posible recuperar (instantánea de archivo15/07/2021) una serie de artículos científicos para la frase sin sentido ‘organización neuronal profunda’ (es decir, ‘red neuronal profunda’), y otros en la lista anterior arrojan resultados similares.

Resultados de búsqueda de 'organización neuronal profunda' ('red neuronal profunda') en Dimensiones.  Fuente: https://app.dimensions.ai/

Resultados de búsqueda de ‘organización neuronal profunda’ (‘red neuronal profunda’) en Dimensiones. Fuente: https://app.dimensions.ai/

La revista Microprocesadores se fundó en 1976 y dos años después cambió su nombre a Microprocesadores y Microsistemas.

Un crecimiento del lenguaje sin sentido

Los investigadores estudiaron un período que abarcó de febrero de 2018 a junio de 2021 y observaron un fuerte aumento en el volumen de envíos en los últimos dos años, y particularmente en los últimos 6 a 8 meses:

¿Correlación o causalidad?  El aumento de envíos a la revista Microprocessors and Microsystems parece coincidir con el aumento de sinónimos y texto

¿Correlación o causalidad? El aumento de envíos a la revista Microprocessors and Microsystems parece coincidir con el aumento de sinónimos y texto “sin sentido” en envíos aparentemente respetables. Fuente: https://arxiv.org/pdf/2107.06751.pdf

El conjunto de datos final recopilado por los colaboradores contiene 1078 artículos completos obtenidos a través de la suscripción a Elsevier de la Universidad de Toulouse.

Disminución de la supervisión editorial de artículos científicos chinos

El documento observa que el período de tiempo asignado para la evaluación editorial de las presentaciones marcadas se acorta radicalmente en 2021, cayendo a menos de 40 días; una disminución de seis veces en el tiempo estándar para la revisión por pares, evidente desde febrero de 2021.

La mayor cantidad de artículos marcados provienen de autores afiliados a China continental: de 404 artículos aceptados en menos de 30 días, el 97,5 % están relacionados con China. Por el contrario, en los casos en que el proceso editorial superó los 40 días (615 artículos), las presentaciones afiliadas a China representaron solo el 9,5% de esa categoría, un desequilibrio diez veces mayor.

El informe atribuye la infiltración de los periódicos marcados a deficiencias en el proceso editorial y una posible falta de recursos frente a un número creciente de envíos.

Los investigadores plantean la hipótesis de que se han utilizado modelos generativos de estilo GPT y tipos similares de marcos de generación de lenguaje para producir gran parte del texto en los artículos marcados; sin embargo, la forma en que un modelo generativo abstrae sus fuentes hace que esto sea difícil de probar, y la evidencia principal radica en una evaluación de sentido común de los sinónimos pobres e innecesarios, y un examen meticuloso de la coherencia lógica de la presentación.

Los investigadores observan además que los modelos de lenguaje generativo que creen que están contribuyendo a esta avalancha de disparates son capaces no solo de crear los textos problemáticos, sino también de reconocerlos y señalarlos sistemáticamente, de la misma manera que los propios investigadores han llevado a cabo a mano. El trabajo detalla tal implementación, utilizando GPT-2, y ofrece un marco para futuros sistemas para identificar presentaciones científicas problemáticas.

La incidencia de envíos ‘contaminados’ es mucho mayor en la revista Elsevier (72,1%) en comparación con otras revistas estudiadas (13,6% como máximo).

No solo semántica

Los investigadores enfatizan que muchas de las revistas en cuestión no solo usan el lenguaje incorrecto, sino que contienen declaraciones científicamente inexactas, lo que indica la posibilidad de que los modelos de lenguaje generativo no solo se usen para mejorar las habilidades lingüísticas limitadas de los científicos contribuyentes, sino que en realidad pueden ser siendo utilizado para formular al menos algunos de los teoremas centrales y datos en el documento.

En otros casos, los investigadores postulan una ‘resíntesis’ o ‘giro’ efectivo de trabajos anteriores abstractos (y superiores), para hacer frente a las presiones de las culturas de investigación académica de ‘publicar o perecer’, y posiblemente para mejorar las clasificaciones nacionales para los estudios preliminares mundiales. eminencia en la investigación de IA, a través de un gran volumen.

Contenido sin sentido en un trabajo presentado.  En este caso, los investigadores descubrieron que el texto se ha derivado, ad hoc, de un artículo de EDN, del que también se sustrajo la ilustración que lo acompaña sin atribución.  La reescritura del contenido original es tan extrema como para dejarlo sin sentido.

Contenido sin sentido en un trabajo enviado. En este caso, los investigadores encontraron que el texto ha sido derivado, ad hoc, de un artículo EDN, de donde la ilustración adjunta también es sustraída sin atribución. La reescritura del contenido original es tan extrema como para dejarlo sin sentido.

Al analizar varios de los artículos de Elsevier enviados, los investigadores encontraron oraciones para las que no pudieron inferir ningún significado; referencias a literatura inexistente; referencias a variables y teoremas en fórmulas que en realidad no aparecían en el material de apoyo (lo que sugiere abstracción basada en el lenguaje o “alucinación” de datos aparentemente fácticos); y la reutilización de imágenes sin reconocimiento de sus fuentes (que los investigadores critican no desde el punto de vista de los derechos de autor, sino como un indicador de un rigor científico inadecuado).

Fallos de citas

En muchos de los ejemplos señalados, se encontró que las citas destinadas a respaldar los argumentos en un artículo científico estaban “rotas o daban lugar a publicaciones no relacionadas”.

Además, las referencias a “trabajos relacionados” aparentemente a menudo incluyen autores que los investigadores creen que han sido “alucinados” por un sistema de estilo GPT.

Atención errante

Otra deficiencia incluso de los modelos de lenguaje más avanzados, como GPT-3, es su tendencia a perder el foco en un discurso largo. Los investigadores descubrieron que los artículos marcados a menudo mencionan un tema al principio del artículo al que en realidad nunca se vuelve después de que se aborda inicialmente en las notas preliminares o en otro lugar.

También teorizan que algunos de los peores ejemplos ocurren a través de múltiples viajes del texto fuente a través de una serie de motores de traducción, cada uno de los cuales distorsiona aún más el significado.

Fuentes y Razones

Al intentar discernir qué hay detrás de este fenómeno, los autores del artículo sugieren una serie de posibilidades: que el contenido de fábricas de papel se están utilizando como material de origen, introduciendo inexactitudes muy temprano en un proceso que inevitablemente producirá más inexactitudes; que las herramientas de hilado de artículos como Spinbot se están utilizando para enmascarar el plagio; y que la abrumadora presión de publicar con regularidad está llevando a los investigadores de escasos recursos a utilizar sistemas de estilo GPT-3 para aumentar o generar completamente nuevos artículos académicos.

Los investigadores cierran con un llamado a la acción para una mayor supervisión y estándares mejorados en un área de publicación académica que, aparentemente, se está convirtiendo en alimento para su propio tema: los sistemas de aprendizaje automático. También exhortan a Elsevier y otras editoriales a introducir procedimientos de selección y revisión más rigurosos, y critican ampliamente las normas y prácticas actuales al respecto, sugiriendo que ‘el engaño con textos sintéticos amenaza la integridad de la literatura científica’.

Deja un comentario