Recientemente, un equipo de investigadores investigó el potencial de la IA para corromper a las personas e influenciarlos para que tomen decisiones poco éticas. Los investigadores investigaron cómo las interacciones con los sistemas basados en el modelo GPT-2 de OpenAI podrían influir potencialmente en las personas para que tomen decisiones poco éticas, incluso cuando saben que la fuente del consejo fue un sistema de IA.
Los sistemas de IA son cada vez más ubicuos y su influencia es cada vez mayor. Los sistemas de inteligencia artificial influyen en las decisiones de las personas y se utilizan para todo, desde recomendar películas hasta recomendar parejas románticas. Dada la influencia que tiene la IA en la vida de las personas, es importante considerar cómo la IA podría influir en las personas para que tomen decisiones poco éticas y rompan las pautas morales. Esto es especialmente cierto dado que los modelos de IA son cada vez más sofisticados.
Los científicos sociales y los científicos de datos se preocupan cada vez más de que los modelos de IA puedan usarse para difundir desinformación dañina e información errónea. A artículo reciente publicado por investigadores del Centro sobre Terrorismo, Extremismo y Contraterrorismo (CTEC) del Instituto de Estudios Internacionales de Middlebury descubrió que el modelo GPT-3 de OpenAI podría usarse para generar texto influyente capaz de radicalizar a las personas, empujándolas hacia “violentos movimientos de extrema derecha”. ideologías y comportamientos”.
Un estudio realizado por un equipo de investigadores del Instituto Max Planck, la Universidad de Amsterdam, la Universidad de Colonia y la Escuela de Administración Otto Beisheim se propuso determinar cuánta influencia puede tener una IA en las decisiones de las personas cuando se trata de acciones poco éticas. opciones Para explorar cómo una IA podría “corromper” a una persona, los investigadores utilizaron un sistema basado en el modelo GPT-2 de OpenAI. Según VentureBeat, los autores del artículo entrenaron un modelo basado en GPT2 para generar consejos tanto de «promoción de la deshonestidad» como de «promoción de la honestidad». Los datos se entrenaron con las contribuciones de 400 participantes diferentes y, posteriormente, el equipo de investigación reclutó a más de 1500 personas para que participaran en los modelos de IA de dispensación de consejos.
Se pidió a los participantes del estudio que recibieran consejos del modelo y luego realizaran una tarea diseñada para capturar el comportamiento deshonesto u honesto. Los participantes del estudio se agruparon con un compañero, y en estos pares de dos, jugaron un juego de lanzamiento de dados. El primer participante lanzó un dado e informó el resultado de la tirada. Al segundo participante se le dio el resultado de la tirada de dado del primer participante, y luego ellos mismos tiraron un dado. El segundo participante tiró el dado en privado y fue el único responsable de informar su propio resultado, dándole la oportunidad de mentir sobre el resultado de la tirada del dado. Si los dados lanzados por ambos participantes coincidían, se les pagaba a los dos participantes. A los participantes también se les pagaba más si sus roles coincidentes eran más altos. Si los valores informados no coincidían, los sujetos no eran pagados.
Los participantes en el estudio fueron asignados aleatoriamente a uno de dos grupos diferentes. Un grupo tuvo la oportunidad de leer consejos que promueven la honestidad mientras que el otro leyó consejos que promueven la deshonestidad. Los fragmentos de consejos fueron escritos tanto por humanos como por IA. Los participantes también se dividieron según su nivel de conocimiento sobre la fuente del consejo. Había una probabilidad de 50-50 de que se informara a un participante determinado sobre la fuente del consejo, por lo que la mitad de los participantes de cada grupo sabía que la fuente del consejo era una IA o un ser humano, mientras que la otra mitad se mantuvo en la oscuridad. Sin embargo, el segundo grupo de personas tenía la capacidad de ganar un pago de bonificación por adivinar correctamente la fuente del consejo.
La investigación reveló que cuando el consejo generado por IA se alinea con las preferencias de una persona, seguirá el consejo, incluso cuando sepa que el consejo fue generado por una IA. Según los investigadores, a menudo había discrepancias entre las preferencias declaradas y los comportamientos reales, por lo que es importante considerar cómo los algoritmos pueden influir en los comportamientos humanos.
El equipo de investigación explicó que su estudio demuestra la necesidad de probar cómo una IA podría influir en las acciones de una persona al considerar cómo implementar éticamente un modelo de IA. Además, advierten que los especialistas en ética e investigadores de la IA deben prepararse para la posibilidad de que los malos actores puedan utilizar la IA para corromper a otros. Como escribió el equipo de investigadores:
“La IA podría ser una fuerza para el bien si logra convencer a las personas para que actúen de manera más ética. Sin embargo, nuestros resultados revelan que los consejos de IA no logran aumentar la honestidad. Los asesores de IA pueden servir como chivos expiatorios a los que uno puede desviar (algo de) la culpa moral de la deshonestidad. Además… en el contexto de la toma de consejos, la transparencia sobre la presencia algorítmica no es suficiente para aliviar su daño potencial”.