Nueva herramienta puede mostrar a los investigadores lo que las GAN dejan fuera de una imagen

Recientemente, un equipo de investigadores del MIT-IBM Watson AI Lab creó un método para mostrar lo que una red adversa generativa deja fuera de una imagen cuando se le pide que genere imágenes. El estudio fue apodado Ver lo que una GAN no puede generary fue presentado recientemente en la Conferencia Internacional de Visión por Computador.

Las redes adversarias generativas se han vuelto más robustas, sofisticadas y ampliamente utilizadas en los últimos años. Se han vuelto bastante buenos para renderizar imágenes llenas de detalles, siempre y cuando esa imagen se limite a un área relativamente pequeña. Sin embargo, cuando las GAN se utilizan para generar imágenes de escenas y entornos más grandes, tienden a no funcionar tan bien. En escenarios en los que se pide a las GAN que representen escenas llenas de muchos objetos y elementos, como una calle concurrida, las GAN a menudo dejan fuera muchos aspectos importantes de la imagen.

Según las noticias del MIT, la investigación fue desarrollada en parte por David Bau, estudiante de posgrado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT. Bau explicó que los investigadores generalmente se concentran en refinar a qué prestan atención los sistemas de aprendizaje automático y discernir cómo ciertas entradas se pueden asignar a ciertas salidas. Sin embargo, Bau también explicó que comprender qué datos son ignorados por los modelos de aprendizaje automático suele ser igual de importante y que el equipo de investigación espera que sus herramientas inspiren a los investigadores a prestar atención a los datos ignorados.

El interés de Bau en las GAN se vio estimulado por el hecho de que podían usarse para investigar la naturaleza de caja negra de las redes neuronales y obtener una intuición de cómo podrían razonar las redes. Bau trabajó previamente en una herramienta que podría identificar grupos específicos de neuronas artificiales, etiquetándolas como responsables de la representación de objetos del mundo real, como libros, nubes y árboles. Bau también tuvo experiencia con una herramienta denominada GANPaint, que permite a los artistas eliminar y agregar características específicas de las fotos mediante el uso de GAN. Según Bau, la aplicación GANPaint reveló un problema potencial con las GAN, un problema que se hizo evidente cuando Bau analizó las imágenes. Como dijo Bau a MIT News:

“Mi asesor siempre nos ha alentado a mirar más allá de los números y examinar las imágenes reales. Cuando miramos, el fenómeno saltó a la vista: las personas estaban siendo abandonadas selectivamente”.

Si bien los sistemas de aprendizaje automático están diseñados para extraer patrones de imágenes, también pueden terminar ignorando patrones relevantes. Bau y otros investigadores experimentaron con el entrenamiento de GAN en varias escenas interiores y exteriores, pero en todos los diferentes tipos de escenas, las GAN omitieron detalles importantes en las escenas, como automóviles, señales de tránsito, personas, bicicletas, etc. Esto fue cierto incluso cuando los objetos dejados fuera eran importantes para la escena en cuestión.

El equipo de investigación planteó la hipótesis de que cuando la GAN se entrena en imágenes, puede resultarle más fácil capturar los patrones de la imagen que son más fáciles de representar, como grandes objetos estacionarios como paisajes y edificios. Aprende estos patrones sobre otros patrones más difíciles de interpretar, como automóviles y personas. Ha sido de conocimiento común que las GAN a menudo omiten detalles importantes y significativos al generar imágenes, pero el estudio del equipo del MIT puede ser la primera vez que se demuestra que las GAN omiten clases completas de objetos dentro de una imagen.

El equipo de investigación señala que es posible que las GAN logren sus objetivos numéricos incluso cuando dejan de lado objetos que a los humanos les importan cuando miran imágenes. Si las imágenes generadas por GANS se van a utilizar para entrenar sistemas complejos como vehículos autónomos, los datos de la imagen deben examinarse detenidamente porque existe una preocupación real de que los objetos críticos como letreros, personas y otros automóviles puedan quedar fuera de las imágenes. Bau explicó que su investigación muestra por qué el rendimiento de un modelo no debe basarse únicamente en la precisión:

“Necesitamos entender qué están haciendo y qué no están haciendo las redes para asegurarnos de que estén tomando las decisiones que queremos que tomen”.

Deja un comentario