Investigadores desarrollan nuevo método para controlar la generación de imágenes de IA

Investigadores de la Universidad Estatal de Carolina del Norte han desarrollado un nuevo método para controlar la generación de imágenes de inteligencia artificial (IA), que podría usarse en campos como los vehículos autónomos.

Generación de imágenes condicionales y otras técnicas

La generación de imágenes condicionales es una tarea de IA que involucra sistemas de IA que crean imágenes basadas en un conjunto específico de condiciones, que el usuario puede solicitar. Las técnicas más nuevas han llevado esto aún más lejos e incorporan condiciones para un diseño de imagen, lo que permite a los usuarios especificar los tipos de objetos que desean que aparezcan en puntos específicos de la pantalla.

El nuevo método de vanguardia desarrollado por los investigadores de la universidad se basa en todas estas técnicas y permite a los usuarios tener más control sobre las imágenes mientras conservan ciertas características en una serie de imágenes.

Tianfu Wu es coautor del trabajo de investigación y profesor asistente de ingeniería informática en NC State.

“Nuestro enfoque es altamente reconfigurable”, dice Wu. “Al igual que los enfoques anteriores, el nuestro permite que los usuarios hagan que el sistema genere una imagen basada en un conjunto específico de condiciones. Pero el nuestro también te permite retener esa imagen y agregarle algo. Por ejemplo, los usuarios pueden hacer que la IA cree una escena de montaña. Luego, los usuarios podrían hacer que el sistema agregue esquiadores a esa escena”.

Manipulación de elementos

Con el nuevo método, los usuarios también pueden permitir que la IA manipule elementos para que sean identificablemente iguales mientras se mueven o cambian de alguna manera. Un ejemplo sería la IA que crea una serie de imágenes en las que los esquiadores se vuelven hacia el espectador mientras se mueven por un paisaje.

“Una aplicación para esto sería ayudar a los robots autónomos a ‘imaginar’ cómo sería el resultado final antes de comenzar una tarea determinada”, dice Wu. “También podría usar el sistema para generar imágenes para el entrenamiento de IA. Entonces, en lugar de compilar imágenes de fuentes externas, podría usar este sistema para crear imágenes para entrenar otros sistemas de IA”.

El nuevo enfoque se probó con el conjunto de datos COCO-Stuff y el conjunto de datos Visual Genome y, según los estándares de calidad de imagen, supera las técnicas de vanguardia anteriores.

“Nuestro próximo paso es ver si podemos extender este trabajo a video e imágenes tridimensionales”, dice Wu.

Para entrenar el nuevo enfoque, los investigadores tuvieron que depender de una estación de trabajo de 4 GPU dada la gran potencia computacional requerida. A pesar de esto, implementar el sistema es aún menos costoso computacionalmente.

“Descubrimos que una GPU le brinda una velocidad casi en tiempo real”, dice Wu.

“Además de nuestro documento, hemos hecho que nuestro código fuente para este enfoque esté disponible en GitHub. Dicho esto, siempre estamos abiertos a colaborar con socios de la industria”.

Deja un comentario