Investigadores de la Universidad de Cornell han desarrollado un nuevo método que utiliza el aprendizaje profundo para convertir fotos de hitos mundiales en 4D. El equipo se basó en fotos turísticas disponibles públicamente de puntos importantes como la Fontana de Trevi en Roma, y los resultados finales son imágenes en 3D que son maniobrables y pueden mostrar cambios en la apariencia con el tiempo.
El método recientemente desarrollado toma y sintetiza decenas de miles de fotos sin etiquetar ni fechar, y es un gran paso adelante para la visión artificial.
La obra se titula “Muestreo colectivo de la función plenóptica”, y se presentó en la Conferencia europea virtual sobre visión por computadora, que tuvo lugar entre el 23 y el 28 de agosto.
Noah Snavely es profesor asociado de informática en Cornell Tech y autor principal del artículo. Otros colaboradores incluyen al estudiante de doctorado de Cornell Zhengqi Li, primer autor del artículo, así como a Abe Davis, profesor asistente de informática en la Facultad de Computación y Ciencias de la Información, y al estudiante de doctorado de Cornell Tech Wenqi Xian.
“Es una nueva forma de modelar la escena que no solo te permite mover la cabeza y ver, por ejemplo, la fuente desde diferentes puntos de vista, sino que también te brinda controles para cambiar el tiempo”, dijo Snavely.
“Si realmente fuiste a la Fontana de Trevi en tus vacaciones, la forma en que se vería dependería de la hora a la que fueras: por la noche, estaría iluminada por reflectores desde la parte inferior. Por la tarde estaría iluminado por el sol, a menos que fueras en un día nublado”, continuó. “Aprendimos toda la gama de apariencias, según la hora del día y el clima, a partir de estas colecciones de fotos desorganizadas, de modo que puede explorar toda la gama y moverse simultáneamente por la escena”.
Limitaciones de la visión artificial tradicional
Dado que puede haber tantas texturas diferentes presentes que deben reproducirse, es difícil para la visión artificial tradicional representar lugares con precisión a través de fotografías.
“El mundo real es tan diverso en su apariencia y tiene diferentes tipos de materiales: cosas brillantes, agua, estructuras delgadas”, dijo Snavely.
Además de esas barreras, la visión por computadora tradicional también lucha con datos inconsistentes. La función plenóptica es cómo aparece algo desde todos los puntos de vista posibles en el espacio y el tiempo, pero para reproducir esto, se requieren cientos de cámaras web en la escena. No solo eso, sino que tendrían que estar grabando durante todo el día y la noche. Esto podría hacerse, pero es una tarea que requiere muchos recursos cuando se observa la cantidad de escenas en las que se requeriría este método.
Aprendiendo de otras fotos
Para evitar esto, el equipo de investigadores desarrolló el nuevo método.
“Es posible que no haya una foto tomada a las 4 pm desde este punto de vista exacto en el conjunto de datos. Así que tenemos que aprender de una foto tomada a las 9:00 p. m. en un lugar y una foto tomada a las 4:03 p. m. desde otro lugar”, dijo Snavely. “Y no sabemos la granularidad de cuándo se tomaron estas fotos. Pero el uso del aprendizaje profundo nos permite inferir cómo se habría visto la escena en un momento y lugar determinados”.
Los investigadores introdujeron una nueva representación de escena llamada Deep Multiplane Images para interpolar la apariencia en cuatro dimensiones, que son 3D y cambian con el tiempo.
Según Snavely, “Usamos la misma idea inventada para crear efectos 3D en animación 2D para crear efectos 3D en escenas del mundo real, para crear esta imagen multicapa profunda ajustándola a todas estas medidas dispares de las fotos de los turistas. Es interesante que se deriva de esta técnica clásica muy antigua utilizada en la animación”.
El estudio demostró que el modelo entrenado podía crear una escena con 50 000 imágenes disponibles públicamente de varios sitios. El equipo cree que podría tener implicaciones en muchas áreas, incluida la investigación de visión artificial y el turismo virtual.
“Puedes tener la sensación de estar realmente allí”, dijo Snavely. “Funciona sorprendentemente bien para una variedad de escenas”.
El proyecto recibió el apoyo del ex director ejecutivo y filántropo de Google, Eric Schmidt, así como de Wendt Schmidt.