Radu Rusu, CEO y cofundador de Fyusion – Serie de entrevistas

Radu Rusu, es el CEO y cofundador de Fyusión, una empresa que tiene el objetivo de construir nuevas tecnologías 3D visualmente impresionantes que les permitan resolver problemas visuales complejos con inteligencia artificial. Juntos desarrollaron y patentaron un nuevo formato de archivo, llamado .fyuse, que permite a las personas capturar impresionantes imágenes en 3D desde sus teléfonos inteligentes, causando sensación en las redes sociales y atrayendo a más de 100 millones de usuarios a través de aplicaciones móviles de consumo.

Ha estado trabajando en 3D desde 2012, actualmente es presidente y director ejecutivo de Open Perception, Inc. ¿Podría compartir cuál es la declaración de misión de esta organización sin fines de lucro?

Comencé mi carrera en el procesamiento de datos 3D a principios de la década de 2000 mientras realizaba mis estudios de posgrado, con esta idea en mi cabeza de hacer que los robots vean y entiendan mejor el mundo desde una perspectiva visual. Eso me llevó a través de aproximadamente una década de investigación de visión por computadora en 3D relacionada con la robótica, y a principios de la década de 2010 me di cuenta de que lo que estaba trabajando podía aplicarse a un conjunto de problemas mucho más amplio. Open Perception se creó como una derivación de Willow Garage y tomó una de nuestras iniciativas de código abierto con licencia BSD, el proyecto Point Cloud Library (PCL), y continuó fomentando su crecimiento. Open Perception, Inc. se incorporó en California en abril de 2012 como una organización independiente creada con el propósito de apoyar el desarrollo, distribución y adopción de software de código abierto para el procesamiento 2D/3D de datos sensoriales, con aplicaciones en investigación, educación y desarrollo de productos.

En 2014, se convirtió en cofundador y director ejecutivo de Fyusion, Inc. ¿Podría compartir la historia de la génesis de Fyusion, Inc?

Mientras participaba en la investigación de robótica, los cofundadores de Fyusion y yo nos dimos cuenta de que los cuellos de botella ya no eran algoritmos sino formatos de datos. El aprendizaje automático había alcanzado un pico de precisión en esa época en muchos dominios porque el tipo de datos que usábamos, especialmente en formatos visuales, era bidimensional (como fotografías y videos), mientras que el mundo es tridimensional. Sentimos que existía el potencial para transformar la forma en que las personas entienden el mundo aprovechando los datos 3D en las plataformas de aprendizaje automático.

En 2014, decidimos crear un nuevo tipo de datos 3D, generados a través de software de aprendizaje automático y visión por computadora, mediante la fusión de múltiples fuentes de datos y el uso de hardware básico extremadamente escalable disponible en nuestros bolsillos, es decir, nuestros teléfonos inteligentes.

Fundamos Fyusion con el objetivo de crear tecnologías 3D nuevas y visualmente sorprendentes que permitieran a todos resolver problemas visuales complejos con inteligencia artificial.

Juntos desarrollamos y patentamos un nuevo formato de archivo, llamado .fyuse, que permite a las personas capturar impresionantes imágenes en 3D desde sus teléfonos inteligentes. Inmediatamente causó sensación en las redes sociales y atrajo a más de 100 millones de usuarios a través de aplicaciones móviles de consumo.

¿Qué le atrajo inicialmente de la idea de reinventar el significado de 3D para aplicaciones de consumo?

Simplemente nos dimos cuenta de que nadie había abordado esto a gran escala. Era un problema sin resolver. Al igual que en nuestros programas de doctorado, las cosas que nos emocionan intelectualmente son problemas realmente complicados que alguien dijo que no se pueden resolver.

En este caso, hasta cierto punto, tenían razón. El tipo de algoritmos necesarios para resolver esto solo se pensó parcialmente y el hardware necesario para ejecutarlos no existía, especialmente en dispositivos periféricos como los teléfonos inteligentes. De hecho, tuvimos que esperar hasta que salió el iPhone4S para poder ejecutar el código de visión artificial 3D en tiempo real en un teléfono inteligente, porque antes de eso, los iPhones solo tenían un núcleo de CPU. Una vez que comenzamos a ver qué podía hacer el hardware de los teléfonos inteligentes, nos interesamos mucho en aprovechar nuestra experiencia en investigación de robótica y visión por computadora y ver qué podíamos incluir en estas diminutas cámaras y CPU/GPU. Tomó un tiempo volver a la mesa de dibujo y repensar cómo imaginar e implementar la captura y el procesamiento de campos de luz a través del software. Una vez que vimos que funcionaba, Fyusion estaba listo y funcionando.

Solíamos tener fotos 2D en formato analógico y luego se digitalizaban con todo lo demás. La única instancia que teníamos en el mundo 3D a escala era una «malla triangular con una textura» (por ejemplo, formatos de archivo similares a OBJ) que provenía de juegos de computadora y gráficos de computadora y estaba destinada a representar objetos creados artificialmente en un juego. Dependen en gran medida de una geometría perfecta, que es imposible de obtener: ¿cómo captura y representa el agua como una malla triangular con una cámara? ¿Qué pasa con los objetos transparentes? ¿Follaje? ¿Cosas que están lejos? Etcétera…

Estaba claro que alguien tenía que abordar la necesidad de formatos 3D fáciles de usar para el consumidor. Tenía que basarse en un paradigma completamente diferente, y resolverse de una manera de «representación de imágenes 3D» (es decir, campos de luz), e incorporar información que está disponible en el momento de la captura (como la orientación de la cámara a través de un sensor de giroscopio) que normalmente se descarta cuando captura una imagen 2D. Y luego, por supuesto, estamos tratando de volver a inferir esa información descartada a través del aprendizaje automático.

Esta era nuestra oportunidad, y es con lo que deberían soñar las startups: encontrar un problema realmente difícil que les apasione, esperar el momento y la apertura adecuados, y volverse locos tratando de resolverlo.

La tecnología central permite que cualquier persona cree imágenes 3D interactivas y envolventes llamadas .fyuses moviendo cualquier cámara alrededor de una persona, objeto o escena. ¿Puede hablar sobre el proceso para alguien que desee crear un fyuses usando una aplicación móvil?

Todavía estamos en la infancia de esta tecnología, pero la esencia es: toma un teléfono inteligente que tiene una aplicación escrita por Fyusion o una aplicación asociada que aprovecha nuestro Fyusion ALIS SDK debajo, y abre la cámara. Recibe instrucciones sobre qué hacer y, si las sigue, obtiene un .fyuse en el dispositivo que es un «objeto de archivo» procesado mediante visión por computadora y aprendizaje automático que puede representar en el dispositivo, en la web o en cualquier AR/ Auriculares VR/MR.

¿Cuáles son algunas de las tecnologías de visión artificial y aprendizaje automático que se utilizan para hacer esto realidad?

Realmente no hay una bala de plata aquí, sino un amplio cóctel de herramientas de aprendizaje automático y visión por computadora en 3D que creamos para resolver este problema. Hay ideas de fotogrametría (porque efectivamente estamos creando un conjunto de cámaras virtuales moviendo una sola cámara en el espacio), robótica (enorme problema de fusión de sensores ya que ya no tenemos una sola cámara, sino una plétora de sensores que puedes extraer datos para ayudar a resolver este problema), gráficos por computadora (puede consultar nuestro trabajo de Siggraph 2019 para comprender cómo representamos algunas de las estructuras subyacentes) y muchos más. Todo esto tenía que hacerse en el dispositivo y ejecutarse en tiempo real, lo que significa que aprovechamos los sombreadores de cómputo y escribimos código en ensamblador. Como se mencionó, esto es solo el comienzo, y cuantos más sensores y potencia computacional estén disponibles para nosotros, más utilizaremos nuestro acelerador ALIS para mejorar varios aspectos de la tecnología. Esta es una visión a largo plazo, y tenemos más de una década de trabajo por delante para estar completamente satisfechos con el aspecto digitalizado de las complejas escenas del mundo real.

Es fácil visualizar cómo .fyuses será perjudicial para las aplicaciones de realidad virtual. ¿Puede hablar sobre el tipo de aplicaciones de realidad virtual actuales en las que se pueden usar .fyuses?

Creemos que CUALQUIER aplicación de realidad virtual en la que sea importante digitalizar un objeto del mundo real y luego mostrarlo, debería beneficiarse del aprovechamiento de nuestro motor ALIS y .fyuses. Realmente no hay escasez de verticales y aplicaciones en comercio electrónico, atención médica, automotriz, educación y más, y estamos muy entusiasmados con este futuro.

¿Qué prevé como el futuro de las aplicaciones de realidad virtual para Fyuses?

No vemos ninguna limitación a la tecnología actual, aunque nuestro enfoque actual es más en escenas y objetos pequeños a medianos, y no en grandes paisajes urbanos.

Puedo visualizar fácilmente el uso de Fyuses en futuras aplicaciones de realidad aumentada (AR) y realidad mixta (MR). ¿Cuál es su visión para el futuro de Fyuses tanto en un entorno AR como MR?

Tratamos todas las aplicaciones AR/VR/MR exactamente de la misma manera: una vez que el objeto 3D ha sido digitalizado usando nuestra tecnología, puede extraerse de la escena y colocarse en cualquier lugar.

¿Su equipo ha discutido la idea de tener Fyuses elaborados con un asistente virtual o IA?

No hemos explorado la oportunidad de crear avatares virtuales interactivos para personas. Sin duda, esta es una posibilidad interesante, pero estamos tratando de mantenernos enfocados en resolver el conjunto actual de problemas en los que estamos trabajando.

¿Hay algo más que le gustaría compartir sobre Fyuses o Fyusion, Inc?

Esto puede sonar como un argumento, pero… somos un grupo de robóticos locos y científicos de visión por computadora en 3D, mezclados con físicos del CERN, increíbles piratas informáticos e ingenieros, y eso es solo una descripción de los miembros del equipo técnico central. Nos gusta la diversidad de todo tipo, porque eso nos hace más inteligentes y fuertes como equipo. Si algo en lo que estamos trabajando es de interés para cualquiera que lea esto, por favor no sea tímido y póngase en contacto con nosotros. Estamos haciendo todo lo posible para responder a todos, y es posible que se encuentre en una situación en la que venga a tomar un café y luego se quede durante una década.

Gracias por las excelentes entrevistas, los lectores que deseen obtener más información deben visitar Fyusión.

Deja un comentario