Un equipo de investigadores de Yale-NUS College ha desarrollado nuevos enfoques de aprendizaje profundo y visión por computadora para extraer datos más precisos de la visión de bajo nivel en videos causados por factores ambientales como la lluvia y las condiciones nocturnas. También mejoraron la precisión de la estimación de la pose humana en 3D en los videos.
La tecnología de visión por computadora, que se utiliza en aplicaciones como sistemas de vigilancia automática, vehículos autónomos y herramientas de cuidado de la salud y distanciamiento social, a menudo se ve afectada por factores ambientales, que pueden causar problemas con los datos extraídos.
La nueva investigación fue presentada en la Conferencia 2021 sobre visión artificial y reconocimiento de patrones (CVPR).
Impacto ambiental en las imágenes
Las condiciones como la poca luz y los efectos de luz creados por el hombre, como el resplandor, el brillo y los reflectores, afectan las imágenes nocturnas. Las imágenes de lluvia también se ven afectadas por las rachas de lluvia o la acumulación de lluvia.
El profesor asociado de ciencias de Yale-NUS College, Robby Tan, dirigió el equipo de investigación.
“Muchos sistemas de visión por computadora, como la vigilancia automática y los automóviles autónomos, dependen de una visibilidad clara de los videos de entrada para funcionar bien. Por ejemplo, los automóviles autónomos no pueden funcionar de manera sólida bajo fuertes lluvias y los sistemas de vigilancia automática de CCTV a menudo fallan por la noche, especialmente si las escenas son oscuras o hay mucho resplandor o focos”, dijo Assoc. Profesor Tan.
El equipo se basó en dos estudios separados que introdujeron algoritmos de aprendizaje profundo para mejorar la calidad de los videos nocturnos y de lluvia.
El primer estudio se centró en aumentar el brillo y, al mismo tiempo, suprimir el ruido y los efectos de la luz, como el deslumbramiento, el brillo y los reflectores, para crear imágenes claras durante la noche. La nueva técnica tiene como objetivo mejorar la claridad en las imágenes y videos nocturnos cuando hay un resplandor inevitable, algo que los métodos existentes aún no han logrado.
En países donde la lluvia intensa es común, la acumulación de lluvia afecta negativamente la visibilidad en los videos. El segundo estudio se propuso abordar el problema mediante la introducción de un método que emplea una alineación de fotogramas, lo que permite una mejor información visual sin verse afectada por las rayas de lluvia, que a menudo aparecen aleatoriamente en diferentes fotogramas. El equipo usó una cámara en movimiento para emplear la estimación de profundidad, lo que ayudó a eliminar el efecto de velo de la lluvia. Mientras que los métodos existentes giran en torno a la eliminación de las vetas de lluvia, los nuevos desarrollados pueden eliminar simultáneamente las vetas de lluvia y el efecto de velo de lluvia.
Imagen: Yale-NUS College
Estimación de pose humana 3D
Junto con las nuevas técnicas, el equipo también presentó su investigación sobre la estimación de la pose humana en 3D, que se puede utilizar en videovigilancia, videojuegos y retransmisiones deportivas.
La estimación de poses de varias personas en 3D a partir de un video monocular, o un video tomado con una sola cámara, se ha investigado cada vez más en los últimos años. A diferencia de los videos de varias cámaras, los videos monoculares son más flexibles y se pueden tomar con una sola cámara, como un teléfono móvil.
Dicho esto, la alta actividad como múltiples individuos en la misma escena afecta la precisión en la detección humana. Esto es especialmente cierto cuando los individuos interactúan de cerca o se superponen entre sí en el video monocular.
El tercer estudio del equipo estimó la pose humana en 3D a partir de un video mediante la combinación de dos métodos existentes, que eran enfoques de arriba hacia abajo y de abajo hacia arriba. El nuevo método produce una estimación de pose más confiable en entornos de varias personas en comparación con los otros dos, y está mejor equipado para manejar la distancia entre individuos.
“Como siguiente paso en nuestra investigación de estimación de poses humanas en 3D, que cuenta con el apoyo de la Fundación Nacional de Investigación, veremos cómo proteger la información de privacidad de los videos. Para los métodos de mejora de la visibilidad, nos esforzamos por contribuir a los avances en el campo de la visión por computadora, ya que son fundamentales para muchas aplicaciones que pueden afectar nuestra vida diaria, como permitir que los automóviles autónomos funcionen mejor en condiciones climáticas adversas”, dijo. Asoc. Profesor Tan.