Ritmo de riesgo (VB) dedicó uno de sus informes semanales a las ventajas del aprendizaje multimodal en el desarrollo de la inteligencia artificial. Su aviso fue un informe por Investigación ABI sobre el asunto.
El concepto clave radica en el hecho de que «los conjuntos de datos son componentes fundamentales de los sistemas de IA» y que sin conjuntos de datos, «los modelos no pueden aprender las relaciones que informan sus predicciones». El informe de ABI predice que “si bien la base total instalada de dispositivos de IA crecerá de 2690 millones en 2019 a 4470 millones en 2024, comparativamente pocos serán interoperables a corto plazo”.
Esto podría representar una pérdida considerable de tiempo, energía y recursos, “en lugar de combinar los gigabytes a petabytes de datos que fluyen a través de ellos en un solo modelo o marco de IA, funcionarán de manera independiente y heterogénea para dar sentido a los datos que están alimentados.»
Para superar esto, ABI propone aprendizaje multimodal, una metodología que podría consolidar datos “de varios sensores y entradas en un solo sistema. El aprendizaje multimodal puede llevar información o tendencias complementarias, que a menudo solo se vuelven evidentes cuando se incluyen todas en el proceso de aprendizaje”.
VB presenta un ejemplo viable que considera imágenes y leyendas de texto. “ Si se combinan diferentes palabras con imágenes similares, es probable que estas palabras se usen para describir las mismas cosas u objetos. Por el contrario, si algunas palabras aparecen junto a diferentes imágenes, esto implica que estas imágenes representan el mismo objeto. Dado esto, debería ser posible que un modelo de IA prediga objetos de imagen a partir de descripciones de texto y, de hecho, un cuerpo de literatura académica ha demostrado que este es el caso”.
A pesar de las posibles ventajas, ABI señala que incluso los gigantes tecnológicos como IBM, Microsoft, Amazon y Google siguen centrándose predominantemente en los sistemas unimodales. Una de las razones son los desafíos que representaría tal cambio.
Aún así, los investigadores de ABI anticipan que «la cantidad total de dispositivos enviados crecerá de 3,94 millones en 2017 a 514,12 millones en 2023, impulsada por la adopción en los segmentos de robótica, consumo, atención médica y medios y entretenimiento». Entre los ejemplos de empresas que ya están implementando el aprendizaje multimodal citan Waymo que está utilizando tales enfoques para construir «vehículos autónomos hiperconscientes» y Laboratorios Inteldonde el equipo de ingeniería de la empresa está «investigando técnicas para recopilar datos de sensores en entornos del mundo real».
El ingeniero principal de Intel Labs, Omesh Tickoo, explicó a VB que “lo que hicimos fue usar técnicas para descifrar el contexto, como la hora del día, y construimos un sistema que te dice cuándo los datos de un sensor no son de la más alta calidad. Dado ese valor de confianza, compara diferentes sensores con cada uno en diferentes intervalos y elige la combinación correcta para darnos la respuesta que estamos buscando”.
VB señala que el aprendizaje unimodal seguirá siendo predominante donde sea altamente efectivo, en aplicaciones como el reconocimiento de imágenes y el procesamiento del lenguaje natural. Al mismo tiempo, predice que “a medida que la electrónica se vuelve más barata y la computación más escalable, el aprendizaje multimodal probablemente solo aumentará en prominencia”.