Vikrant Tomar, es el CTO y Fundador de Fluent.aiun software de comprensión del habla y de interfaz de usuario de voz para OEM de dispositivos y proveedores de servicios.
¿Qué le atrajo inicialmente de estudiar modelado acústico para el reconocimiento de voz?
Realmente, poder hablar con los dispositivos de la misma manera que hablamos con otro ser humano. Esta visión ha sido fascinante para mí. Empecé a estudiar reconocimiento de voz durante el último año de mi licenciatura. También fue entonces cuando comencé a interesarme en la investigación, así que tomé un curso de reconocimiento de voz y un proyecto de investigación relacionado. A partir de este trabajo, pude publicar un artículo de investigación en la conferencia InterSpeech, una de las conferencias de reconocimiento de voz más grandes y de mayor reputación. Todo esto me motivó a elegir la investigación en reconocimiento de voz como un enfoque a largo plazo, de ahí el doctorado.
En 2015 lanzaste Fluent.ai, ¿podrías compartir la historia de génesis detrás de esta startup?
He tenido un anhelo empresarial en mí durante mucho tiempo. Yo, junto con otros dos amigos, había intentado iniciar una empresa después de nuestra licenciatura, sin embargo, por algunas razones, ese esfuerzo no tuvo éxito. Durante mi doctorado en McGill, estuve atento a la escena de empresas emergentes de Montreal. Durante este tiempo, también me puse en contacto con personas de TandemLaunch, la fundición de startups donde creé Fluent.ai. En ese momento, estaba hacia el final de mi doctorado, y estaba pensando seriamente en probar suerte en el espíritu empresarial nuevamente. A través de mi experiencia laboral, investigación y asociación con otros grupos de investigación del habla, me di cuenta de que la mayoría de estas experiencias se habían centrado en hacer el reconocimiento del habla de una manera particular: pasar de la transcripción del habla a la del texto y luego al procesamiento del lenguaje natural. Sin embargo, esto dejó una brecha en la usabilidad. Una gran parte de la población no puede beneficiarse de las soluciones de voz desarrolladas de esta manera. La cantidad de datos necesarios para tales métodos es tan grande que no tendría sentido financiero desarrollar modelos separados para idiomas con menos hablantes. Además, muchos dialectos e idiomas no tienen una forma escrita distinta. Incluso mi propia familia no pudo usar las herramientas desarrolladas por mí (hablan un dialecto del hindi). Considerando todo esto, comencé a pensar en diferentes formas de crear modelos de voz, donde la cantidad de datos requeridos fuera menor y/o el usuario final pudiera entrenar o actualizar los modelos por sí mismo. Estaba al tanto del trabajo realizado en la Universidad KU Leuven (KUL) que podría cumplir con algunos de estos requisitos. Con parte de la tecnología proveniente de KUL, pudimos dar los primeros pasos hacia lo que Fluent es hoy.
¿Podría dar más detalles sobre las soluciones intuitivas de comprensión del habla de Fluent.ai?
Las soluciones de reconocimiento de voz de Fluent.ai se inspiran en cómo los humanos adquieren y reconocen los idiomas. Los sistemas de reconocimiento de voz convencionales primero transcriben el discurso de entrada en texto y luego extraen el significado de ese texto. Así no es como los humanos reconocen el habla. Tome un ejemplo de niños antes de que aprendan a leer y escribir: a pesar de no saber nada sobre la representación escrita de los idiomas, pueden tener una conversación hablada con facilidad. De manera similar, los modelos basados en redes neuronales profundas de Fluent son capaces de extraer directamente el significado de los sonidos del habla sin tener que transcribirlos primero en un texto. Técnicamente, esta es la verdadera comprensión del lenguaje hablado. Las ventajas de este enfoque son múltiples. El reconocimiento de voz tradicional es un enfoque engorroso, en el que varios módulos que se entrenan de forma inconexa se entretejen para proporcionar una respuesta final. Esto da como resultado una solución no óptima que sufre variaciones en los resultados de acentos, ruido, condiciones de fondo, etc. El sistema de reconocimiento automático de intenciones (AIR) de Fluent está optimizado de extremo a extremo; es completamente una arquitectura basada en redes neuronales, donde todos los módulos se entrenan conjuntamente para proporcionar la solución más óptima. Además, podemos eliminar una serie de módulos computacionalmente pesados comúnmente presentes en el sistema de reconocimiento de voz convencional. Esto nos permite crear sistemas de reconocimiento de voz de bajo consumo que pueden ejecutarse con tan solo 40 KB de RAM en un microcontrolador de bajo consumo que funciona a 50 MHz. Por último, nuestros sistemas AIR basados en la comprensión del lenguaje hablado pueden explotar las similitudes entre diferentes idiomas de una manera única para proporcionar características incomparables, como la capacidad de reconocer varios idiomas en el mismo modelo.
¿Cuáles son algunos de los desafíos de la IA para superar el problema del ruido ambiental?
El ruido es uno de los mayores desafíos para el reconocimiento de voz. Lo que lo convierte en un problema realmente desafiante es que hay muchos tipos diferentes de ruido y afectan el espectro del habla de diferentes maneras. A veces, el ruido también puede tener un impacto en la respuesta del micrófono. En muchos casos, no es posible separar las fuentes de voz de las fuentes de ruido. En algunos casos, el ruido enmascara la información disponible en el espectro del habla, mientras que en otros puede eliminar por completo la información útil. Ambos dan como resultado una baja precisión. Si bien es fácil eliminar los tipos de ruido consistentes, como el ruido del ventilador, algunos tipos de ruido, como el balbuceo o las personas que hablan de fondo o la música, son muy difíciles de eliminar debido a la forma en que afectan el espectro del habla.
¿Podría definir qué es Edge AI y cómo Fluent.ai está usando este tipo de IA?
Edge AI es un término general que se usa para cubrir varias formas diferentes en las que las aplicaciones de IA se pueden mover a dispositivos de bajo consumo. Cada vez más, este término se usa para los casos en los que los dispositivos periféricos realizan ciertos cálculos inteligentes por sí mismos. En Fluent, nos enfocamos en llevar la comprensión del lenguaje hablado de alta calidad al límite. Hemos desarrollado algoritmos eficientes que permiten que los dispositivos informáticos de bajo consumo reconozcan la voz de entrada sin tener que enviar los datos a un servidor basado en la nube para su procesamiento. Las ventajas son dos: en primer lugar, la privacidad del usuario no se ve comprometida por la transmisión y el almacenamiento de sus datos de voz en la nube. En segundo lugar, este enfoque reduce la latencia porque los datos de voz y la respuesta no tienen que viajar entre el servidor de la nube y el dispositivo.
¿Qué otros tipos de tecnologías de aprendizaje automático se están utilizando?
Nuestro enfoque principal está en los enfoques basados en el aprendizaje profundo para el reconocimiento de voz. Estamos utilizando métodos RL (aprendizaje por refuerzo), por ejemplo, NASIL[1], para descubrir nuevas arquitecturas de modelos de IA previamente desconocidas (por lo que la IA crea IA en algún sentido). Y estamos usando AutoML para ajustar nuestros modelos de IA predeterminados para lograr resultados confiables para diferentes aplicaciones, aumentando así la confiabilidad y la reproducibilidad. La compresión del modelo y otros enfoques matemáticos ayudan aún más a optimizar el rendimiento del modelo.
¿Qué cree que sucederá en los próximos 5 años tanto para la comprensión del lenguaje natural como para el procesamiento del lenguaje natural?
Creo que los sistemas evolucionarán para proporcionar interacciones más naturales. A pesar del progreso en los últimos años, la mayoría de los sistemas actuales solo pueden responder consultas simples o realizar una búsqueda en Internet activada por voz. Veremos más y más soluciones que puedan razonar y responder una consulta completa para una persona en lugar de simplemente funcionar como un motor de búsqueda basado en voz glorificado.
El otro aspecto interesado es la privacidad. Las soluciones populares actuales son principalmente dispositivos conectados a Internet que transmiten todos los datos de voz de un usuario a un servidor en la nube. Sin embargo, la privacidad de tales soluciones se está convirtiendo en un problema. También estamos comenzando a ver las aplicaciones de la interfaz de usuario de voz más allá de la electrónica de consumo en entornos industriales, en el espacio de audio profesional, así como en la hospitalidad y las salas de conferencias. Un requisito clave para estas aplicaciones es la privacidad, por lo que las soluciones conectadas actuales no son suficientes, por lo que veremos muchas más soluciones de inteligencia artificial o lenguaje natural en el dispositivo.
Como mencioné anteriormente, las soluciones de habla y lenguaje natural siguen siendo inaccesibles para una gran parte de la población mundial. Hay una cantidad significativa de trabajo para crear un nuevo tipo de modelos de IA que puedan entrenarse con una pequeña cantidad de datos, lo que da como resultado costos de desarrollo reducidos y, a su vez, permite el desarrollo de modelos en idiomas con menos hablantes. En la misma línea, veremos soluciones que pueden aprender a reconocer múltiples idiomas en un mismo modelo. En general, veremos cada vez más la implementación de modelos de IA multilingües que pueden responder a la consulta de un usuario en su idioma nativo.
¿Hay algo más que te gustaría compartir sobre Fluent.ai?
La tecnología del habla ha recorrido un largo camino en los últimos años y tiene un gran potencial de crecimiento en el futuro. En Fluent.ai, siempre estamos buscando nuevos casos de uso de nuestra tecnología existente mientras innovamos continuamente internamente. La pandemia de COVID-19 ha creado una mayor sensibilidad a las áreas de alto contacto, como los botones de los ascensores, los quioscos en los restaurantes y más, lo que provocó una nueva demanda de tecnología habilitada para voz. Fluent.ai espera ayudar a llenar esos vacíos, ya que nuestras soluciones son multilingües y, por lo tanto, más inclusivas, y funcionan sin conexión, lo que ofrece una capa adicional de privacidad. Estas funciones, como se mencionó, probablemente serán el futuro de la tecnología del habla.
Gracias por la excelente entrevista, los lectores que deseen obtener más información deben visitar r de Fluent.ai.
[1] https://www.researchgate.net/profile/Farzaneh_Sheikhnezhad_Fard/publication/341083699_Nasil_Neural_Archit