Thuy Le, jefe de producto de Speechmatics – Serie de entrevistas

Thuy Le es el Jefe de Producto en Discursomática, Thuy tiene más de dos décadas de experiencia en tecnología y desarrollo de ideas innovadoras, así como una licenciatura en ingeniería mecánica del MIT y una maestría en diseño de productos de Stanford. Thuy tiene una amplia experiencia en gestión, diseño y desarrollo de productos, así como en I+D, ingeniería, desarrollo de medios y estrategia empresarial. En Speechmatics, tiene la tarea de lanzar productos y servicios innovadores para garantizar que la empresa siga siendo líder en el mercado en todo lo que hace.

Se unió a Speechmatics en noviembre de 2019 después de haber trabajado en una amplia gama de industrias, incluidos vehículos autónomos y software de análisis B2B. ¿Qué te atrajo de trabajar en reconocimiento de voz?

Siempre me ha atraído la aplicación de nuevas tecnologías para casos de uso interesantes y un impacto significativo. El reconocimiento de voz, especialmente en Speechmatics, cumple con ese criterio. Efectivamente, ha sido genial ayudar a nuestros clientes a aprovechar el valor de la conversión de voz a texto en sus propias ofertas de productos variados.

Como Head of Product de Speechmatics, ¿en qué consiste tu día a día?

Speechmatics es una ampliación y nuestro equipo de productos es pequeño (¡y está creciendo!), por lo que no hay dos días iguales y todos contribuyen donde y cuando sea necesario. Como jefe de producto, todo, desde la estrategia de producto y de la empresa de nivel superior hasta las tareas típicas de su producto, la priorización de la hoja de ruta y las interacciones con los clientes, hasta la resolución práctica detallada de problemas relacionados con la entrega, es un juego justo. Obviamente, la construcción de relaciones entre las diversas funciones de la organización y el reclutamiento también son una parte importante del rol.

¿Podría discutir los desafíos de acceder a conjuntos de datos con diferentes dialectos y acentos?

En la tecnología del habla, el motor generalmente se construye entrenándolo en un dialecto de un idioma, haciendo que ese dialecto sea el que reconoce y transcribe con mayor precisión. En inglés, es inglés americano, y las tasas de error suelen ser más altas para los acentos australianos, británicos, jamaicanos, etc. Entonces, para las empresas que aprovechan la tecnología para interactuar con una base de clientes global, esto presenta un gran desafío. Hace tres años, en 2018, lanzamos Global English, nuestro paquete de idiomas líder en la industria que comprende todos los acentos y dialectos del inglés y el año pasado continuamos esta misión con el lanzamiento de Global Spanish. Creemos que para que la tecnología del habla alcance su máximo potencial, debe comprender a todas las personas con las que interactúa. Esperamos cerrar aún más la “brecha de acento” de la IA con más innovaciones a finales de este año.

¿Cuáles son algunas de las metodologías de aprendizaje automático que se utilizan para entrenar a partir de estos conjuntos de datos?

Utilizamos técnicas familiares de aprendizaje profundo supervisado y redes neuronales en nuestro motor. También investigamos continuamente nuevos enfoques, en particular, cómo disminuir la cantidad de datos etiquetados necesarios en los modelos ASR. Los datos son los reyes cuando se crea tecnología de reconocimiento de voz, por lo que es esencial avanzar en la investigación que nos permita ampliar el alcance de nuestros datos. El uso de redes neuronales en nuestro motor nos permite generalizar mejor en diferentes contextos e idiomas.

Speechmatics es actualmente un líder de la industria con pruebas que revelan que el español global es entre un 3 % y un 20 % más preciso que la oferta de Google y entre un 4 % y un 13 % más preciso que el producto comparable de Microsoft. ¿A qué atribuye este éxito?

Como mencioné anteriormente, para que la tecnología del habla sea realmente un activo para las empresas, debe ayudarlos a comprender a toda su base de clientes, sin importar el idioma que hablen o el dialecto que estén usando. Este es el núcleo de las innovaciones de Speechmatics, y estamos comprometidos a resolver estos desafíos complejos. Y contamos con un equipo increíble apasionado, motivado e invertido en el uso de las últimas técnicas de aprendizaje profundo para ofrecer a nuestros clientes la mejor tecnología del mercado.

¿Cuáles son los idiomas que se ofrecen actualmente y qué idiomas se están investigando actualmente para agregarlos?

Actualmente ofrecemos más de 30 idiomas comerciales, del árabe al mandarín, del polaco al portugués y muchos más. Pero son nuestros paquetes de idioma inglés y español los que son globales. Mirando hacia el futuro, estamos buscando nuevas técnicas que no solo nos permitan agregar nuevos idiomas más rápidamente, sino también mejorar nuestros idiomas existentes con mayor regularidad.

¿Cuáles son sus puntos de vista sobre un futuro habilitado para el habla donde la voz es la principal forma de comunicación?

Las empresas siguen viendo cada vez más valor en la tecnología de reconocimiento de voz: 2020 vio un marcado aumento en la adopción de la tecnología entre las empresas, con el 68% de los encuestados informando que su empresa tiene una estrategia de tecnología de voz, un 18% más que el año pasado. Pero para que alcance el potencial de valor máximo, la tecnología debe mejorar. Una conversación es más que solo palabras: también se compone de pistas contextuales como sentimiento, cadencia, puntuación, ruido de fondo, tono, cambios de hablante y más. Si bien el texto de la tecnología de reconocimiento de voz por sí solo ofrece mucho valor, cuando se trata de archivos de audio o incluso archivos de video, el discurso real que se graba ahora puede extenderse más allá de las palabras. El futuro de la tecnología de reconocimiento de voz tendrá en cuenta todos estos otros factores. Solo entonces no se tratará solo de convertir el habla en texto, sino de convertir el habla en valor y comprender verdaderamente cada voz.

¿Hay algo más que le gustaría compartir sobre Speechmatics?

Tenemos algunos avances realmente emocionantes que saldrán a finales de este año que estamos encantados de compartir, ¡así que esté atento a ellos!

Gracias por la gran entrevista, los lectores que deseen obtener más información deben visitar Discursomática.

Deja un comentario