James Kaplan, director ejecutivo y cofundador de MeetKai Metaverse – Serie de entrevistas

James Kaplan, es el director ejecutivo y cofundador de ConoceKai una empresa de inteligencia artificial, realidad virtual y búsqueda conversacional con sede en Los Ángeles, California, que actualmente lidera la carrera de voz de IA con características nunca antes vistas. Su IA conversacional puede comprender un discurso más complejo y brindar resultados personalizados en una conversación natural sobre muchos temas, en diferentes realidades. La tecnología de MeetKai se implementa globalmente a través de iOS, Google Play y AppGallery.

Tenía pasión por la IA a la temprana edad de 6 años, ¿cómo se introdujo por primera vez en esta tecnología?

Mi introducción a la IA provino de los videojuegos. Primero, fue por tratar de entender cómo funcionaba la IA en el juego Oregon Trail, no tan inteligente, pero aún así una forma de IA. A partir de ahí, mi interés en la IA creció aún más cuando me metí en los MMORPG. Realmente me gustaba jugar juegos en línea, pero odiaba buscar artículos. Por lo tanto, me puse a escribir Bots.

¿Cuáles fueron algunas de las primeras aplicaciones de IA que codificaste?

Escribir bots para MMO fue realmente la primera incursión que tuve en el desarrollo de una forma específica de IA. Al principio, mis bots eran bastante simples y estaban más cerca de las macros que de la inteligencia artificial. Pero a medida que crecí y la detección de bots mejoró en muchos juegos, esto comenzó a requerir que los bots se parecieran cada vez más a un jugador. Siempre me ha gustado escribir bots: terminé escribiendo un bot para ganar un concurso de Taylor Swift mientras estaba en la escuela (¡y ella vino a actuar!). Del mismo modo, también escribí el primer bot de Pokémon Go y, lamentablemente, prohibí a muchas personas cuando perdí el interés en evadir la detección.

Lanzaste MeetKai en 2018 después de sentirte frustrado con los asistentes de voz de IA actuales. ¿Por qué la mayoría de los asistentes de IA ofrecen una experiencia mediocre?

El quid de la cuestión es que la mayoría de los asistentes de IA dependen demasiado de las API externas para su cumplimiento. Incluso cuando controlan el cumplimiento, como Alexa para la búsqueda de comercio electrónico, sufren los mismos problemas. En pocas palabras, ¿cómo puede esperar que un asistente de voz sea inteligente cuando todo lo que hace es convertir la voz en texto y colocar ese texto en un motor de búsqueda basado en texto? Comenzamos MeetKai con la idea de que podíamos proporcionar un asistente de IA de «salto rápido» mediante el control de todo el proceso de procesamiento de extremo a extremo que constituye un asistente de voz. Desarrollamos un motor de búsqueda conversacional en lugar de uno basado en palabras clave para admitir consultas y conversaciones más complicadas. Otros asistentes se ven atrapados con experiencias deslucidas porque no pueden crear un soporte de conversación de varios turnos además de esos factores limitantes. Si bien nuestro objetivo es llegar allí, todavía estamos en una etapa muy temprana de escalar nuestra tecnología para cumplir con la misma cantidad de dominios que los jugadores existentes.

¿Cuáles son algunos de los desafíos de comprensión del lenguaje natural y procesamiento del lenguaje natural detrás de la creación de una experiencia de asistente de voz de última generación?

Uno de los principales desafíos con NLU de próxima generación es ir más allá de las intenciones y las entidades. La mayoría de NLU se enfoca en tener un enfoque muy tradicional para la comprensión del idioma. Cada expresión de entrada se clasifica en intención, y luego los tokens dentro se etiquetan en entidades utilizando un modelo de etiquetado de secuencia. Podría enumerar docenas de problemas con este enfoque estándar. Sin embargo, los más críticos son:

  • Una clasificación de intención que no tiene contexto no puede manejar una conversación de varios turnos. La mayoría de los enfoques solo se preocupan por el texto sin procesar que se transcribió. No les importa el contexto, ni quién es el usuario, ni lo que le gusta al usuario, solo lo que acaba de preguntar. Esto es particularmente importante cuando el usuario dice algo en verso conciso. Por ejemplo, si alguien dice cosmopolita, podría referirse a la bebida oa la revista y depende mucho de la persona.
  • Los modelos de reconocimiento de entidades hacen un mal trabajo con cualquier cosa que no sea un valor categórico. Los modelos de lenguaje grande no pueden adaptarse lo suficientemente rápido a las nuevas entidades que están en la naturaleza porque no están en el conjunto de datos. AI necesita tener una forma mucho más sofisticada de reconocer entidades al considerar un contexto mucho más profundo. Por ejemplo, la ubicación de un usuario debería influir en gran medida si algo es el nombre de un restaurante frente a otra cosa.
  • Las relaciones entre entidades no están bien consideradas. Mi ejemplo favorito es la frecuencia con la que la mayoría de los motores de búsqueda fallan cuando se trata de la negación. Intenta buscar una película sin romance en otros asistentes de voz y verás a lo que me refiero.
  • Actualmente, la mayoría de los asistentes de voz simplemente traducen la voz a texto y realizan una búsqueda en Google. ¿Cómo funciona MeetKai AI de manera diferente a esto?

    La principal diferencia entre MeetKai y Google en lo que respecta a la búsqueda es que utilizamos un modelo de comprensión del lenguaje mucho más rico para buscar elementos en sí mismos en lugar de solo páginas web. Cuando busca «Películas de Tom Cruise sin acción», Google busca páginas que tengan ese conjunto de tokens que aparecen en la página (Tom Cruise, películas, acción). En MeetKai, entendemos correctamente que Tom Cruise es un actor, las películas son la clase de medios que están buscando y que la acción es el género no deseado. Con esto, podemos realizar búsquedas mucho más inteligentes.

    Meetkai lanzó recientemente su primer mundo VR de estilo de vida: MeetKai Metaverse. ¿Podría discutir qué es esta aplicación específicamente?

    La mayoría de las empresas en el espacio del metaverso están trabajando en la interacción persona<>persona. Más allá de eso, el contenido también es en gran parte caricaturesco o es solo un video de 360°. Nuestro objetivo con MeetKai Metaverse es enfocarnos en un ángulo completamente diferente: persona <> IA. Estamos desarrollando un metaverso en el que los personajes con los que interactúas funcionan con nuestra IA conversacional de última generación. Además, estamos trabajando para realizar la generación de procedimientos del entorno para que tenga un aspecto mucho más realista e inmersivo en comparación con otras empresas en el espacio. Los dos mundos iniciales disponibles para explorar en nuestro metaverso son para dos casos de uso iniciales: meditación y museos. En el primero, hemos digitalizado a un experto en Wing Chun y, por primera vez, creamos un personaje de IA que puede instruir a los usuarios sobre cómo usar técnicas de meditación revolucionarias para entrar en un estado de relajación. En este último, creamos un museo de arte en constante crecimiento y proporcionamos un curador impulsado por IA capaz de responder preguntas sobre el arte en el espacio y ofrecer recorridos.

    ¿Cuáles son algunos ejemplos de cómo se usa la IA en este metaverso?

    Utilizamos IA en tres lugares:

  • Potenciar las capacidades conversacionales de cada personaje en nuestro metaverso.
  • Para crear dinámicamente el contenido que se pone a disposición del usuario a través de la guía de voz. Ejemplos de esto incluyen sesiones de meditación y recorridos por galerías de arte en nuestras dos experiencias iniciales.
  • Para crear el espacio 3D procedimentalmente en lugar de requerir un diseño manual.
  • ¿Cuál es su visión para el futuro de los asistentes de voz?

    Para que los asistentes de voz tengan futuro, deben evolucionar hacia algo mucho más que un sistema basado en comandos. Esto significa obtener una gran experiencia y capacidades en muchos dominios específicos. Creo que ensamblar diferentes asistentes de voz específicos de dominio será la clave para construir un metaasistente completamente inteligente. Esto contrasta marcadamente con los intentos de «hacerlo todo a la vez» que hemos visto desde que los asistentes de voz ingresaron al espacio por primera vez.

    ¿Hay algo más que le gustaría compartir sobre MeetKai o MeetKai Metaverse?

    Todavía estamos al comienzo de nuestra hoja de ruta del metaverso. Nuestro objetivo final es que queremos poder replicar cualquier experiencia que tenga en el mundo real con el metaverso y luego ir más allá. Esto significa que queremos eliminar los factores prohibitivos de costo y tiempo que limitan esas mismas experiencias en la realidad. El metaverso puede permitirnos vivir vidas mucho más ricas, no reemplazarlas. Tenemos varios desafíos técnicos que aún deben resolverse; sin embargo, tenemos un conjunto claro de hitos que se pueden lograr suponiendo que el hardware continúe mejorando. Estamos trabajando en estrecha colaboración con los socios de hardware para garantizar que el espacio de realidad virtual avance rápidamente. Más allá de la realidad virtual, queremos hacer posible nuestra experiencia de metaverso fuera de la realidad virtual. Estaremos anunciando más información al respecto en los próximos meses.

    Gracias por la gran entrevista, espero seguir su progreso en su versión del metaverso. Los lectores que deseen obtener más información deben visitar ConoceKai.

    Deja un comentario