Jaime Bosch es el director general de Modo de voz un software de cambio de voz gratuito para jugadores, creadores de contenido y vtubers.
¿Podría compartir la historia de génesis detrás de Voicemod?
Como el octavo de 10 niños, crecí en un entorno donde pude desarrollar plenamente mi espíritu emprendedor desde muy joven, ya que siempre tuve el apoyo de hermanos con ideas similares.
Como tal, era solo cuestión de tiempo que dos de mis hermanos y yo, todos compartiendo un profundo amor por la tecnología y la música, jugáramos con la idea de crear una aplicación que combinara nuestros intereses. Entonces, en 2009, hicimos exactamente eso y creamos una aplicación de música B2C como una actividad paralela al negocio de estudio que teníamos como nuestra ocupación principal.
Como era un proyecto paralelo, experimentamos mucho con cosas como la modulación de voz, lo que nos inspiró a crear algo completamente nuevo y novedoso. El resultado de esto fue lo que llamamos “Experiencia Voicemod”, una forma completamente nueva de experimentar tu propia voz, que se convirtió en la fuerza motriz de la evolución de la aplicación. No importa quién haya probado nuestro software, seguimos encontrando el mismo tipo de reacciones de las personas que experimentaron la aplicación: risas y asombro al escucharse a sí mismo de una manera completamente diferente.
Esto nos llevó a remodelar nuestra visión del producto, en algo que finalmente podría evolucionar la conexión humana a través del sonido. Así que trajimos la experiencia del móvil a la PC, donde la explosión de la escena de los juegos y la transmisión la retomó instantáneamente, y el resto es, como se dice, “historia”.
Voicemod fue inicialmente un proyecto paralelo. ¿Cuándo te diste cuenta de que querías ir con todo?
Inicialmente, mis hermanos y yo teníamos un estudio juntos llamado 2taptap. Cuando se nos ocurrió la idea de crear Voicemod, inicialmente era solo un proyecto paralelo divertido, pero a medida que pasaba el tiempo, vimos cómo la gente interactuaba con él y el tipo de potencial que tenía la tecnología. Hasta ese momento, la mayoría de la tecnología de cambio de voz era asincrónica, por lo que poder experimentar ser otra persona en un entorno en tiempo real era novedoso para muchas personas. Sin embargo, el momento decisivo para nosotros fue darnos cuenta de que las personas usaban nuestra tecnología no solo para divertirse, sino para dar forma a toda su forma de expresarse en línea. Fue entonces cuando nos dimos cuenta de que estábamos construyendo algo que no se trataba solo de entretenimiento, sino posiblemente el próximo paso en el futuro de las experiencias de audio social.
¿Podría hablar sobre algunas de las tecnologías de reconocimiento de voz?
Con la gama de cambiadores de voz de nuestro catálogo, hay procesos que se llevan a cabo para tomar una voz humana normal y transformarla en algo nuevo. Por supuesto, también hay aspectos en la voz de uno que deben tenerse en cuenta, como la edad, el sexo, la emoción y simples variaciones en la forma en que uno habla.
Estas variaciones contribuyen a cómo alguien puede sonar y afectar los cambios que se aplican. Aprovechamos elementos de la tecnología de reconocimiento de voz más avanzada para facilitar la conversión y transformación de voz con la mayor precisión posible, y mejoramos continuamente este proceso. Queremos dar a las personas la oportunidad de estructurar la forma en que son percibidos, sonar como desean ser escuchados y brindar una excelente experiencia auditiva a su audiencia.
¿Por qué es importante ayudar a las personas a expresarse a través del sonido?
Desde el momento en que nacemos y el primer grito de un bebé, el sonido es la forma natural a través de la cual aprendemos a expresarnos. A medida que envejecemos, la importancia de la comunicación por audio continúa creciendo, a medida que aprendemos a moldear el sonido en el lenguaje y a usar nuestras voces para poner emoción y matices en las palabras que decimos. Al elevar el tono de nuestra voz, podemos indicar emoción, o usar efectos de sonido como suspiros o gemidos para poner énfasis particular en los puntos que queremos hacer.
Para algunas personas verdaderamente talentosas, la voz es un instrumento de expresión ilimitada, ya que pueden crear una cantidad ilimitada de efectos de sonido o voces. Sin embargo, la mayoría de nosotros no tenemos tanta suerte y nos sentimos incómodos con nuestras voces (especialmente cuando las escuchamos grabadas). Algunos de nuestros usuarios hablan de sentirse nerviosos cuando hablan frente a extraños y se sienten frustrados por no poder expresarse adecuadamente de la manera que les gustaría.
Aquí es donde vemos una gran oportunidad para ayudar a las personas. Con nuestras identidades de voz, los usuarios pueden moldear sus voces para que se sientan cómodos, o incluso pasar a diferentes voces para situaciones específicas. También queremos empoderarlos para que usen efectos de sonido, clips de música o emojis de audio para crear ambiente, transmitir contexto o implementar efectos cómicos, de forma similar a cómo los emojis gráficos han ayudado a dar forma a la comunicación de texto.
Ha descrito Voicemod como una conexión humana en evolución a través del sonido, ¿podría dar más detalles sobre esto?
Además de liberar al orador y eliminar cierto bloqueo mental que impide que las personas hablen, también estamos trabajando para profundizar esta conexión. Por ejemplo, nuestra caja de resonancia toma la comunicación y la eleva al siguiente nivel; piense en ello como un “emoji de audio”. ¿Te imaginas a personas menores de 35 años chateando sin usar emojis? Si bien esta tecnología ha existido durante lo que parece años ahora, en realidad solo se incrustó profundamente en nuestra comunicación desde aproximadamente 2010. Vimos una tendencia similar con los adhesivos en las plataformas de mensajería, el auge de los mensajes de voz y las notas de voz, y ahora el uso emergente de GIFs y Giphy. Con la expansión de las comunicaciones de audio en todo el mundo, la importancia de cómo usamos el sonido está aumentando. Enviar una reacción de audio a la broma de tu amigo puede decir mucho más sobre tu reacción honesta y cruda que simplemente escribir una oración. ¡Imagina la diferencia entre escuchar el sonido de los grillos y bad dum tss! Todos tienen significados y sentimientos muy diferentes que puedes comunicar fácilmente con solo un clic.
Queremos que sea lo más fácil posible para los usuarios utilizar voces, efectos de voz y emojis de audio para tener conversaciones de audio más atractivas con amigos, familiares o extraños.
¿Cuáles son algunas de las tecnologías de aprendizaje automático detrás de la aplicación Voicemod, que permiten a los usuarios sonar mejor y personalizar su voz en torno a su voz real?
El aprendizaje automático está en el corazón de la mayoría de las nuevas funciones de Voicemod.
En cuanto a la parte creativa, Voicelab de Voicemod ha creado la primera tecnología de conversión de voz en tiempo real del mercado que permitirá a los usuarios elegir su propia identidad sonora, creando voces personales para cada uno.
Con nuestra nueva y avanzada tecnología que se lanzará pronto, creamos voces nunca antes escuchadas con características únicas que ayudarán a proteger la privacidad y seguridad de los usuarios, al mismo tiempo que les permiten crear la personalidad deseada a través del sonido.
También hemos observado que en los últimos años surgen metodologías de aprendizaje profundo basadas en datos. Estos nos permiten aprender estructuras ocultas abstractas dentro de las señales del habla relacionadas con las características de percepción de la voz, como la fonología, el contenido, la identidad, la intención y el estado de ánimo. Aprovechando estas tecnologías, podemos controlar y modificar los aspectos de percepción de la señal. Esto nos permite diseñar tecnologías que brindan a los usuarios más control sobre sus identidades de voz percibidas de una manera que antes no era posible.
¿Cuáles son algunos de los casos de uso de la aplicación Voicemod?
Lo mejor de Voicemod es que sus herramientas atienden una amplia variedad de necesidades y escenarios. las situaciones más comunes serían para la creación de contenido, jugar con amigos, chatear con familiares o amigos, crear entornos de juegos de rol inmersivos o incluso para el trabajo y los negocios, donde los usuarios utilizan principalmente nuestras herramientas de cancelación de ruido y mejora de audio.
¿Podría hablar sobre algunos de los desafíos y beneficios de lanzar una startup con hermanos?
Honestamente, me encantaría, y sé que, por supuesto, todos enfrentan desafíos de alguna manera, pero en realidad no puedo recordar muchos en nuestro caso. La razón es que venimos de una familia muy grande. Siempre hacíamos algo juntos, desde proyectos infantiles hasta tocar música y crear. Era natural que termináramos trabajando juntos. Mis hermanos Fernando y Juan, quienes como mencioné cofundaron Voicemod junto a mí, ya tenían varias empresas juntos, por lo que tenían mucha experiencia en ese sentido. Me uní a ellos en 2010 en su empresa, que era 2taptap, así que también tuve una idea. Esto significa que cuando creamos Voicemod lo hicimos completamente alineados con lo que queremos lograr y, lo que es más importante, cómo queremos lograrlo. Como tal, realmente ha ayudado a traer una cultura muy sólida de valores alineados a Voicemod, que ha sido una verdadera clave de nuestro éxito.
¿Hay algo más que le gustaría compartir sobre Voicemod?
Están sucediendo muchas cosas detrás de escena, pero en línea con nuestro deseo de evolucionar el sonido para todos, actualmente estamos trabajando en algo para hacer que nuestra tecnología sea aún más… accesible. Una forma para que cualquier desarrollador utilice nuestra tecnología en su producto.
Sabemos que las personas pasan la mayor parte de su tiempo de vigilia en línea, conectadas, expresándose en varias plataformas y aplicaciones. En entornos en línea, su ‘avatar’ es toda su autorrepresentación. Y realmente, ¿quién es esa persona sin voz?
Construir tecnología de cambio de voz en tiempo real y desarrollar un sistema de expresiones sonoras totalmente personalizables es mucho trabajo. Nuestro equipo ha dado ese paso fuera de la ecuación al diseñar un kit completo que los desarrolladores pueden integrar fácilmente en cualquier lugar. ¡Estamos muy emocionados de hacer que nuestra tecnología sea accesible para desarrolladores y usuarios de todo el mundo, mientras continuamos construyendo el futuro de las experiencias de audio social!
Gracias por la gran entrevista, los lectores que deseen obtener más información deben visitar Modo de voz.