Fabiana Clemente, cofundadora y directora de datos de YData – Serie de entrevistas

Fabiana Clemente es cofundadora y directora de datos de YData. YData es una startup de IA que creó la primera solución de desarrollo centrada en datos para combinar el descubrimiento, la mejora y la escala de datos en una sola plataforma.

¿Qué le atrajo inicialmente de la IA y el aprendizaje automático?

Mi experiencia es en Matemáticas Aplicadas, donde agrego la oportunidad de aprender y comprender cómo podemos extraer información de los datos y aprovechar el código. En ese momento no era tan sexy como Machine Learning, pero definitivamente fue lo que despertó mi pasión por el área.

¿Podría compartir la historia de génesis detrás de Ydata?

Como científico de datos que ha trabajado tanto para nuevas empresas como para empresas, tuve una buena cantidad de problemas: a veces, el acceso a los datos se bloqueaba bajo la premisa de seguridad o privacidad, otras veces el acceso era fácil, pero la calidad de los datos no lo era. cerca de lo que se necesitaba para construir soluciones basadas en Ai. Saber que estas luchas son muy frecuentes en la mayoría de las organizaciones, nos inspiró a iniciar la empresa con el objetivo de ayudar a estos equipos a superar estos obstáculos, acelerando su desarrollo de IA con datos mejorados.

¿Podría describir a nuestra audiencia qué son los datos sintéticos?

Se considera que los datos sintéticos son cualquier dato que no se generó en el mundo real, por lo tanto, cualquier dato que se crea artificialmente. Existen métodos que permiten la generación de datos sintéticos, desde estrategias basadas en reglas hasta el uso de modelos automáticos o de aprendizaje profundo para aprender esas «reglas» por nosotros. En YData, adoptamos y nos especializamos en una estrategia basada en Deep Learning para generar nuevos datos que mantengan el comportamiento de los eventos del mundo real sin preocupaciones sobre la privacidad.

¿Qué hace que los datos sintéticos sean tan importantes?

Cuantas más organizaciones se den cuenta de la importancia de los datos para impulsar sus negocios, más se entenderá la importancia y el papel de los datos sintéticos. La recopilación de datos reales no solo lleva mucho tiempo y es costosa, sino que, a veces, también es imposible. Para poder crear aplicaciones de IA, los datos son un requisito fundamental; aquí es donde los datos sintéticos vienen al rescate. La capacidad de generar escenarios no vistos o simplemente desbloquear el acceso a los datos es clave para evolucionar en un mundo donde los pioneros, como Andrew Ng, afirma que centrarse en los datos es clave para una adopción exitosa de IA.

En los automóviles autónomos u otras actividades de automatización de maquinaria, ya podemos percibir la importancia de los datos sintéticos, por lo que diría que es natural que esta comprensión se extienda a todos los sectores verticales de la industria.

¿Cómo genera Ydata datos sintéticos?

YData aprovecha principalmente los modelos generativos profundos para aprender los atributos estadísticos y las correlaciones entre las variables de los datos originales. Esto permite que el modelo genere un conjunto de datos estadísticamente relevante que tiene el mismo valor comercial que el original, sin permitir la trazabilidad de los registros originales.

YData está impulsando esta tecnología y es la empresa detrás de la Comunidad de datos sintéticos – un grupo de expertos en ciencia de datos comprometidos a evangelizar y ayudar a cualquiera que quiera aprender y usar esta tecnología.

¿Cómo ayuda la plataforma Ydata a descubrir y desbloquear nuevas fuentes de datos?

La plataforma de YData incluye conectores integrados a cualquier tipo de base de datos, almacén de datos o lago de datos, lo que permite a los usuarios acceder fácilmente a metadatos relevantes y comprender si los datos existentes son útiles para responder a la pregunta comercial que tienen entre manos, sin siquiera mirar. en los registros reales.

¿Podría compartir algunos detalles sobre la comunidad de código abierto de datos sintéticos?

Los datos sintéticos están en sus inicios y por eso la conciencia de cómo se generan, los beneficios o sus limitaciones aún son algo desconocidos para una audiencia más amplia. Por eso, en YData hemos decidido tomar una ruta más educativa creando la comunidad de Datos Sintéticos, que además de ser un lugar para intercambiar ideas o recibir ayuda de expertos en el campo de los datos sintéticos, también es un lugar donde los científicos de datos y otros perfiles tecnológicos pueden iniciar su viaje hacia los datos sintéticos, con algunos de los algoritmos más interesantes de la literatura.

Además, también ofrecemos una perspectiva sobre la calidad de los datos, de modo que los científicos de datos puedan comprender primero los datos con los que están trabajando, antes de sintetizarlos o mejorarlos. Estamos verdaderamente comprometidos en ayudar a los equipos de datos a centrarse cada vez más en los datos.

YData recientemente anunció una financiación de 2,7 millones de dólares acelerar su expansión internacional. ¿Puede compartir algunos detalles sobre lo que esto significa para el futuro de la empresa y su estrategia de expansión?

YData ya nació a nivel internacional: sabíamos que este tipo de tecnología necesita usuarios pioneros que generalmente se encuentran en los países más sofisticados. Por esa razón, nuestros primeros clientes ya estaban fuera de Portugal, en toda Europa y ahora también estamos estableciendo una presencia en América del Norte. Esta financiación nos permitirá reforzar nuestra presencia en ambos continentes, no solo comercialmente sino también para hacer crecer el equipo: somos un equipo completamente distribuido que nos permite contratar a los mejores talentos, estén donde estén.

¿Hay algo más que le gustaría compartir sobre YData?

YData está empujando la barrera de la IA centrada en los datos y creando una nueva categoría: DataPrepOps. Aunque es un nombre feo, es un dolor al que se enfrentan la mayoría de las empresas hoy en día cuando se trata del desarrollo de la ciencia de datos. La tendencia de calidad de datos sigue creciendo y, después de Data Pipelines y Data Observability, los equipos de Data Quality for Data Science todavía están en pañales y YData está emergiendo como un líder intelectual en la preparación de datos.

Gracias por la gran entrevista, los lectores que deseen obtener más información deben visitar YData.

Deja un comentario