DataGen asegura $18 millones en inversiones para crear datos sintéticos para IA

La startup israelí Generación de datos posee recaudó recientemente $18.5 millones de dólares para financiar la creación de una plataforma dedicada a producir datos sintéticos para empresas de IA.

Cualquier empresa de inteligencia artificial se enfrenta al mismo desafío central: recopilar los datos necesarios para entrenar sus modelos de IA. La necesidad de datos de entrenamiento de alta calidad es tan grande que ha llevado a toda una subindustria dedicada a proporcionar a las empresas de IA los datos que necesitan para entrenar sus modelos. Las empresas de IA y adyacentes a la IA siempre buscan nuevas formas de obtener los datos que necesitan. Una forma de obtener estos datos de entrenamiento es simplemente fabricar o generar los datos.

Como informó Fortune, DataGen se especializa en usar sus propios modelos de aprendizaje automático para crear datos sintéticos para que otras empresas entrenen sus modelos, en particular datos de imágenes y videos. Los datos generados por la empresa luego son utilizados por sus clientes para entrenar sus propios modelos de IA. Según el director general y fundador de DataGen, Ofir Chakon, la empresa puede crear un conjunto de datos completamente sintético para una empresa cliente en tan solo unas pocas horas. Esto es sustancialmente más rápido que el tiempo que normalmente lleva preparar un conjunto de datos para su uso, que a menudo son semanas o incluso meses de etiquetado de datos.

Hay otras razones por las que los datos sintéticos son atractivos para las empresas, además de la relativa velocidad con la que se pueden preparar. Los datos sintéticos no vienen con el tipo de preocupaciones de privacidad que tienen los datos reales. A medida que se crean más leyes para proteger la privacidad de los datos de las personas, se vuelve más atractivo tener datos de entrenamiento sintéticos. Una estimación dada por la firma de análisis de tecnología. Gartner predice que para 2023 alrededor del 65% de la población mundial tendrá sus datos protegidos por algún tipo de ley de privacidad de datos.

A pesar de que los datos sintéticos no se basan en personas reales, aún pueden estar sesgados. Los datos generados por un modelo de datos sintéticos tendrán los mismos patrones que tenían los datos de entrenamiento originales, lo que significa que si un conjunto de datos está sesgado, esos sesgos existirán en los datos recién generados. DataGen tiene estrategias para reducir el sesgo de datos en los datos generados. Un método para reducir el sesgo en los datos sintéticos es aumentar la tasa de ocurrencia de eventos relativamente raros, lo que significa que si una clase en el conjunto de datos está subrepresentada, su tasa de ocurrencia puede aumentar hasta algo más igual.

La técnica de impulsar la ocurrencia de eventos raros es increíblemente importante cuando se crean conjuntos de datos que involucran escenarios potencialmente peligrosos. Considere un conjunto de datos utilizado para entrenar un vehículo autónomo. El vehículo debe responder de manera confiable a eventos raros, como la apertura de un socavón en la carretera. Sin embargo, estos eventos son muy raros y es difícil obtener datos de entrenamiento para estos eventos. Por esta razón, a menudo es necesario generar datos de entrenamiento para estos eventos raros.

Como explicó Chakon a través de Fortuna:

“Nuestros clientes tienen control total sobre todos los parámetros que intervienen en los datos que crean. La implicación en el mundo real es que, una vez implementado, puede estar seguro de que funcionará bien en diferentes dominios, con diferentes etnias, en diferentes ubicaciones geográficas o en cualquier entorno que pueda imaginar”.

DataGen utiliza redes adversas generativas (GAN) para generar simulaciones realistas de elementos y eventos del mundo real. Chakon explicó que la empresa puede generar de manera confiable ejemplos realistas de cualquier cosa que involucre ambientes interiores o percepción humana. Por ejemplo, un conjunto de datos de imágenes generado por DataGen podría incluir ejemplos de objetos utilizados para entrenar un brazo de recolección robótico utilizado para la logística del almacén, con las imágenes generadas que parecen indistinguibles de las reales. El software de DataGen puede generar objetos 3D al combinar una malla visual con un sistema de simulación física.

Los inversores en DataGen incluyen una variedad de personas y empresas de alto perfil. Los inversores incluyen a los directores de la división de investigación de IA de Nvidia y el Instituto Max Plank para Sistemas Inteligentes, así como a Anthony Goldbloom, CEO de Kaggle.

Deja un comentario