¿Qué son los datos sintéticos? – Unite.AI

¿Qué son los datos sintéticos?

Los datos sintéticos son una tendencia en rápida expansión y una herramienta emergente en el campo de la ciencia de datos. ¿Qué son exactamente los datos sintéticos? La respuesta corta es que los datos sintéticos se componen de datos que no se basan en ningún fenómeno o evento del mundo real, más bien se genera a través de un programa de computadora. Sin embargo, ¿por qué los datos sintéticos se están volviendo tan importantes para la ciencia de datos? ¿Cómo se crean los datos sintéticos? Exploremos las respuestas a estas preguntas.

¿Qué es un conjunto de datos sintético?

Como sugiere el término «sintético», los conjuntos de datos sintéticos se generan a través de programas de computadora, en lugar de estar compuestos a través de la documentación de eventos del mundo real. El propósito principal de un conjunto de datos sintéticos es ser lo suficientemente versátil y robusto para ser útil para el entrenamiento de modelos de aprendizaje automático.

Para ser útil para un clasificador de aprendizaje automático, los datos sintéticos debe tener ciertas propiedades. Si bien los datos pueden ser categóricos, binarios o numéricos, la longitud del conjunto de datos debe ser arbitraria y los datos deben generarse aleatoriamente. Los procesos aleatorios utilizados para generar los datos deben ser controlables y basarse en varias distribuciones estadísticas. También se puede colocar ruido aleatorio en el conjunto de datos.

Si los datos sintéticos se utilizan para un algoritmo de clasificación, la cantidad de separación de clases debe ser personalizable, para que el problema de clasificación se pueda hacer más fácil o más difícil según los requisitos del problema. Mientras tanto, para una tarea de regresión, se pueden emplear procesos generativos no lineales para generar los datos.

¿Por qué usar datos sintéticos?

A medida que los marcos de aprendizaje automático como TensorfFlow y PyTorch se vuelven más fáciles de usar y los modelos prediseñados para la visión por computadora y el procesamiento del lenguaje natural se vuelven más ubicuos y poderosos, el problema principal que deben enfrentar los científicos de datos es la recopilación y el manejo de datos. Las empresas a menudo tienen dificultades para adquirir grandes cantidades de datos para entrenar un modelo preciso dentro de un marco de tiempo determinado. El etiquetado manual de datos es una forma costosa y lenta de adquirir datos. Sin embargo, generar y usar datos sintéticos puede ayudar a los científicos de datos y a las empresas a superar estos obstáculos y desarrollar modelos de aprendizaje automático confiables de manera más rápida.

Hay una serie de ventajas en el uso de datos sintéticos. La forma más obvia en que el uso de datos sintéticos beneficia a la ciencia de datos es que reduce la necesidad de capturar datos de eventos del mundo real y, por esta razón, es posible generar datos y construir un conjunto de datos mucho más rápido que un conjunto de datos dependiente de datos. eventos del mundo real. Esto significa que se pueden producir grandes volúmenes de datos en un corto período de tiempo. Esto es especialmente cierto para los eventos que rara vez ocurren, ya que si un evento rara vez ocurre en la naturaleza, se pueden simular más datos a partir de algunas muestras de datos genuinos. Más allá de eso, los datos se pueden etiquetar automáticamente a medida que se generan, lo que reduce drásticamente la cantidad de tiempo necesario para etiquetar los datos.

Los datos sintéticos también pueden ser útiles para obtener datos de entrenamiento para casos extremos, que son instancias que pueden ocurrir con poca frecuencia pero que son críticas para el éxito de su IA. Los casos extremos son eventos que son muy similares al objetivo principal de una IA pero difieren en aspectos importantes. Por ejemplo, los objetos que solo están parcialmente a la vista podrían considerarse casos límite al diseñar un clasificador de imágenes.

Finalmente, los conjuntos de datos sintéticos puede minimizar las preocupaciones de privacidad. Los intentos de anonimizar los datos pueden resultar ineficaces, ya que incluso si se eliminan del conjunto de datos las variables confidenciales/de identificación, otras variables pueden actuar como identificadores cuando se combinan. Este no es un problema con los datos sintéticos, ya que, en primer lugar, nunca se basaron en una persona real o en un evento real.

Casos de uso para datos sintéticos

Los datos sintéticos tienen una amplia variedad de usosya que se puede aplicar a casi cualquier tarea de aprendizaje automático. Casos de uso comunes para datos sintéticos se incluyen vehículos autónomos, seguridad, robótica, protección contra fraudes y atención médica.

Uno de los primeros casos de uso de datos sintéticos fue el de los automóviles autónomos, ya que los datos sintéticos se utilizan para crear datos de entrenamiento para automóviles en condiciones en las que obtener datos de entrenamiento reales en la carretera es difícil o peligroso. Los datos sintéticos también son útiles para la creación de datos utilizados para entrenar sistemas de reconocimiento de imágenes, como sistemas de vigilancia, de manera mucho más eficiente que recopilar y etiquetar manualmente un montón de datos de entrenamiento. Los sistemas robóticos pueden ser lentos para entrenar y desarrollar con métodos tradicionales de recopilación de datos y entrenamiento. Los datos sintéticos permiten a las empresas de robótica probar y diseñar sistemas de robótica a través de simulaciones. Los sistemas de protección contra fraudes pueden beneficiarse de los datos sintéticos, y los nuevos métodos de detección de fraudes pueden entrenarse y probarse con datos que son constantemente nuevos cuando se utilizan datos sintéticos. En el campo de la atención médica, los datos sintéticos se pueden usar para diseñar clasificadores de salud que sean precisos y, al mismo tiempo, preserven la privacidad de las personas, ya que los datos no se basarán en personas reales.

Desafíos de datos sintéticos

Si bien el uso de datos sintéticos trae consigo muchas ventajas, también trae muchos desafíos.

Cuando se crean datos sintéticos, a menudo carecen de valores atípicos. Los valores atípicos ocurren en los datos de forma natural y, aunque a menudo se eliminan de los conjuntos de datos de entrenamiento, su existencia puede ser necesaria para entrenar modelos de aprendizaje automático verdaderamente confiables. Más allá de esto, la calidad de los datos sintéticos puede ser muy variable. Los datos sintéticos a menudo se generan con datos de entrada o semilla y, por lo tanto, la calidad de los datos puede depender de la calidad de los datos de entrada. Si los datos utilizados para generar los datos sintéticos están sesgados, los datos generados pueden perpetuar ese sesgo. Los datos sintéticos también requieren algún tipo de control de salida/calidad. Debe verificarse con datos anotados por humanos, o de lo contrario, los datos auténticos son de alguna forma.

¿Cómo se crean los datos sintéticos?

Los datos sintéticos se crean mediante programación con técnicas de aprendizaje automático. Se pueden utilizar técnicas clásicas de aprendizaje automático como árboles de decisión, al igual que las técnicas de aprendizaje profundo. Los requisitos para los datos sintéticos influirán en qué tipo de algoritmo se utiliza para generar los datos. Los árboles de decisión y modelos de aprendizaje automático similares permiten a las empresas crear distribuciones de datos multimodales no clásicas, entrenadas en ejemplos de datos del mundo real. La generación de datos con estos algoritmos proporcionará datos que están altamente correlacionados con los datos de entrenamiento originales. Para los casos en los que se conoce la distribución típica de los datos, una empresa puede generar datos sintéticos mediante el uso de un método de Monte Carlo.

Los métodos basados ​​en el aprendizaje profundo para generar datos sintéticos suelen hacer uso de un codificador automático variacional (VAE) o una red antagónica generativa (GAN). Los VAE son modelos de aprendizaje automático no supervisados ​​que utilizan codificadores y decodificadores. La parte del codificador de un VAE es responsable de comprimir los datos en una versión más simple y compacta del conjunto de datos original, que luego el decodificador analiza y utiliza para generar una representación de los datos base. Un VAE se entrena con el objetivo de tener una relación óptima entre los datos de entrada y salida, donde tanto los datos de entrada como los de salida son extremadamente similares.

Cuando se trata de modelos GAN, se denominan redes «adversarias» debido al hecho de que las GAN son en realidad dos redes que compiten entre sí. El generador es responsable de generar datos sintéticos, mientras que la segunda red (el discriminador) opera comparando los datos generados con un conjunto de datos reales e intenta determinar qué datos son falsos. Cuando el discriminador detecta datos falsos, se notifica al generador y realiza cambios para tratar de obtener un nuevo lote de datos del discriminador. A su vez, el discriminador se vuelve cada vez mejor en la detección de falsificaciones. Las dos redes están entrenadas una contra la otra, y las falsificaciones se vuelven más realistas todo el tiempo.

Deja un comentario