La preparación de datos humanos para el aprendizaje automático requiere muchos recursos: estos dos enfoques son fundamentales para reducir los costos

Por: Dattaraj Rao, científico jefe de datos, Sistemas Persistentes

Al igual que con cualquier sistema que dependa de las entradas de datos, Machine Learning (ML) está sujeto al axioma de «basura dentro, basura fuera». Los datos limpios y etiquetados con precisión son la base para construir cualquier modelo de ML. Un algoritmo de entrenamiento de ML comprende los patrones de los datos reales y, a partir de ahí, aprende formas de generalizar en datos no vistos. Si la calidad de sus datos de entrenamiento es baja, será muy difícil que el algoritmo ML aprenda y extrapole continuamente.

Piénselo en términos de entrenar a un perro mascota. Si no entrenas adecuadamente al perro con comandos de comportamiento fundamentales (entradas) o lo haces de forma incorrecta o imprecisa, nunca puedes esperar que el perro aprenda y se expanda a través de la observación hacia comportamientos positivos más complejos porque las entradas subyacentes estaban ausentes o eran defectuosas, para empezar. con. La capacitación adecuada requiere mucho tiempo e incluso es costosa si contrata a un experto, pero la recompensa es excelente si lo hace bien desde el principio.

Al entrenar un modelo de ML, la creación de datos de calidad requiere que un experto en el dominio dedique tiempo a anotar los datos. Esto puede incluir seleccionar una ventana con el objeto deseado en una imagen o asignar una etiqueta a una entrada de texto o un registro de base de datos. Particularmente para datos no estructurados como imágenes, videos y texto, la calidad de las anotaciones juega un papel importante en la determinación de la calidad del modelo. Por lo general, abundan los datos sin etiquetar, como imágenes sin procesar y texto, pero el etiquetado es donde se debe optimizar el esfuerzo. Esta es la parte humana en el circuito del ciclo de vida de ML y, por lo general, es la parte más costosa y laboriosa de cualquier proyecto de ML.

Las herramientas de anotación de datos como Prodigy, Amazon Sagemaker Ground Truth, NVIDIA RAPIDS y DataRobot human-in-the-loop mejoran constantemente la calidad y brindan interfaces intuitivas para los expertos del dominio. Sin embargo, minimizar el tiempo que necesitan los expertos del dominio para anotar datos sigue siendo un desafío importante para las empresas hoy en día, especialmente en un entorno donde el talento en ciencia de datos es limitado pero tiene una gran demanda. Aquí es donde entran en juego dos nuevos enfoques para la preparación de datos.

Aprendizaje activo

El aprendizaje activo es un método en el que un modelo de ML consulta activamente a un experto en el dominio para obtener anotaciones específicas. Aquí, el enfoque no es obtener una anotación completa en los datos sin etiquetar, sino solo anotar los puntos de datos correctos para que el modelo pueda aprender mejor. Tomemos como ejemplo las ciencias de la salud y la vida, una empresa de diagnóstico que se especializa en la detección temprana del cáncer para ayudar a los médicos a tomar decisiones informadas basadas en datos sobre la atención del paciente. Como parte de su proceso de diagnóstico, necesitan anotar imágenes de tomografía computarizada con tumores que deben resaltarse.

Después de que el modelo de ML aprenda de algunas imágenes con bloques tumorales marcados, con aprendizaje activo, el modelo solo pedirá a los usuarios que anoten imágenes en las que no esté seguro de la presencia de un tumor. Estos serán puntos límite, que cuando se anotan aumentarán la confianza del modelo. Cuando el modelo tenga confianza por encima de un umbral particular, realizará una autoanotación en lugar de pedirle al usuario que anote. Así es como el aprendizaje activo intenta ayudar a construir modelos precisos mientras reduce el tiempo y el esfuerzo necesarios para anotar datos. Los marcos como modAL pueden ayudar a aumentar el rendimiento de la clasificación al consultar de manera inteligente a los expertos del dominio para etiquetar las instancias más informativas.

Supervisión débil

La supervisión débil es un enfoque en el que se pueden utilizar datos ruidosos e imprecisos o conceptos abstractos para proporcionar indicaciones para etiquetar una gran cantidad de datos no supervisados. Este enfoque generalmente utiliza etiquetadores débiles e intenta combinarlos en un enfoque de conjunto para generar datos anotados de calidad. El esfuerzo es tratar de incorporar el conocimiento del dominio en una actividad de etiquetado automatizado.

Por ejemplo, si un proveedor de servicios de Internet (ISP) necesitara un sistema para marcar los conjuntos de datos de correo electrónico como spam o no spam, podríamos escribir reglas débiles como verificar frases como «oferta», «felicitaciones», «gratis», etc. que en su mayoría están asociados con correos electrónicos no deseados. Otras reglas podrían ser correos electrónicos de patrones específicos de direcciones de origen que se pueden buscar mediante expresiones regulares. Estas funciones débiles podrían luego combinarse con un marco de supervisión débil como Snorkel y Skweak para construir datos de capacitación de mejor calidad.

ML en su esencia se trata de ayudar a las empresas a escalar los procesos exponencialmente de maneras que son físicamente imposibles de lograr manualmente. Sin embargo, ML no es mágico y aún depende de los humanos para a) configurar y entrenar los modelos correctamente desde el principio y b) intervenir cuando sea necesario para garantizar que el modelo no se desvíe tanto que los resultados ya no sean útiles y puede ser contraproducente o negativo.

El objetivo es encontrar formas que ayuden a agilizar y automatizar partes de la participación humana para aumentar el tiempo de comercialización y los resultados, pero manteniendo los límites de la precisión óptima. Se acepta universalmente que obtener datos anotados de calidad es la parte más costosa pero extremadamente importante de un proyecto de ML. Este es un espacio en evolución, y se están realizando muchos esfuerzos para reducir el tiempo que dedican los expertos del dominio y mejorar la calidad de las anotaciones de datos. Explorar y aprovechar el aprendizaje activo y la supervisión débil es una estrategia sólida para lograr esto en múltiples industrias y casos de uso.

Deja un comentario