Wilson Pang se unió Appen en noviembre de 2018 como CTO y es responsable de los productos y la tecnología de la empresa. Wilson tiene más de diecinueve años de experiencia en ingeniería de software y ciencia de datos. Antes de unirse a Appen, Wilson fue director de datos de Ctrip en China, la segunda agencia de viajes en línea más grande del mundo, donde lideró a ingenieros de datos, analistas, gerentes de productos de datos y científicos para mejorar la experiencia del usuario y aumentar la eficiencia operativa que hizo crecer el negocio. Antes de eso, fue director sénior de ingeniería en eBay en California y brindó liderazgo en varios dominios, incluidos servicios y soluciones de datos, ciencia de búsqueda, tecnología de marketing y sistemas de facturación. Trabajó como arquitecto en IBM antes de eBay, creando soluciones tecnológicas para varios clientes. Wilson obtuvo su maestría y licenciatura en ingeniería eléctrica de la Universidad de Zhejiang en China.
Hablamos de su nuevo libro: The Real World of AI: A Practical Guide for Responsible Aprendizaje automático
Describe cómo, cuando dirigía los equipos científicos de búsqueda de eBay, una de sus primeras lecciones con el aprendizaje automático fue comprender la importancia de saber qué métricas medir. El ejemplo dado fue cómo la métrica «compras por sesión» no tuvo en cuenta el valor monetario de un artículo. ¿Cómo pueden las empresas comprender mejor qué métricas deben medirse para evitar problemas similares?
Comience con los objetivos que su equipo atribuye al modelo de IA; en nuestro caso, queríamos generar más ingresos con el aprendizaje automático. Cuando adjunte métricas a los objetivos, piense en qué mecanismos producirán esas métricas, una vez que publique el modelo y las personas comiencen a interactuar con él, pero también tome nota de sus suposiciones. En nuestro caso, asumimos que el modelo optimizaría los ingresos, pero la cantidad de compras por sesión no se tradujo en eso, porque el modelo se estaba optimizando para una gran cantidad de ventas de bajo valor y, al final del día, no estábamos No estoy ganando más dinero. Una vez que nos dimos cuenta de eso, pudimos cambiar las métricas y apuntar el modelo en la dirección correcta. Por lo tanto, determinar las métricas granulares, así como anotar las suposiciones, es fundamental para el éxito de un proyecto.
¿Qué aprendiste personalmente al investigar y escribir este libro?
Tenemos muchos problemas diferentes que pueden ser resueltos por IA de diferentes empresas y diferentes industrias. Los casos de uso pueden ser muy diferentes, la solución de IA puede ser diferente, los datos para entrenar esa solución de IA pueden ser diferentes. Sin embargo, independientemente de todas esas diferencias, los errores que cometieron las personas durante su viaje de IA son bastante similares. Esos errores ocurrieron una y otra vez en todo tipo de empresas de todo tipo de industrias.
Compartimos algunas mejores prácticas comunes al implementar proyectos de IA con la esperanza de ayudar a más personas y empresas a evitar esos errores y ganarles la confianza para implementar una IA responsable.
¿Cuáles son algunas de las lecciones más importantes que espera que la gente aprenda al leer esto?
Creemos fervientemente que los usos reflexivos, responsables y éticos de la tecnología de aprendizaje automático pueden hacer del mundo un lugar más justo e inclusivo. La tecnología de aprendizaje automático promete remodelar todo en el mundo de los negocios, pero no tiene por qué ser difícil. Existen métodos y procesos probados y probados que los equipos pueden seguir y obtener la confianza para implementarlos en producción.
Otra lección clave es que los propietarios de las líneas de negocio (como los gerentes de productos) y los miembros del equipo del lado más técnico (como los ingenieros y los científicos de datos) necesitan hablar un lenguaje común. Para implementar con éxito la IA, los líderes deben cerrar la brecha entre los equipos, brindando a los especialistas comerciales y al nivel C suficiente contexto para conversar de manera eficiente con los implementadores técnicos.
Mucha gente piensa primero en el código cuando piensa en la IA. Una de las lecciones clave del libro es que los datos son fundamentales para el éxito de un modelo de IA. Hay mucho que va con los datos, desde la recopilación hasta el etiquetado y el almacenamiento, y cada paso influirá en el éxito del modelo. Las implementaciones de IA más exitosas son aquellas que ponen un gran énfasis en los datos y se esfuerzan por mejorar continuamente este aspecto de su modelo de ML.
Todo lo que la IA del mundo real requiere es un equipo multifuncional y un espíritu innovador.
Se analiza determinar cuándo la precisión de un modelo de IA es lo suficientemente alta como para admitir el uso de IA. ¿Cuál es la forma más fácil de evaluar el tipo de precisión que se necesita?
Depende de sus casos de uso y tolerancia al riesgo. Los equipos que desarrollan IA siempre deben tener una fase de prueba en la que determinen los niveles de precisión y los umbrales aceptables para sus organizaciones y partes interesadas. Para los casos de uso de vida o muerte, donde existe un daño potencial si la IA falla, como en el caso del software de sentencias, los automóviles autónomos, los casos de uso médico, el listón es muy, muy alto, y los equipos deben poner en establecer contingencias en caso de que los modelos estén equivocados. Para casos de uso más tolerantes a fallas, donde hay mucha subjetividad en juego, como el contenido, la búsqueda o la relevancia de los anuncios, los equipos pueden confiar en los comentarios de los usuarios para continuar ajustando sus modelos incluso mientras están en producción. Por supuesto, aquí también hay algunos casos de uso de alto riesgo, en los que se puede mostrar material ilegal o inmoral a los usuarios, por lo que aquí también se deben implementar salvaguardas y mecanismos de retroalimentación.
¿Puede definir la importancia de definir el éxito de un proyecto por adelantado?
Es igualmente importante comenzar con un problema comercial que definir el éxito por adelantado, ya que ambos van de la mano. Siguiendo el ejemplo del libro sobre el concesionario de automóviles que usa IA para etiquetar imágenes, no determinaron cómo se veía el éxito porque no habían definido un problema comercial para resolver. Para ellos, el éxito podría haber sido una serie de cosas diferentes que dificultan la resolución de un problema, incluso para equipos de personas, y mucho menos un modelo de aprendizaje automático con un alcance fijo. Si se hubieran propuesto etiquetar todos los vehículos con abolladuras para crear una lista de vehículos que necesitaban reparación y definieran el éxito como etiquetar con precisión el 80 % de todas las abolladuras de vehículos en el inventario de autos usados, entonces, cuando hubieran etiquetado con precisión el 85 %, el equipo lo habría llamado un éxito. Pero si ese éxito no está ligado al problema comercial y al impacto comercial directo, es difícil evaluar el proyecto fuera de la definición enfocada de precisión de etiquetado en este ejemplo. Aquí, el problema comercial era más complejo y el etiquetado de abolladuras es solo un componente del mismo. En su caso, podrían haber sido mejores al definir el éxito como ahorrar tiempo/dinero en el proceso de reclamos u optimizar el proceso de reparaciones en un X% y luego traducir el impacto del etiquetado en resultados comerciales reales.
¿Qué tan importante es garantizar que los ejemplos de datos de capacitación cubran todos los casos de uso que ocurrirán en la implementación de producción?
Es extremadamente importante que el modelo se entrene en todos los casos de uso para evitar sesgos. Pero también es importante tener en cuenta que, si bien es imposible cubrir absolutamente todos los casos de uso en producción, los equipos que crean IA deben comprender sus datos de producción, así como sus datos de entrenamiento para que puedan entrenar a la IA para lo que encontrará en producción. . El acceso a los datos de capacitación que provienen de grandes grupos diversos con varios casos de uso será fundamental para el éxito del modelo. Por ejemplo, un modelo que está capacitado para reconocer la mascota de las personas en una imagen cargada debe estar capacitado para todos los tipos de mascotas; perros, gatos, pájaros, pequeños mamíferos, lagartijas, etc. Si el modelo solo se entrena con perros, gatos y pájaros, cuando alguien suba una imagen con su conejillo de indias, el modelo no podrá identificarlo. Si bien este es un ejemplo muy simple, muestra cómo la capacitación en tantos casos de uso probables como sea posible es fundamental para el éxito de un modelo.
En el libro se analiza la necesidad de desarrollar buenos hábitos de higiene de datos de arriba hacia abajo, ¿cuáles son algunos de los primeros pasos comunes para fomentar este hábito?
Los buenos hábitos de higiene de datos aumentarán la usabilidad de los datos internos y los prepararán para los casos de uso de ML. Toda la empresa debe volverse buena organizando y realizando un seguimiento de sus conjuntos de datos. Una forma segura de lograr esto es convertirlo en un requisito comercial y realizar un seguimiento de la implementación para que haya muy pocos informes que terminen siendo trabajos personalizados, y los equipos trabajen cada vez más con canalizaciones de datos canalizadas a un repositorio central, con una ontología clara. Otra buena práctica es mantener un registro de cuándo y dónde se recolectaron los datos y qué pasó antes de que se colocaran en la base de datos, así como también establecer procesos para limpiar periódicamente los datos no utilizados o obsoletos.
Gracias por la gran entrevista, para los lectores que estén interesados en aprender más, les recomiendo que lean el libro. El mundo real de la IA: una guía práctica para el aprendizaje automático responsable.