El Dr. Michael Capps es un conocido tecnólogo y director ejecutivo de Diveplane Corporation. Antes de cofundar Diveplane, Mike tuvo una carrera legendaria en la industria de los videojuegos como presidente de Epic Games, creadores de los éxitos de taquilla Fortnite y Gears of War. Su mandato incluyó cien premios al juego del año, docenas de conferencias magistrales, un premio a la trayectoria y una exitosa defensa de la libertad de expresión de los videojuegos en la Corte Suprema de EE. UU.
avión de buceo ofrece soluciones comerciales impulsadas por IA en múltiples industrias. Con seis patentes aprobadas y varias pendientes, la IA comprensible de Diveplane brinda una comprensión total y transparencia en las decisiones en apoyo de las políticas éticas de IA y las estrategias de privacidad de datos.
Te retiraste con éxito de una exitosa carrera en la industria de los videojuegos en Epic Games, ¿qué te inspiró a salir de tu retiro para centrarte en la IA?
Hacer juegos fue genial pero, al menos en ese momento, no era una carrera ideal cuando se tenía una nueva familia. Me mantuve ocupado con los asientos de la junta y los roles de asesoramiento, pero simplemente no me satisfacía. Entonces, hice una lista de los tres problemas principales que enfrenta el mundo y que posiblemente podría impactar, y eso incluía la proliferación de sistemas de IA de caja negra. Mi plan era pasar un año investigando cada uno, pero unas semanas más tarde, mi brillante amigo Chris Hazard me dijo que había estado trabajando en secreto en una plataforma de IA transparente y completamente explicable. Y aquí estamos.
Diveplane se inició con la misión de llevar a la humanidad a la IA, ¿puede explicar qué significa esto específicamente?
Seguro. Aquí estamos usando humanidad para significar «humanidad» o «compasión». Para asegurarse de que lo mejor de la humanidad esté en su modelo de IA, no puede simplemente entrenar, probar un poco y esperar que todo esté bien.
Necesitamos revisar cuidadosamente los datos de entrada, el modelo en sí y el resultado de ese modelo, y asegurarnos de que refleje lo mejor de nuestra humanidad. La mayoría de los sistemas entrenados con datos históricos o del mundo real no serán correctos la primera vez, y tampoco son necesariamente imparciales. Creemos que la única forma de eliminar el sesgo en un modelo, es decir, tanto los errores estadísticos como los prejuicios, es la combinación de transparencia, auditabilidad y explicación comprensible para los humanos.
La tecnología central en Diveplane se llama REACTOR, ¿qué hace que este sea un enfoque novedoso para hacer que el aprendizaje automático sea explicable?
El aprendizaje automático generalmente implica el uso de datos para construir un modelo que toma un tipo particular de decisión. Las decisiones pueden incluir el ángulo para girar las ruedas de un vehículo, si aprobar o denegar una compra o marcarla como fraude, o qué producto recomendar a alguien. Si desea saber cómo tomó la decisión el modelo, normalmente tiene que pedirle muchas decisiones similares y luego intentar nuevamente predecir qué podría hacer el propio modelo. Las técnicas de aprendizaje automático están limitadas en los tipos de información que pueden ofrecer, ya sea que la información refleje realmente lo que hizo el modelo para tomar la decisión, o por tener una menor precisión.
Trabajar con REACTOR es bastante diferente. REACTOR caracteriza la incertidumbre de sus datos, y sus datos se convierten en el modelo. En lugar de construir un modelo por tipo de decisión, solo le pregunta a REACTOR qué le gustaría que decidiera (puede ser cualquier cosa relacionada con los datos) y REACTOR consulta qué datos se necesitan para una decisión determinada. REACTOR siempre puede mostrarle los datos que utilizó, cómo se relacionan con la respuesta, todos los aspectos de la incertidumbre, el razonamiento contrafactual y prácticamente cualquier pregunta adicional que desee hacer. Debido a que los datos son el modelo, puede editar los datos y REACTOR se actualizará instantáneamente. Puede mostrarle si hubo datos que parecían anómalos que se incluyeron en la decisión y rastrear cada edición hasta los datos y su origen. REACTOR utiliza la teoría de la probabilidad hasta el final, lo que significa que podemos decirle las unidades de medida de cada parte de su funcionamiento. Y finalmente, puede reproducir y validar cualquier decisión utilizando solo los datos que conducen a la decisión y las incertidumbres, utilizando matemáticas relativamente sencillas sin siquiera necesitar REACTOR.
REACTOR puede hacer todo esto mientras mantiene una precisión altamente competitiva, especialmente para conjuntos de datos pequeños y dispersos.
GEMINAI es un producto que construye un gemelo digital de un conjunto de datos, ¿qué significa esto específicamente, cómo garantiza esto la privacidad de los datos?
Cuando alimenta a GEMINAI con un conjunto de datos, genera un conocimiento profundo de la forma estadística de esos datos. Puede usarlo para crear un gemelo sintético que se asemeje a la estructura de los datos originales, pero todos los registros se crearon recientemente. Pero la forma estadística es la misma. Entonces, por ejemplo, la frecuencia cardíaca promedio de los pacientes en ambos conjuntos sería casi la misma, al igual que todas las demás estadísticas. Por lo tanto, cualquier análisis de datos que use el gemelo daría la misma respuesta que los originales, incluido el entrenamiento de modelos ML.
Y si alguien tiene un registro en los datos originales, no habrá registro para ellos en el gemelo sintético. No solo eliminamos el nombre, sino que nos aseguramos de que no haya ningún registro nuevo que esté «cerca» de su registro (y todos los demás) en el espacio de información. Es decir, no hay ningún registro que sea reconocible tanto en el conjunto original como en el sintético.
Y eso significa que el conjunto de datos sintéticos se puede compartir mucho más libremente sin riesgo de compartir información confidencial de manera inapropiada. No importa si se trata de transacciones financieras personales, información de salud del paciente, datos clasificados, siempre que las estadísticas de los datos no sean confidenciales, el gemelo sintético no es confidencial.
¿Por qué GEMINAI es una mejor solución que usar la privacidad diferencial?
La privacidad diferencial es un conjunto de técnicas que evitan que la probabilidad de que un individuo influya en las estadísticas más que una cantidad marginal, y es una pieza fundamental en casi cualquier solución de privacidad de datos. Sin embargo, cuando se usa solo la privacidad diferencial, se debe administrar un presupuesto de privacidad para los datos, con suficiente ruido agregado a cada consulta. Una vez que se agota ese presupuesto, los datos no se pueden volver a utilizar sin incurrir en riesgos de privacidad.
Una forma de superar este presupuesto es aplicar el presupuesto de privacidad completo a la vez para entrenar un modelo de aprendizaje automático para generar datos sintéticos. La idea es que este modelo, entrenado con privacidad diferencial, se pueda utilizar con relativa seguridad. Sin embargo, la aplicación adecuada de la privacidad diferencial puede ser complicada, especialmente si hay diferentes volúmenes de datos para diferentes personas y relaciones más complejas, como personas que viven en la misma casa. Y es probable que los datos sintéticos producidos a partir de este modelo incluyan, por casualidad, datos reales que un individuo podría reclamar como propios porque son demasiado similares.
GEMINAI resuelve estos problemas y más al combinar múltiples técnicas de privacidad al sintetizar los datos. Utiliza una forma práctica apropiada de privacidad diferencial que puede acomodar una amplia variedad de tipos de datos. Se basa en nuestro motor REACTOR, por lo que también conoce la probabilidad de que cualquier dato pueda confundirse entre sí y sintetiza los datos asegurándose de que siempre sean lo suficientemente diferentes de los datos originales más similares. Además, trata cada campo, cada dato como potencialmente confidencial o identificativo, por lo que aplica formas prácticas de privacidad diferencial para campos que tradicionalmente no se consideran confidenciales pero que podrían identificar de manera única a una persona, como la única transacción en un 24 -horario de tienda entre las 2am y las 3am. A menudo nos referimos a esto como trituración cruzada de privacidad.
GEMINAI puede lograr una alta precisión para casi cualquier propósito, que se parece a los datos originales, pero evita que alguien encuentre datos sintéticos demasiado similares a los datos sintéticos.
Diveplane jugó un papel decisivo en la co-fundación de Data & Trust Alliance, ¿qué es esta alianza?
Es un grupo absolutamente fantástico de directores ejecutivos de tecnología, que colaboran para desarrollar y adoptar datos responsables y prácticas de IA. Organizaciones de clase mundial como IBM, Johnson & Johnson, Mastercard, UPS, Walmart y Diveplane. Estamos muy orgullosos de haber sido parte de las primeras etapas y también orgullosos del trabajo que hemos logrado colectivamente en nuestras iniciativas.
Diveplane planteó recientemente una exitosa ronda Serie A, ¿qué significará esto para el futuro de la compañía?
Hemos tenido la suerte de tener éxito con nuestros proyectos empresariales, pero es difícil cambiar el mundo una empresa a la vez. ¡Usaremos este soporte para construir nuestro equipo, compartir nuestro mensaje y obtener IA comprensible en tantos lugares como podamos!
¿Hay algo más que le gustaría compartir sobre Diveplane?
Diveplane se trata de asegurarse de que la IA se realice correctamente a medida que prolifera. Nos preocupamos por una IA justa, transparente y comprensible, mostrando de manera proactiva lo que impulsa las decisiones y alejándonos de la «mentalidad de caja negra» en la IA que tiene el potencial de ser injusta, poco ética y tendenciosa. ¡Creemos que la explicabilidad es el futuro de la IA, y estamos entusiasmados de desempeñar un papel fundamental para impulsarla!
Gracias por la gran entrevista, los lectores que deseen obtener más información deben visitar avión de buceo.