Explicabilidad: la próxima frontera para la inteligencia artificial en seguros y banca

Por el Dr. Ori Katz, científico de investigación analítica, Ganarix.

“Cualquier tecnología suficientemente avanzada es indistinguible de la magia”, argumentó el escritor de ciencia ficción Arthur C. Clarke. De hecho, a veces la tecnología avanzada, como los nuevos algoritmos de aprendizaje automático, se parece a la magia. Las aplicaciones en evolución del aprendizaje automático, incluida la clasificación de imágenes, el reconocimiento de voz y su uso en las industrias de seguros y banca tienen propiedades aparentemente de otro mundo.

Muchas empresas desconfían de cambiar sus modelos analíticos tradicionales, y con razón. La magia es peligrosa, especialmente si no se entiende bien. Las redes neuronales y los algoritmos de conjuntos de árboles son «cajas negras», su estructura interna puede ser extremadamente compleja. Al mismo tiempo, varios estudios [1] han demostrado cómo las redes neuronales y los algoritmos basados ​​en árboles pueden superar incluso a los modelos de riesgo de seguros tradicionales más cuidadosamente ajustados y construidos por actuarios experimentados. Esto se debe a la capacidad de los nuevos algoritmos para identificar automáticamente estructuras ocultas en los datos. El misterio y la utilidad de las redes neuronales y los algoritmos basados ​​en árboles se yuxtaponen. Existe una compensación inherente entre la precisión de un modelo analítico y su nivel de «explicabilidad». ¿Cómo podemos confiar en los modelos si no podemos entender cómo llegan a sus conclusiones? ¿Deberíamos simplemente ceder a la magia, sacrificar nuestra confianza y control sobre algo que no podemos comprender completamente por precisión?

Los gerentes y analistas no son los únicos que están preocupados por esta compensación. En los últimos años, los reguladores comenzaron a explorar el lado oscuro de la magia para aumentar su capacidad de monitorear estas industrias. Las industrias bancaria y de seguros están altamente reguladas en muchos aspectos y las tendencias de regulación actuales implican observar más de cerca los modelos que se utilizan para hacer predicciones. El Considerando 71 del Reglamento General Europeo de Protección de Datos (GDPR), por ejemplo, establece que los clientes deben tener derecho a obtener una explicación de una única decisión automatizada después de que se haya tomado. Desde sus inicios, este elemento de la regulación ha estado en el centro de un debate académico muy polémico.

La urgente necesidad de explicar los modelos analíticos de “caja negra” ha llevado al surgimiento de un nuevo campo de investigación: la Inteligencia Artificial Explicable. Los expertos están desarrollando herramientas que nos permiten mirar dentro de la caja negra y desentrañar al menos parte de la magia. Dos tipos de herramientas que los investigadores han creado incluyen herramientas de «explicabilidad global», que pueden ayudarnos a comprender las características clave que impulsan las predicciones generales del modelo, y herramientas de «explicabilidad local», que están destinadas a explicar una predicción específica.

La siguiente gráfica es un ejemplo de explicabilidad local. Se basa en las ideas del economista ganador del Premio Nobel Lloyd Shapley, quien desarrolló un método de teoría de juegos para calcular la contribución de varios jugadores que cooperan en la misma tarea. En Inteligencia Artificial Explicable, los “jugadores” son las características del modelo, mientras que la “tarea” es la predicción del modelo. Los números que describen la contribución de cada característica se denominan «Valores de Shapley». Los investigadores desarrollaron recientemente métodos para la estimación rápida de los valores de Shapley [2]lo que nos permite distribuir equitativamente una predicción entre las diferentes características.

Uso de los valores de Shapley para explicar la demanda de renovación prevista de un cliente específico

El gráfico, basado en datos simulados, muestra el resultado de un modelo de demanda que predice la probabilidad de renovación de la póliza de seguro de automóvil. Esta es una explicación local para un cliente específico. El modelo de demanda se basa en un conjunto complejo de árboles de decisión, pero la gráfica presenta la contribución separada de cada característica a la predicción final. En este ejemplo, el modelo predice que la persona promedio de los datos renovará la póliza con una probabilidad de 0,64. Sin embargo, para este cliente específico, la probabilidad pronosticada es mucho mayor, 0,72. La gráfica le permite ver la causa de esta diferencia.

Si bien no podemos comprender completamente la estructura interna de este modelo complejo, los valores de Shapley nos permiten ver cuáles son las características más importantes para una predicción específica, desentrañando una parte de la magia. Promediar los valores individuales de Shapley sobre la población nos permite ver qué características son las más importantes y obtener una explicación global del modelo. Otras herramientas populares de explicabilidad incluyen «Importancia de la función de permutación», modelos sustitutos simples que se ajustan localmente y ejemplos contrafácticos, por nombrar algunos. [3].

Las nuevas herramientas de explicabilidad son el siguiente paso necesario en la evolución del aprendizaje automático. Pueden permitir que las compañías de seguros y los bancos entiendan y confíen en sus modelos de aprendizaje automático, cumplan con las nuevas regulaciones y brinden información valiosa a sus clientes. Ahora podemos superar parcialmente el compromiso entre precisión y explicabilidad y disfrutar de las ventajas de los nuevos modelos de aprendizaje automático con menos preocupaciones sobre su naturaleza de caja negra.

En nuestro mundo que se digitaliza rápidamente, el criterio básico de supervivencia para las aseguradoras y los bancos es estar totalmente orientado a la analítica. Esta capacidad siempre ha sido importante, pero se volvió vital con las condiciones de mercado volátiles que nos trajo el 2020. Las aseguradoras y los bancos necesitan análisis más inteligentes para modelar una nueva realidad compleja en la que puedan basar sus decisiones comerciales y servir a sus clientes más rápido y mejor. Las herramientas de explicabilidad pueden permitir que las aseguradoras y los bancos lo logren. Con el tiempo, llegaremos al punto en que los modelos de aprendizaje automático ya no se consideren mágicos, sino una herramienta esencial en el arsenal central de cualquier negocio basado en datos.

Fuentes:

[1] Bärtl, M. y Krummaker, S. (2020). Predicción de reclamaciones en la financiación de créditos a la exportación: una comparación de cuatro técnicas de aprendizaje automático. Riesgos, 8(1), 22.

Noll, A., Salzmann, R. y Wuthrich, MV (2020). Estudio de caso: Reclamaciones de responsabilidad civil de automóviles en Francia. Disponible en SSRN 3164764.

Fauzan, MA y Murfi, H. (2018). La precisión de XGBoost para la predicción de reclamaciones de seguros. En t. j adv. Cómputo suave. Aplicación, 10(2).

Weerasinghe, KPMLP y Wijegunasekara, MC (2016). Un estudio comparativo de algoritmos de minería de datos en la predicción de siniestros de seguros de automóviles. European International Journal of Science and Technology, 5(1), 47-54.

[2] Lundberg, SM y Lee, SI (2017). Un enfoque unificado para interpretar las predicciones del modelo. En Avances en los sistemas de procesamiento de información neuronal (págs. 4765-4774).

[3] Ver aquí para más detalles: https://christophm.github.io/interpretable-ml-book/index.html

Deja un comentario