Los efectos del sesgo de datos en la inteligencia artificial están bien documentados y, a medida que la IA y los algoritmos de aprendizaje automático penetran cada vez más en todos los rincones de la sociedad, las empresas de IA buscan nuevas formas de garantizar que los algoritmos que desarrollan no hereden sesgos humanos. Uno de los nuevos jugadores dentro del espacio de inteligencia artificial y aprendizaje automático, con el objetivo de reducir el sesgo de datos, es la empresa emergente con nombre transparente Imparcial. Imparcial ha lanzado un nuevo mercado de datos en la plataforma blockchain activa Teloscon la esperanza de proporcionar a los clientes herramientas y aplicaciones descentralizadas que priorizan la privacidad para la ciencia de datos y la IA.
Se prevé que el mercado global de IA continúe su rápido crecimiento en el transcurso de la próxima década, alcanzando alrededor de 266 mil millones de dólares para el año 2027. Dentro de los próximos cuatro años, se espera que el gasto mundial en sistemas de IA y componentes asociados se duplique, alcanzando aproximadamente 110 mil millones de dólares para 2024 según IDC. La rápida adopción de algoritmos de IA en más y más industrias ha generado una creciente preocupación por la transparencia, privacidad, equidad y representatividad de los sistemas de IA.
Reducción del sesgo a través de la transparencia
De acuerdo a una informe reciente publicado por el Instituto de Investigación CapGemini, titulado «IA y el enigma ético: cómo las organizaciones pueden construir sistemas de IA éticamente sólidos y ganar confianza», el uso ético de la IA se ha convertido en una preocupación importante para los líderes de TI en general, y la mayoría de los líderes de TI ahora expresan su preocupación por el posible uso indebido de los sistemas de IA. Aproximadamente 9 de cada 10 organizaciones de TI declararon que estaban al tanto de al menos un incidente en el que se crearon problemas éticos por la aplicación de un sistema de IA. Aproximadamente dos tercios de los ejecutivos de TI dijeron que estaban al tanto de los posibles sesgos discriminatorios en los sistemas de IA, y aproximadamente la mitad de todas las organizaciones de TI tienen una carta ética destinada a promover el desarrollo de la IA, en comparación con solo el cinco por ciento de las empresas de TI en 2019.
Si bien continúa la investigación sobre cómo los algoritmos de IA pueden hacerse más justos, muchos especialistas en ética y IA se están enfocando en los datos utilizados para entrenar la IA. A medida que los algoritmos de IA se vuelven más ubicuos y estandarizados, el enfoque se desplaza hacia la adquisición de los datos necesarios para entrenar modelos.
Hay una multitud de formas de reducir el sesgo de datos en los algoritmos de IA. Algunas técnicas implican realizar ajustes en el modelo o en los datos de entrenamiento a medida que el modelo se entrena. Estas técnicas son técnicas de corrección de sesgo «en procesamiento». Esto incluye el uso de técnicas de entrenamiento antagónicas, que es donde se controla alguna característica/variable sensible (como el sexo o la raza) al penalizar la capacidad del modelo para hacer predicciones relacionadas con la característica en cuestión. Esto se hace al mismo tiempo que se intenta minimizar el error del modelo. Por el contrario, centrarse en eliminar el sesgo del conjunto de datos es una técnica de preprocesamiento. Los datos de entrenamiento para los modelos de aprendizaje automático a menudo se etiquetan manualmente, y la aplicación de blockchain podría ayudar a las empresas a rastrear el proceso de etiquetado de sus datos para garantizar que sus conjuntos de datos sean representativos.
Unbiased busca blockchain para generar una cultura de transparencia dentro de los conjuntos de datos y los mercados de datos. La mayoría de las herramientas que se utilizan para generar conjuntos de datos para sistemas de inteligencia artificial y algoritmos de aprendizaje automático están centralizadas y, debido a esto, a menudo carecen de transparencia. Unbiased tiene como objetivo aprovechar la naturaleza de blockchain para registrar las acciones que tienen lugar en su mercado de datos, que incluye el intercambio de datos, la ecuación de tareas y proyectos, y las contribuciones de los trabajadores. El objetivo es que la naturaleza descentralizada de la cadena de bloques de Telos facilite la transparencia, lo que permite a los usuarios obtener información crítica sobre la naturaleza de su ciencia de datos. Los usuarios podrán validar sus conjuntos de datos y determinar si se han realizado anotaciones con respecto a ciertos principios éticos, como la equidad y la privacidad.
Según el arquitecto jefe de Telos Blockchain, la intersección de la IA/aprendizaje automático con la cadena de bloques puede dar lugar a nuevos métodos transformadores de trabajo con datos. Como Horn fue citado por AIthority:
«Unbiased mostrará a estas industrias cómo el registro de datos en una cadena de bloques de alto rendimiento y sin cargo como Telos puede agregar transparencia, inmutabilidad, micropagos y gobernanza a sus productos en beneficio de todas las partes interesadas».
Más allá de la transparencia de los datos de entrenamiento, algunos científicos e investigadores han impulsó una mayor transparencia en algoritmos, modelos y código. Un equipo internacional de científicos hizo un llamado a las revistas científicas para que los investigadores de informática cumplan con estándares más altos de transparencia. Los investigadores argumentaron que una mayor transparencia con respecto a los modelos y códigos de IA no solo ayudaría a la reproducibilidad de los estudios, sino que también ayudaría a la colaboración entre grupos de investigación. Muchos estudios científicos no se pueden reproducir, y este es un problema aún mayor para los estudios centrados en la IA que dejan de lado materiales críticos. En el futuro, blockchain podría incluso utilizarse para mejorar el seguimiento y la evaluación de la investigación en el campo de la IA.