Un grupo de investigadores del Instituto Tecnológico de Massachusetts (MIT) han desarrollado una taxonomía para ayudar a los desarrolladores a crear características que ayuden a mejorar la interpretabilidad de los modelos de aprendizaje automático, así como unas descripciones técnicas de ingeniería de funciones que un desarrollador puede emplear para hacer que las funciones sean más interpretables para una audiencia específica.
Los métodos de explicación que ayudan a los usuarios a comprender y confiar en los modelos de aprendizaje automático a menudo describen en qué medida ciertas características utilizadas en el modelo contribuyen a su predicción.
Para construir la taxonomía, los investigadores definieron propiedades que hacen que las características sean interpretables para cinco tipos de usuarios, desde expertos en inteligencia artificial hasta personas afectadas por la predicción de un modelo de aprendizaje automático. También ofrecen instrucciones sobre cómo los creadores de modelos pueden transformar las características en formatos que serán más fáciles de comprender para un usuario.
Esperan que su trabajo inspire a los constructores de modelos a considerar el uso de características interpretables desde el comienzo del proceso de desarrollo, en lugar de intentar trabajar hacia atrás y centrarse en la explicación después del hecho.
Características interpretables
Las características son variables independientes que alimentan a los modelos de aprendizaje automático, hacen referencia a lo que un programa debe aprender para solucionar un problema en concreto. Los científicos de datos normalmente seleccionan y elaboran a mano características para el modelo, y se enfocan principalmente en garantizar que las características se desarrollen para mejorar la precisión del modelo, no en si un usuario que debe tomar una decisión puede entenderlas.
Por su parte, la ingeniería de características es un proceso en el que los científicos de datos transforman los datos en un formato que los modelos de aprendizaje automático pueden procesar, utilizando técnicas como la agregación de datos o la normalización de valores. La mayoría de los modelos no pueden procesar datos categóricos a menos que se conviertan a un código numérico. Estas transformaciones a menudo son casi imposibles de entender por los usuarios.
Los investigadores están desarrollando un sistema que permite a un desarrollador de modelos manejar las transformaciones de características complicadas de una manera más eficiente, para crear explicaciones centradas en el ser humano para modelos de aprendizaje automático. Este nuevo sistema también convertirá algoritmos diseñados para explicar conjuntos de datos listos para modelos en formatos que puedan ser entendidos por los tomadores de decisiones.