Noticias Actualidad en procesos industriales

Dele visibilidad a su trayectoria académica

Participe en la convocatoria de trabajos inéditos de Virtual Pro.

Publicar Ahora

2022-07-01Incorporación de la explicabilidad en los componentes de los modelos de aprendizaje automático

MIT |Los métodos de explicación que ayudan a los usuarios a comprender y confiar en los modelos de aprendizaje automático a menudo describen en qué medida ciertas características utilizadas en el modelo contribuyen a su predicción. Por ejemplo, si un modelo predice el riesgo de que un paciente desarrolle una enfermedad cardíaca, es posible que un médico quiera saber con qué fuerza influyen los datos de la frecuencia cardíaca del paciente en esa predicción.

Pero si esas características son tan complejas o enrevesadas que el usuario no puede entenderlas, ¿el método de explicación sirve de algo?

Los investigadores del MIT se esfuerzan por mejorar la interpretabilidad de las funciones para que los responsables de la toma de decisiones se sientan más cómodos utilizando los resultados de los modelos de aprendizaje automático. Basándose en años de trabajo de campo, desarrollaron una taxonomía para ayudar a los desarrolladores a crear características que serán más fáciles de entender para su público objetivo.

"Descubrimos que en el mundo real, a pesar de que estábamos usando formas de vanguardia para explicar los modelos de aprendizaje automático, todavía hay mucha confusión derivada de las funciones, no del modelo en sí", dice. Alexandra Zytek, estudiante de doctorado en ingeniería eléctrica e informática y autora principal de un artículo que presenta la taxonomía .

Para construir la taxonomía, los investigadores definieron propiedades que hacen que las características sean interpretables para cinco tipos de usuarios, desde expertos en inteligencia artificial hasta personas afectadas por la predicción de un modelo de aprendizaje automático. También ofrecen instrucciones sobre cómo los creadores de modelos pueden transformar las características en formatos que serán más fáciles de comprender para un laico.

Esperan que su trabajo inspire a los constructores de modelos a considerar el uso de características interpretables desde el comienzo del proceso de desarrollo, en lugar de intentar trabajar hacia atrás y centrarse en la explicación después del hecho.

Los coautores del MIT incluyen a Dongyu Liu, un postdoctorado; la profesora visitante Laure Berti-Équille, directora de investigación del IRD; y el autor principal Kalyan Veeramachaneni, científico investigador principal en el Laboratorio de Sistemas de Información y Decisión (LIDS) y líder del grupo Data to AI. A ellos se une Ignacio Arnaldo, científico de datos principal de Corelight. La investigación se publica en la edición de junio del Grupo de Interés Especial de la Asociación de Maquinaria Informática sobre Descubrimiento de Conocimiento y Minería de Datos Explorations Newsletter revisado por pares.

Lecciones del mundo real

Las características son variables de entrada que se alimentan a los modelos de aprendizaje automático; generalmente se extraen de las columnas en un conjunto de datos. Los científicos de datos normalmente seleccionan y elaboran a mano características para el modelo, y se enfocan principalmente en garantizar que las características se desarrollen para mejorar la precisión del modelo, no en si un tomador de decisiones puede entenderlas, explica Veeramachaneni.

Durante varios años, él y su equipo han trabajado con los responsables de la toma de decisiones para identificar los desafíos de usabilidad del aprendizaje automático. Estos expertos en dominios, la mayoría de los cuales carecen de conocimientos de aprendizaje automático, a menudo no confían en los modelos porque no comprenden las características que influyen en las predicciones.

Para un proyecto, se asociaron con médicos en la UCI de un hospital que utilizaron el aprendizaje automático para predecir el riesgo de que un paciente enfrente complicaciones después de una cirugía cardíaca. Algunas características se presentaron como valores agregados, como la tendencia de la frecuencia cardíaca de un paciente a lo largo del tiempo. Si bien las características codificadas de esta manera estaban "listas para el modelo" (el modelo podía procesar los datos), los médicos no entendían cómo se calculaban. Preferirían ver cómo estas características agregadas se relacionan con los valores originales, para poder identificar anomalías en la frecuencia cardíaca de un paciente, dice Liu.

Por el contrario, un grupo de científicos del aprendizaje prefirió características agregadas. En lugar de tener una función como "número de publicaciones que un estudiante hizo en los foros de discusión", preferirían tener funciones relacionadas agrupadas y etiquetadas con términos que entendían, como "participación".

“Con la interpretabilidad, una talla no sirve para todos. Cuando vas de un área a otra, hay diferentes necesidades. Y la interpretabilidad en sí misma tiene muchos niveles”, dice Veeramachaneni.

La idea de que una talla no sirve para todos es clave para la taxonomía de los investigadores. Definen propiedades que pueden hacer que las características sean más o menos interpretables para diferentes tomadores de decisiones y describen qué propiedades son probablemente las más importantes para usuarios específicos.

Por ejemplo, los desarrolladores de aprendizaje automático pueden centrarse en tener características que sean compatibles con el modelo y predictivas, lo que significa que se espera que mejoren el rendimiento del modelo.

Por otro lado, los tomadores de decisiones sin experiencia en aprendizaje automático podrían estar mejor atendidos por características redactadas por humanos, lo que significa que se describen de una manera que es natural para los usuarios y comprensible, lo que significa que se refieren a usuarios de métricas del mundo real. puede razonar sobre.

“La taxonomía dice, si estás creando características interpretables, ¿hasta qué nivel son interpretables? Es posible que no necesite todos los niveles, según el tipo de expertos de dominio con los que esté trabajando”, dice Zytek.

Poniendo la interpretabilidad primero

Los investigadores también describen técnicas de ingeniería de funciones que un desarrollador puede emplear para hacer que las funciones sean más interpretables para una audiencia específica.

La ingeniería de características es un proceso en el que los científicos de datos transforman los datos en un formato que los modelos de aprendizaje automático pueden procesar, utilizando técnicas como la agregación de datos o la normalización de valores. La mayoría de los modelos tampoco pueden procesar datos categóricos a menos que se conviertan a un código numérico. Estas transformaciones a menudo son casi imposibles de desempacar para los laicos.

La creación de funciones interpretables podría implicar deshacer parte de esa codificación, dice Zytek. Por ejemplo, una técnica común de ingeniería de características organiza tramos de datos para que todos contengan la misma cantidad de años. Para que estas características sean más interpretables, se podrían agrupar los rangos de edad usando términos humanos, como bebé, niño pequeño, niño y adolescente. O en lugar de usar una función transformada como la frecuencia del pulso promedio, una función interpretable podría ser simplemente los datos reales de la frecuencia del pulso, agrega Liu.

“En muchos dominios, la compensación entre las características interpretables y la precisión del modelo es en realidad muy pequeña. Cuando trabajábamos con evaluadores de bienestar infantil, por ejemplo, volvimos a entrenar el modelo utilizando solo funciones que cumplían con nuestras definiciones de interpretabilidad, y la disminución del rendimiento fue casi insignificante”, dice Zytek.

A partir de este trabajo, los investigadores están desarrollando un sistema que permite a un desarrollador de modelos manejar transformaciones de características complicadas de una manera más eficiente, para crear explicaciones centradas en el ser humano para modelos de aprendizaje automático. Este nuevo sistema también convertirá algoritmos diseñados para explicar conjuntos de datos listos para modelos en formatos que puedan ser entendidos por los tomadores de decisiones.

MIT
Autor
MIT

Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...


2022-08-17
En la vanguardia de la innovación espacial

El candidato a doctorado en aeronáutica y astronáutica, George Lordos, desarrolla tecnologías para permitir la vida en Marte.

2022-08-16
Átomos ultrafríos “vestidos con luz” para simular una teoría física

Investigadores del instituto ICFO y la Universidad Autónoma de Barcelona han logrado demostrar interacciones quirales (no superponibles con su imagen especular) entre átomos enfriados a las temperaturas más bajas del universo. Tras aplicar luz láser, el resultado es un sistema cuántico que se comporta de forma distinta a su imagen en el espejo y se describe con una teoría de gauge, uno de los pilares de la física moderna.

2022-08-16
Empleos para la Web3: aprende a ser un ´jefe de vibras´

Desde hace unos años, el organigrama de las empresas está repleto de altos cargos en forma de acrónimos que no siempre son fáciles de descifrar. ¿Sabrías diferenciar a un CEO de un COO, un CMO, un CFO, un CTO o un CDO? Dejemos eso para otro momento. Porque a esta lista se va a unir, más pronto que tarde, el CVO. CVO es el acrónimo de Chief Vibes Officer, es decir, Jefe de vibraciones, Director de Vibraciones o jefe de vibras para los amigos. ¿Todavía no hay uno en tu empresa?

2022-08-16
UNAL dio apertura a primera Cátedra Nacional de Divulgación y Periodismo Científico del país

Con 65 estudiantes de pre y posgrado inscritos en sus nueve sedes, la Universidad Nacional de Colombia (UNAL) inauguró la primera Cátedra Nacional de Divulgación y Periodismo Científico del país, un ejercicio académico colaborativo que permitirá desarrollar prácticas y estrategias de divulgación científica y apropiación social del conocimiento a través del quehacer periodístico.

2022-08-15
Presentado un caso único de curación funcional del VIH en España

El último caso de controlador postratamiento de este virus aporta nueva luz sobre los mecanismos por los que determinadas personas pueden contenerlo después de tomar terapia antirretroviral. Se trata de una paciente que, tras la supresión de esta medicación, tiene un dominio absoluto de la replicación del VIH, mantenido durante más de 15 años, con carga viral indetectable.

2022-08-14
Poder, leyes y planificación

El urbanista del MIT, Justin Steil, estudia cómo se utilizan las leyes y las políticas para replicar las divisiones sociales en el uso de la tierra.