
Imagen de IA generada por ChatGPT
2026-03-10
Mejorando la capacidad de los modelos de IA para explicar sus predicciones
En entornos de alta importancia, como el diagnóstico médico, los usuarios a menudo quieren saber qué llevó a un modelo de visión por computadora a hacer una determinada predicción, para poder decidir si confiar en su resultado.
El modelado por embudo de conceptos es un método que permite a los sistemas de inteligencia artificial explicar su proceso de toma de decisiones. Estos métodos obligan a un modelo de aprendizaje profundo a usar un conjunto de conceptos, que pueden ser comprendidos por humanos, para hacer una predicción. En una nueva investigación, científicos de la computación del MIT desarrollaron un método que incentiva al modelo a lograr una mejor precisión y explicaciones más claras y concisas.
Los conceptos que usa el modelo
normalmente son definidos previamente por expertos humanos. Por ejemplo, un clínico podría sugerir el uso de conceptos como “puntos marrones agrupados” y “pigmentación jaspeada” para predecir que una imagen médica muestra un melanoma.
Pero los conceptos definidos previamente podrían ser irrelevantes o carecer de suficiente detalle para una tarea específica, reduciendo la precisión del modelo. El nuevo método extrae conceptos que el modelo ya aprendió durante su entrenamiento para realizar esa tarea en particular, y obliga al modelo a usar esos conceptos, produciendo mejores explicaciones que los modelos estándar de embudo de conceptos.
El enfoque utiliza un par de modelos especializados de aprendizaje automático que extraen automáticamente el conocimiento de un modelo objetivo y lo traducen en conceptos en lenguaje sencillo. Al final, su técnica puede convertir cualquier modelo de visión por computadora previamente entrenado en uno que pueda usar conceptos para explicar su razonamiento.
“En cierto sentido, queremos poder leer la mente de estos modelos de visión por computadora. Un modelo de embudo de conceptos es una forma para que los usuarios sepan qué está pensando el modelo y por qué hizo una determinada predicción. Debido a que nuestro método usa mejores conceptos, puede conducir a una mayor precisión y, en última instancia, mejorar la responsabilidad de los modelos de IA de caja negra”, dice el autor principal Antonio De Santis, estudiante de posgrado en la Universidad Politécnica de Milán, que completó esta investigación mientras era estudiante visitante de posgrado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT.
Lo acompañan en un artículo sobre el trabajo Schrasing Tong SM ’20, PhD ’26; Marco Brambilla, profesor de informática e ingeniería en la Universidad Politécnica de Milán; y la autora principal Lalana Kagal, investigadora principal en CSAIL. La investigación será presentada en la Conferencia Internacional sobre Representaciones de Aprendizaje.
Construyendo un embudo mejor
Los modelos de embudo de conceptos (CBM, por sus siglas en inglés) son un enfoque popular para mejorar la explicabilidad de la IA. Estas técnicas añaden un paso intermedio al forzar a un modelo de visión por computadora a predecir los conceptos presentes en una imagen, para luego usar esos conceptos para hacer una predicción final.
Este paso intermedio, o “embudo”, ayuda a los usuarios a entender el razonamiento del modelo.
Por ejemplo, un modelo que identifica especies de aves podría seleccionar conceptos como “piernas amarillas” y “alas azules” antes de predecir una golondrina común.
Pero como estos conceptos suelen ser generados con anticipación por humanos o por grandes modelos de lenguaje (LLM), podrían no ajustarse a la tarea específica. Además, incluso si se provee un conjunto de conceptos predefinidos, el modelo a veces utiliza información aprendida no deseada, lo que se conoce como fuga de información.
“Estos modelos son entrenados para maximizar el rendimiento, por lo que el modelo podría usar en secreto conceptos que desconocemos,” explica De Santis.
Los investigadores del MIT tuvieron una idea diferente: dado que el modelo ha sido entrenado con una gran cantidad de datos, puede haber aprendido los conceptos necesarios para generar predicciones precisas para la tarea particular. Buscaron construir un CBM extrayendo este conocimiento existente y convirtiéndolo en texto comprensible para humanos.
En el primer paso de su método, un modelo especializado de aprendizaje profundo llamado autoencoder escaso selecciona las características más relevantes que el modelo aprendió y las reconstruye en un puñado de conceptos. Luego, un LLM multimodal describe cada concepto en lenguaje sencillo.
Este LLM multimodal también anota las imágenes del conjunto de datos identificando qué conceptos están presentes y cuáles ausentes en cada imagen. Los investigadores usan este conjunto de datos anotado para entrenar un módulo de embudo de conceptos para reconocer los conceptos.
Incorporan este módulo en el modelo objetivo, obligándolo a hacer predicciones usando sólo el conjunto de conceptos aprendidos que los investigadores extrajeron.
Controlando los conceptos
Superaron muchos desafíos mientras desarrollaban este método, desde asegurar que el LLM anotara los conceptos correctamente hasta determinar si el autoencoder escaso había identificado conceptos comprensibles para humanos.
Para evitar que el modelo use conceptos desconocidos o no deseados, lo restringen a usar sólo cinco conceptos para cada predicción. Esto también obliga al modelo a elegir los conceptos más relevantes y hace que las explicaciones sean más comprensibles.
Cuando compararon su enfoque con los CBM de última generación en tareas como la predicción de especies de aves e identificación de lesiones cutáneas en imágenes médicas, su método logró la mayor precisión mientras proporcionaba explicaciones más precisas.
Su enfoque también generó conceptos que eran más aplicables a las imágenes del conjunto de datos.
“Hemos demostrado que extraer conceptos del modelo original puede superar a otros CBM, pero aún existe un compromiso entre interpretabilidad y precisión que debe ser abordado. Los modelos de caja negra que no son interpretables aún superan a los nuestros,” dice De Santis.
En el futuro, los investigadores quieren estudiar soluciones potenciales al problema de la fuga de información, quizás añadiendo módulos adicionales de embudo de conceptos para que los conceptos no deseados no puedan filtrarse. También planean ampliar su método usando un LLM multimodal más grande para anotar un conjunto de datos de entrenamiento mayor, lo que podría mejorar el desempeño.
“Estoy entusiasmado con este trabajo porque impulsa la IA interpretable en una dirección muy prometedora y crea un puente natural hacia la IA simbólica y los grafos de conocimiento,” dice Andreas Hotho, profesor y jefe de la Cátedra de Ciencia de Datos en la Universidad de Würzburg, quien no participó en este trabajo. “Al derivar embudos de conceptos de los propios mecanismos internos del modelo en lugar de sólo a partir de conceptos definidos por humanos, ofrece un camino hacia explicaciones que son más fieles al modelo y abre muchas oportunidades para trabajos futuros con conocimiento estructurado.”
Esta investigación fue apoyada por la Beca Doctoral Progetto Rocca, el Ministerio Italiano de Universidad e Investigación bajo el Plan Nacional de Recuperación y Resiliencia, Thales Alenia Space, y la Unión Europea bajo el proyecto NextGenerationEU.

MIT
Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...