Noticias Actualidad en procesos industriales

Dele visibilidad a su trayectoria académica

Participe en la convocatoria de trabajos inéditos de Virtual Pro.

Publicar Ahora

2021-03-09Un algoritmo ayuda a los sistemas de inteligencia artificial a esquivar las entradas

MIT |El método se basa en técnicas de juego para ayudar a los vehículos autónomos a navegar en el mundo real, donde las señales pueden ser imperfectas.

En un mundo perfecto, lo que se ve es lo que se obtiene. Si así fuera, el trabajo de los sistemas de inteligencia artificial sería refrescantemente sencillo.

Por ejemplo, los sistemas para evitar colisiones en los coches autoconducidos. Si se pudiera confiar totalmente en la información visual de las cámaras de a bordo, un sistema de inteligencia artificial podría asignar directamente esa información a una acción apropiada -girar a la derecha, girar a la izquierda o seguir recto- para evitar atropellar a un peatón que sus cámaras vean en la carretera.

Pero, ¿y si hay un fallo en las cámaras que desplaza ligeramente la imagen unos pocos píxeles? Si el coche confiara ciegamente en las llamadas "entradas adversas", podría tomar medidas innecesarias y potencialmente peligrosas.

Un nuevo algoritmo de aprendizaje profundo desarrollado por investigadores del MIT está diseñado para ayudar a las máquinas a navegar en el mundo real e imperfecto, creando un saludable "escepticismo" sobre las mediciones y entradas que reciben.

El equipo combinó un algoritmo de aprendizaje por refuerzo con una red neuronal profunda, ambos utilizados por separado para entrenar a los ordenadores en videojuegos como el Go y el ajedrez, para construir un enfoque que denominan CARRL, por sus siglas en inglés Certified Adversarial Robustness for Deep Reinforcement Learning.

Los investigadores probaron el método en varios escenarios, entre ellos una prueba simulada para evitar colisiones y el videojuego Pong, y descubrieron que CARRL funcionaba mejor -evitando colisiones y ganando más partidas de Pong- que las técnicas estándar de aprendizaje automático, incluso frente a entradas inciertas y adversarias.

"A menudo se piensa que un adversario es alguien que piratea el ordenador, pero también puede ser que los sensores no sean buenos o que las mediciones no sean perfectas, como suele ocurrir", afirma Michael Everett, postdoctorado en el Departamento de Aeronáutica y Astronáutica (AeroAstro) del MIT. Nuestro enfoque ayuda a tener en cuenta esa imperfección y a tomar una decisión segura". En cualquier ámbito crítico para la seguridad, es un enfoque importante en el que hay que pensar".

Everett es el autor principal de un estudio que describe el nuevo enfoque, que aparece en la revista Transactions on Neural Networks and Learning Systems del IEEE. El estudio se originó a partir de la tesis de máster del estudiante de doctorado del MIT Björn Lütjens y fue asesorado por el profesor de AeroAstro del MIT Jonathan How.

Posibles realidades

Para que los sistemas de IA sean robustos frente a las entradas adversas, los investigadores han intentado implementar defensas para el aprendizaje supervisado. Tradicionalmente, una red neuronal se entrena para asociar etiquetas o acciones específicas con entradas dadas. Por ejemplo, una red neuronal que recibe miles de imágenes etiquetadas como gatos, junto con imágenes etiquetadas como casas y perros calientes, debería etiquetar correctamente una nueva imagen como un gato.

En los sistemas de IA robustos, las mismas técnicas de aprendizaje supervisado podrían probarse con muchas versiones ligeramente alteradas de la imagen. Si la red llega a la misma etiqueta -gato- para todas las imágenes, hay muchas posibilidades de que, alterada o no, la imagen sea realmente de un gato, y la red es robusta ante cualquier influencia adversa.

Sin embargo, el análisis de todas las posibles alteraciones de la imagen es exhaustivo desde el punto de vista computacional y difícil de aplicar con éxito a tareas sensibles al tiempo, como la evitación de colisiones. Además, los métodos existentes tampoco identifican qué etiqueta usar, o qué acción tomar, si la red es menos robusta y etiqueta algunas imágenes de gato alteradas como una casa o un perrito caliente.

"Para utilizar las redes neuronales en escenarios críticos para la seguridad, teníamos que averiguar cómo tomar decisiones en tiempo real basadas en las peores hipótesis sobre estas posibles realidades", afirma Lütjens.

La mejor recompensa

El equipo se basó en el aprendizaje por refuerzo, otra forma de aprendizaje automático que no requiere asociar entradas etiquetadas con salidas, sino que pretende reforzar determinadas acciones en respuesta a ciertas entradas, basándose en la recompensa resultante. Este enfoque se utiliza normalmente para entrenar a los ordenadores a jugar y ganar juegos como el ajedrez y el Go.

El aprendizaje por refuerzo se ha aplicado sobre todo a situaciones en las que se supone que las entradas son verdaderas. Everett y sus colegas afirman que son los primeros en aportar "solidez certificable" a las entradas inciertas y adversas en el aprendizaje por refuerzo.

Su método, CARRL, utiliza un algoritmo de aprendizaje por refuerzo profundo ya existente para entrenar una red Q profunda, o DQN, una red neuronal con múltiples capas que, en última instancia, asocia una entrada con un valor Q, o nivel de recompensa.

El enfoque toma una entrada, como una imagen con un solo punto, y considera una influencia adversa, o una región alrededor del punto donde podría estar en realidad. Cada posición posible del punto dentro de esta región se hace pasar por un DQN para encontrar una acción asociada que dé lugar a la recompensa más óptima en el peor de los casos, basándose en una técnica desarrollada por la reciente estudiante de posgrado del MIT Tsui-Wei "Lily" Weng PhD ´20.

Un mundo adverso

En las pruebas realizadas con el videojuego Pong, en el que dos jugadores manejan palas a ambos lados de una pantalla para pasarse una pelota de un lado a otro, los investigadores introdujeron un "adversario" que tiraba de la pelota un poco más abajo de lo que realmente estaba. Descubrieron que el CARRL ganaba más partidos que las técnicas estándar, a medida que aumentaba la influencia del adversario.

"Si sabemos que no se debe confiar en una medición exacta, y que la pelota podría estar en cualquier lugar dentro de una determinada región, entonces nuestro enfoque le dice al ordenador que debe poner la pala en el centro de esa región, para asegurarse de que golpeamos la pelota incluso en la peor desviación", dice Everett.pong

En una partida de Pong, los investigadores del MIT muestran que, con mediciones perfectas, un algoritmo de aprendizaje profundo estándar es capaz de ganar la mayoría de las partidas (izquierda). Pero en un escenario en el que las mediciones están influenciadas por un "adversario" que desplaza la posición de la bola unos pocos píxeles (centro), el ordenador vence fácilmente al algoritmo estándar. El nuevo algoritmo del equipo, CARRL, se enfrenta a este tipo de ataques de adversarios, o manipulaciones de las mediciones, ganando al ordenador, aunque no sepa exactamente dónde está la pelota. Cortesía de los investigadores

El método fue igualmente robusto en las pruebas de evitación de colisiones, en las que el equipo simuló que un agente azul y otro naranja intentaban cambiar de posición sin colisionar. A medida que el equipo perturbaba la observación de la posición del agente azul por parte del agente naranja, CARRL dirigía al agente naranja alrededor del otro agente, tomando una mayor distancia a medida que el adversario se hacía más fuerte y la posición del agente azul se hacía más incierta.

Llegó un momento en el que el CARRL se volvió demasiado conservador, haciendo que el agente naranja asumiera que el otro agente podía estar en cualquier lugar de su entorno, y en respuesta evitara completamente su destino. Este conservadurismo extremo es útil, dice Everett, porque los investigadores pueden utilizarlo como límite para ajustar la solidez del algoritmo. Por ejemplo, el algoritmo podría considerar una desviación menor, o una región de incertidumbre, que permitiera al agente obtener una recompensa elevada y llegar a su destino.

Además de superar la imperfección de los sensores, Everett afirma que el CARRL puede ser un comienzo para ayudar a los robots a manejar con seguridad las interacciones imprevisibles en el mundo real.

"Las personas pueden ser adversas, como ponerse delante de un robot para bloquear sus sensores, o interactuar con ellos, no necesariamente con las mejores intenciones", dice Everett. "¿Cómo puede un robot pensar en todas las cosas que la gente podría intentar hacer y tratar de evitarlas? ¿De qué tipo de modelos adversos queremos defendernos? Eso es algo en lo que estamos pensando".

Esta investigación ha sido apoyada, en parte, por Ford Motor Company como parte de la Alianza Ford-MIT.

MIT
Autor
MIT

Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT, Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...


2021-06-14
Variación genética mejoraría adaptación del frijol al calor

Con el cruzamiento del frijol común y una especie silvestre adaptada a los desiertos se creó una población de mapeo genético que permite analizar la tolerancia al calor, la cual incrementaría la capacidad de adaptación a las condiciones ambientales del frijol común.

2021-06-13
Este polímero a base de plantas que imita las propiedades de la seda de araña podría reemplazar a los plásticos de un solo uso

Utilizando un nuevo enfoque para ensamblar proteínas vegetales en materiales que imitan la seda a nivel molecular, investigadores de Cambridge han creado un polímero a base de plantas que imita las propiedades de la seda de araña y podría reemplazar a los plásticos de un solo uso en muchos productos.

2021-06-11
El contenido es solo la mitad del desafío cuando se trata de enseñar

Para muchos profesionales con experiencia en un área específica, enseñar su tema podría parecerles una tarea muy sencilla, ya que generalmente, cuando se preparan para enseñar el contenido en el cual son expertos, asumen que exponer el material a los alumnos se traducirá en resultados efectivos de aprendizaje. Sin embargo, hay mucha teoría y ciencia detrás del proceso de enseñanza que sugiere que las experiencias de aprendizaje deben de ser diseñadas, y esto a su vez se logra a través del diseño instruccional.

2021-06-11
Hemos creado la primera forma de vida resistente a casi todos los virus

“Te confesaré algo, no soy buen escritor. Soy un buen reescritor. Pienso en lo nuestro, nuestra historia, en todo lo que salió mal y esta vez podría hacerlo mucho mejor". Esta es una frase de Greg Kinnear en Un invierno en la playa, pero podría haberla dicho cualquier investigador en ingeniería genética. Hemos escrito formas de vida desde la nada, es cierto; pero lo que se nos da realmente bien es reescribirlas.

2021-06-09
Logran almacenar un único fotón en dos memorias cuánticas alejadas

Hasta ahora se había conseguido por separado el entrelazamiento de memorias cuánticas y el almacenamiento de fotones dentro, pero investigadores del Instituto de Ciencias Fotónicas han conseguido todo a la vez: mantener durante 25 microsegundos un fotón, en estado de superposición cuántica, en dos dispositivos separados a 10 m de distancia. La técnica es compatible con la red de telecomunicaciones actual y ayudará al desarrollo de los repetidores cuánticos.

2021-06-09
Voces de Maestros: trabajadores de primera línea

Maestros que dejan mensajes motivadores en las mesas de sus alumnos antes de un examen; magia para explicar las matemáticas y la física; hacer que los estudiantes den clases al maestro; rodar un cortometraje; montar con ellos una obra de teatro que les cambia la vida; usar las redes sociales para enseñar literatura, con memes sobre Cien años de soledad… La calidad educativa de un maestro va mucho más allá de las aulas. Algunos consiguen dejar huella en la vida de los estudiantes con los que se cruzan y, con suerte, determinan su futuro para bien.