Biblioteca93.141 documentos en línea

Artículo

Learning from Demonstrations and Human Evaluative Feedbacks: Handling Sparsity and Imperfection Using Inverse Reinforcement Learning ApproachAprendizaje a partir de demostraciones y retroalimentación evaluativa humana: Manejo de la escasez y la imperfección mediante un enfoque de aprendizaje por refuerzo inverso

Resumen

La programacin mediante demostraciones es uno de los mtodos ms eficaces de transferencia de conocimientos para desarrollar sistemas avanzados de aprendizaje, siempre que los profesores ofrezcan demostraciones abundantes y correctas, y los alumnos las perciban correctamente. Sin embargo, las demostraciones son y en casi todos los problemas del mundo real. Se necesita informacin complementaria para compensar estas deficiencias de las demostraciones. En este trabajo, nos centramos en la programacin mediante una combinacin de y demostraciones y un nmero limitado de retroalimentaciones evaluativas binarias, en las que el alumno utiliza sus propias experiencias evaluadas como nuevas demostraciones en un mtodo extendido de aprendizaje por refuerzo inverso. Esto proporciona al aprendiz una generalizacin ms amplia y menos arrepentimiento, as como robustez frente a la escasez y la no optimalidad en las demostraciones y retroalimentaciones. Nuestro mtodo alivia la carga poco realista de los profesores de proporcionar demostraciones ptimas y abundantes. El empleo de una retroalimentacin evaluativa, que es fcil de proporcionar para los profesores, ofrece la oportunidad de corregir el comportamiento de los alumnos en un entorno social interactivo sin necesidad de que los profesores conozcan y utilicen su propia funcin de recompensa precisa. Aqu, mejoramos el aprendizaje por refuerzo inverso () para estimar la funcin de recompensa utilizando una mezcla de demostraciones no ptimas y dispersas y retroalimentaciones evaluativas. Nuestro mtodo, denominado de demostracin y crtica humana (), consta de dos fases. En primer lugar, el profesor proporciona algunas demostraciones para que el alumno inicialice su poltica. A continuacin, el alumno interacta con el entorno y el profesor proporciona feedbacks evaluativos binarios. Teniendo en cuenta posibles inconsistencias y errores en la emisin y recepcin de feedbacks, el alumno revisa la funcin de recompensa estimada resolviendo un nico problema de optimizacin. El mtodo est concebido para manejar errores y escasez en las demostraciones y retroalimentaciones y puede generalizar diferentes combinaciones de estas dos fuentes de experiencia. Aplicamos nuestro mtodo a tres dominios: una tarea de navegacin simulada, un problema de conduccin de coches simulado con interacciones humanas y un experimento de navegacin de un robot mvil. Los resultados indican que el mtodo mejora significativamente el proceso de aprendizaje all donde los mtodos estndar fallan y los mtodos de aprendizaje a partir de feedbacks () tienen un alto nivel de arrepentimiento. Adems, el funciona bien en diferentes niveles de sparsity y optimalidad de las demostraciones de los profesores y feedbacks, donde otros mtodos del estado del arte fallan.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento