Ficha técnica

3 | 0

Ficha técnica
Metadata
Imprimir
Descargar
Reportar error

Artículo

Learning from Demonstrations and Human Evaluative Feedbacks: Handling Sparsity and Imperfection Using Inverse Reinforcement Learning ApproachAprendizaje a partir de demostraciones y retroalimentación evaluativa humana: Manejo de la escasez y la imperfección mediante un enfoque de aprendizaje por refuerzo inverso

Resumen

La programacin mediante demostraciones es uno de los mtodos ms eficaces de transferencia de conocimientos para desarrollar sistemas avanzados de aprendizaje, siempre que los profesores ofrezcan demostraciones abundantes y correctas, y los alumnos las perciban correctamente. Sin embargo, las demostraciones son y en casi todos los problemas del mundo real. Se necesita informacin complementaria para compensar estas deficiencias de las demostraciones. En este trabajo, nos centramos en la programacin mediante una combinacin de y demostraciones y un nmero limitado de retroalimentaciones evaluativas binarias, en las que el alumno utiliza sus propias experiencias evaluadas como nuevas demostraciones en un mtodo extendido de aprendizaje por refuerzo inverso. Esto proporciona al aprendiz una generalizacin ms amplia y menos arrepentimiento, as como robustez frente a la escasez y la no optimalidad en las demostraciones y retroalimentaciones. Nuestro mtodo alivia la carga poco realista de los profesores de proporcionar demostraciones ptimas y abundantes. El empleo de una retroalimentacin evaluativa, que es fcil de proporcionar para los profesores, ofrece la oportunidad de corregir el comportamiento de los alumnos en un entorno social interactivo sin necesidad de que los profesores conozcan y utilicen su propia funcin de recompensa precisa. Aqu, mejoramos el aprendizaje por refuerzo inverso () para estimar la funcin de recompensa utilizando una mezcla de demostraciones no ptimas y dispersas y retroalimentaciones evaluativas. Nuestro mtodo, denominado de demostracin y crtica humana (), consta de dos fases. En primer lugar, el profesor proporciona algunas demostraciones para que el alumno inicialice su poltica. A continuacin, el alumno interacta con el entorno y el profesor proporciona feedbacks evaluativos binarios. Teniendo en cuenta posibles inconsistencias y errores en la emisin y recepcin de feedbacks, el alumno revisa la funcin de recompensa estimada resolviendo un nico problema de optimizacin. El mtodo est concebido para manejar errores y escasez en las demostraciones y retroalimentaciones y puede generalizar diferentes combinaciones de estas dos fuentes de experiencia. Aplicamos nuestro mtodo a tres dominios: una tarea de navegacin simulada, un problema de conduccin de coches simulado con interacciones humanas y un experimento de navegacin de un robot mvil. Los resultados indican que el mtodo mejora significativamente el proceso de aprendizaje all donde los mtodos estndar fallan y los mtodos de aprendizaje a partir de feedbacks () tienen un alto nivel de arrepentimiento. Adems, el funciona bien en diferentes niveles de sparsity y optimalidad de las demostraciones de los profesores y feedbacks, donde otros mtodos del estado del arte fallan.

Autor:Mourad, Nafee; Ezzeddine, Ali; Nadjar Araabi, Babak; Nili Ahmadabadi, Majid.
Categoría:Ciencias aplicadas e interdisciplinarias
Subcategoría:Bioingeniería, biotecnología, nanotecnología y afines
Año de publicación:2020.
Editor:Hindawi

Tipo de documento:
Formato:pdf
Idioma:Inglés
Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no estï¿½ disponible para su tipo de suscripciï¿½n

DC.Title.spa

Learning from Demonstrations and Human Evaluative Feedbacks: Handling Sparsity and Imperfection Using Inverse Reinforcement Learning Approach

DC.Title.eng

Aprendizaje a partir de demostraciones y retroalimentación evaluativa humana: Manejo de la escasez y la imperfección mediante un enfoque de aprendizaje por refuerzo inverso

DC.Creator

Mourad, Nafee; Ezzeddine, Ali; Nadjar Araabi, Babak; Nili Ahmadabadi, Majid

DC.Subject.snpi.spa

Trituradora robÃ³tica AnÃ¡lisis cinemÃ¡tico Robots de articulaciÃ³n flexible Robot autÃ³nomo ArticulaciÃ³n robÃ³tica

DC.Subject.snpi.eng

Robotic shredder Kinematic analysis Flexible joint robots Robot autonomous Robotic articulation

DC.Subject.spa

Programación; Demostraciones; Realimentaciones; Aprendizaje por refuerzo inverso; Método; Evaluaciones

DC.Subject.eng

Programming; Demonstrations; Feedbacks; Inverse reinforcement learning; Method; Evaluations

DC.Description.spa

DC.Source

https://www.hindawi.com/journals/jr/about/2020/3849309

DC.Identifier.virtualpro

http://www.revistavirtualpro.com/biblioteca/aprendizaje-por-refuerzo-inverso-con-retroalimentacion-evaluativa-humana-90693

DC.Identifier.issn-isbn

ISSN:1687-9600

DC.Identifier.citacion

Revista Virtual Pro, ,

DC.Language

Inglés

DC.Relation

DC.Publisher

Hindawi

DC.Contributor

DC.Rights

Derechos de autor:6

DC.Date

2020

DC.Type

Artículo

DC.Format

pdf

DC.Identifier.file

https://downloads.hindawi.com/journals/jr/2020/3849309.pdf

Ficha técnica
Metadata
Imprimir
Descargar
Reportar error

Información del documento

Titulo:Learning from Demonstrations and Human Evaluative Feedbacks: Handling Sparsity and Imperfection Using Inverse Reinforcement Learning Approach
Autor:Mourad, Nafee; Ezzeddine, Ali; Nadjar Araabi, Babak; Nili Ahmadabadi, Majid
Tipo:Artículo
Año:2020
Idioma:Inglés
Editor:Hindawi
Materias:Trituradora robÃ³tica AnÃ¡lisis cinemÃ¡tico Robots de articulaciÃ³n flexible Robot autÃ³nomo ArticulaciÃ³n robÃ³tica
Descarga:0

Biblioteca93.141 documentos en línea

Ficha técnica

Resumen

Cómo citar el documento

Este contenido no estï¿½ disponible para su tipo de suscripciï¿½n

Información del documento

Cómo citar el documento

Documentos relacionados

Recursos

Infografías

Generalidades de Condensadores - Intro

Centrifugación

La historia del chocolate

Obtención de la carne

IA Aplicaciones industriales

Construye una fracción

Parejas de fracciones

Videos

Seminario web: Impulsar la creación de empleo rural y el crecimiento económico

Parques de ecoinnovación: eficiencia en el uso de recursos, simbiosis industrial y ecoinnovación

La innovación de los procesos de negocio para conseguir la transformación digital de su organización

Ejemplos del método directo de elementos de frontera. Lección 6

Aditec - Webinar PTAR: Degradación de Contaminantes Orgánicos

Valorización energética de residuos en fábricas de cemento

Introducción de la investigación en nanotecnología y electrospinning de nanofibras compuestas de polímero a estudiantes de secundaria

Documentos más descargados

2022-06-21
Adaptación del mundo cibernético a los sistemas productivos

Virtual Pro

Virtual Plant

Actualidad

Investigación

Suscripción

Publicidad

Virtual Pro | Procesos Industriales

Biblioteca93.141 documentos en línea

Ficha técnica

Resumen

Cómo citar el documento

Este contenido no estï¿½ disponible para su tipo de suscripciï¿½n

Información del documento

Cómo citar el documento

Documentos relacionados

Recursos

Infografías

Generalidades de Condensadores - Intro

Centrifugación

La historia del chocolate

Obtención de la carne

IA Aplicaciones industriales

Construye una fracción

Parejas de fracciones

Videos

Seminario web: Impulsar la creación de empleo rural y el crecimiento económico

Parques de ecoinnovación: eficiencia en el uso de recursos, simbiosis industrial y ecoinnovación

La innovación de los procesos de negocio para conseguir la transformación digital de su organización

Ejemplos del método directo de elementos de frontera. Lección 6

Aditec - Webinar PTAR: Degradación de Contaminantes Orgánicos

Valorización energética de residuos en fábricas de cemento

Introducción de la investigación en nanotecnología y electrospinning de nanofibras compuestas de polímero a estudiantes de secundaria

Documentos más descargados

2022-06-21Adaptación del mundo cibernético a los sistemas productivos

Virtual Pro

Virtual Plant

Actualidad

Investigación

Suscripción

Publicidad

Virtual Pro | Procesos Industriales

2022-06-21
Adaptación del mundo cibernético a los sistemas productivos