La programacin mediante demostraciones es uno de los mtodos ms eficaces de transferencia de conocimientos para desarrollar sistemas avanzados de aprendizaje, siempre que los profesores ofrezcan demostraciones abundantes y correctas, y los alumnos las perciban correctamente. Sin embargo, las demostraciones son y en casi todos los problemas del mundo real. Se necesita informacin complementaria para compensar estas deficiencias de las demostraciones. En este trabajo, nos centramos en la programacin mediante una combinacin de y demostraciones y un nmero limitado de retroalimentaciones evaluativas binarias, en las que el alumno utiliza sus propias experiencias evaluadas como nuevas demostraciones en un mtodo extendido de aprendizaje por refuerzo inverso. Esto proporciona al aprendiz una generalizacin ms amplia y menos arrepentimiento, as como robustez frente a la escasez y la no optimalidad en las demostraciones y retroalimentaciones. Nuestro mtodo alivia la carga poco realista de los profesores de proporcionar demostraciones ptimas y abundantes. El empleo de una retroalimentacin evaluativa, que es fcil de proporcionar para los profesores, ofrece la oportunidad de corregir el comportamiento de los alumnos en un entorno social interactivo sin necesidad de que los profesores conozcan y utilicen su propia funcin de recompensa precisa. Aqu, mejoramos el aprendizaje por refuerzo inverso () para estimar la funcin de recompensa utilizando una mezcla de demostraciones no ptimas y dispersas y retroalimentaciones evaluativas. Nuestro mtodo, denominado de demostracin y crtica humana (), consta de dos fases. En primer lugar, el profesor proporciona algunas demostraciones para que el alumno inicialice su poltica. A continuacin, el alumno interacta con el entorno y el profesor proporciona feedbacks evaluativos binarios. Teniendo en cuenta posibles inconsistencias y errores en la emisin y recepcin de feedbacks, el alumno revisa la funcin de recompensa estimada resolviendo un nico problema de optimizacin. El mtodo est concebido para manejar errores y escasez en las demostraciones y retroalimentaciones y puede generalizar diferentes combinaciones de estas dos fuentes de experiencia. Aplicamos nuestro mtodo a tres dominios: una tarea de navegacin simulada, un problema de conduccin de coches simulado con interacciones humanas y un experimento de navegacin de un robot mvil. Los resultados indican que el mtodo mejora significativamente el proceso de aprendizaje all donde los mtodos estndar fallan y los mtodos de aprendizaje a partir de feedbacks () tienen un alto nivel de arrepentimiento. Adems, el funciona bien en diferentes niveles de sparsity y optimalidad de las demostraciones de los profesores y feedbacks, donde otros mtodos del estado del arte fallan.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Biotecnología Moderna para el Desarrollo de la Agricultura en Colombia
Artículo:
Nuevos conocimientos sobre los mecanismos de endurecimiento de las conchas marinas: De la forma de arco a la estructura multicapa
Artículo:
Influencia de las cohortes generacionales en las preferencias de tecnologías de la información y comunicación en pacientes latinoamericanos con enfermedades pulmonares obstructivas.
Artículo:
Fracaso en el control del asma: Razones y consecuencias
Artículo:
Características de funcionamiento y método de compensación de temperatura del sensor de propiedades de fluidos basado en la tecnología Tuning-Fork
Informe, reporte:
Diagnóstico sobre la logística del comercio internacional y su incidencia en la competitividad de las exportaciones de los países miembros
Infografía:
Sistemas de calidad. Six Sigma
Manual:
Química de los taninos
Artículo:
Influencia del COVID-19 en las dinámicas de exportación, producción y consumo de carne vacuna en Colombia y el mundo: Una revisión monográfica.