Diseño de Currículo y Transferencia Sim2Real para Aprendizaje por Refuerzo en Ensamblaje Robótico de Doble Brazo
Autores: Wrede, Konstantin; Zarnack, Sebastian; Lange, Robert; Donath, Oliver; Wohlfahrt, Tommy; Feldmann, Ute
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
Categoría
Tecnología de Equipos y Accesorios
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 14
Citaciones: Sin citaciones
Los sistemas robóticos son cruciales en la fabricación moderna. Las tareas de ensamblaje complejas requieren la colaboración de múltiples robots. Su orquestación es un desafío debido a las tolerancias ajustadas y los requisitos de precisión. En este trabajo, configuramos dos robots Franka Panda realizando una tarea de inserción de un pasador en un agujero con un despeje de 1 mm. Estructuramos el sistema de control de manera jerárquica, planificando las trayectorias basadas en retroalimentación de los robots con una política central entrenada con aprendizaje por refuerzo. Estas trayectorias son ejecutadas por un controlador de impedancia de bajo nivel en cada robot. Para mejorar la convergencia del entrenamiento, utilizamos el aprendizaje de currículo inverso, novedoso para una tarea de control de dos brazos, estructurado de manera iterativa con un mínimo de requisitos y una fase de ajuste fino. Incorporamos la aleatorización del dominio, variando las configuraciones iniciales de las articulaciones de la tarea para la generalización de la aplicabilidad. Después del entrenamiento, probamos el sistema en una simulación, descubriendo el impacto de los parámetros del currículo en el tiempo de proceso emergente y su varianza. Finalmente, transferimos el modelo entrenado al mundo real, resultando en una pequeña disminución en la duración de la tarea. Comparar nuestro enfoque con la planificación de rutas clásica y el control muestra una disminución en el tiempo de proceso, pero una mayor robustez frente a errores de calibración.
Descripción
Los sistemas robóticos son cruciales en la fabricación moderna. Las tareas de ensamblaje complejas requieren la colaboración de múltiples robots. Su orquestación es un desafío debido a las tolerancias ajustadas y los requisitos de precisión. En este trabajo, configuramos dos robots Franka Panda realizando una tarea de inserción de un pasador en un agujero con un despeje de 1 mm. Estructuramos el sistema de control de manera jerárquica, planificando las trayectorias basadas en retroalimentación de los robots con una política central entrenada con aprendizaje por refuerzo. Estas trayectorias son ejecutadas por un controlador de impedancia de bajo nivel en cada robot. Para mejorar la convergencia del entrenamiento, utilizamos el aprendizaje de currículo inverso, novedoso para una tarea de control de dos brazos, estructurado de manera iterativa con un mínimo de requisitos y una fase de ajuste fino. Incorporamos la aleatorización del dominio, variando las configuraciones iniciales de las articulaciones de la tarea para la generalización de la aplicabilidad. Después del entrenamiento, probamos el sistema en una simulación, descubriendo el impacto de los parámetros del currículo en el tiempo de proceso emergente y su varianza. Finalmente, transferimos el modelo entrenado al mundo real, resultando en una pequeña disminución en la duración de la tarea. Comparar nuestro enfoque con la planificación de rutas clásica y el control muestra una disminución en el tiempo de proceso, pero una mayor robustez frente a errores de calibración.