Algoritmo QT-Opt Mejorado para la Agarre de Brazos Robóticos Basado en Aprendizaje por Refuerzo Offline
Autores: Zhang, Haojun; Zeng, Sheng; Hou, Yaokun; Huang, Haojie; Xu, Zhezhuang
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
Categoría
Tecnología de Equipos y Accesorios
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 12
Citaciones: Sin citaciones
El aprendizaje por refuerzo juega un papel crucial en el campo de la sujeción con brazos robóticos, proporcionando un enfoque prometedor para el desarrollo de estrategias de sujeción inteligentes y adaptativas. Debido al cambio de distribución y al óptimo local en la acción, el aprendizaje por refuerzo en línea tradicional es difícil de utilizar con los conjuntos de datos de sujeción existentes, lo que lleva a una baja eficiencia de muestra. Este estudio propone un algoritmo QT-Opt mejorado para la sujeción con brazos robóticos basado en el aprendizaje por refuerzo offline. Este algoritmo mejorado propone la Optimización por Enjambre de Partículas (PSO) para identificar la acción con el mayor valor dentro del espacio de acción del brazo robótico. Además, se propone un término de regularización durante el proceso de iteración de valores para facilitar el aprendizaje de una función Q conservadora, permitiendo una estimación precisa de los valores de acción del brazo robótico. Los resultados experimentales indican que el algoritmo QT-Opt mejorado logra tasas de éxito promedio de sujeción más altas cuando se entrena en múltiples conjuntos de datos de sujeción offline y demuestra una mayor estabilidad a lo largo del proceso de entrenamiento.
Descripción
El aprendizaje por refuerzo juega un papel crucial en el campo de la sujeción con brazos robóticos, proporcionando un enfoque prometedor para el desarrollo de estrategias de sujeción inteligentes y adaptativas. Debido al cambio de distribución y al óptimo local en la acción, el aprendizaje por refuerzo en línea tradicional es difícil de utilizar con los conjuntos de datos de sujeción existentes, lo que lleva a una baja eficiencia de muestra. Este estudio propone un algoritmo QT-Opt mejorado para la sujeción con brazos robóticos basado en el aprendizaje por refuerzo offline. Este algoritmo mejorado propone la Optimización por Enjambre de Partículas (PSO) para identificar la acción con el mayor valor dentro del espacio de acción del brazo robótico. Además, se propone un término de regularización durante el proceso de iteración de valores para facilitar el aprendizaje de una función Q conservadora, permitiendo una estimación precisa de los valores de acción del brazo robótico. Los resultados experimentales indican que el algoritmo QT-Opt mejorado logra tasas de éxito promedio de sujeción más altas cuando se entrena en múltiples conjuntos de datos de sujeción offline y demuestra una mayor estabilidad a lo largo del proceso de entrenamiento.