Algoritmo QT-Opt Mejorado para la Agarre de Brazos Robóticos Basado en Aprendizaje por Refuerzo Offline

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Algoritmo QT-Opt Mejorado para la Agarre de Brazos Robóticos Basado en Aprendizaje por Refuerzo Offline

Autores: Zhang, Haojun; Zeng, Sheng; Hou, Yaokun; Huang, Haojie; Xu, Zhezhuang

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Algoritmo QT-Opt Mejorado para la Agarre de Brazos Robóticos Basado en Aprendizaje por Refuerzo Offline

Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Aprendizaje por refuerzo

Agarre de brazo robótico

Algoritmo QT-Opt

Aprendizaje por refuerzo offline

Optimización por Enjambre de Partículas

Espacio de acción

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 21

Citaciones: Sin citaciones

El aprendizaje por refuerzo juega un papel crucial en el campo de la sujeción con brazos robóticos, proporcionando un enfoque prometedor para el desarrollo de estrategias de sujeción inteligentes y adaptativas. Debido al cambio de distribución y al óptimo local en la acción, el aprendizaje por refuerzo en línea tradicional es difícil de utilizar con los conjuntos de datos de sujeción existentes, lo que lleva a una baja eficiencia de muestra. Este estudio propone un algoritmo QT-Opt mejorado para la sujeción con brazos robóticos basado en el aprendizaje por refuerzo offline. Este algoritmo mejorado propone la Optimización por Enjambre de Partículas (PSO) para identificar la acción con el mayor valor dentro del espacio de acción del brazo robótico. Además, se propone un término de regularización durante el proceso de iteración de valores para facilitar el aprendizaje de una función Q conservadora, permitiendo una estimación precisa de los valores de acción del brazo robótico. Los resultados experimentales indican que el algoritmo QT-Opt mejorado logra tasas de éxito promedio de sujeción más altas cuando se entrena en múltiples conjuntos de datos de sujeción offline y demuestra una mayor estabilidad a lo largo del proceso de entrenamiento.

Descripción

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Documentos Relacionados

Temas Virtualpro