Este artículo está dedicado al control de actitud sin modelo de naves espaciales rígidas en presencia de saturación del par de control y de perturbaciones externas. Específicamente, se propone un controlador de aprendizaje profundo de refuerzo sin modelo (DRL), que puede aprender continuamente de acuerdo con la retroalimentación del entorno y realizar el control de actitud de alta precisión de la nave espacial sin ajustar repetidamente los parámetros del controlador. Considerando la continuidad del espacio de estado y del espacio de acción, se adopta el algoritmo Twin Delayed Deep Deterministic Policy Gradient (TD3) basado en la arquitectura actor-crítica. Comparado con el algoritmo Deep Deterministic Policy Gradient (DDPG), el TD3 tiene un mejor rendimiento. El TD3 obtiene la política óptima interactuando con el entorno sin utilizar ningún conocimiento previo, por lo que el proceso de aprendizaje requiere mucho tiempo. Con el objetivo de resolver este problema, se propone el algoritmo PID-Guide TD3, que puede acelerar la velocidad de entrenamiento y mejorar la precisión de convergencia del algoritmo TD3. Con el fin de resolver el problema de que el aprendizaje por refuerzo (RL) es difícil de implementar en el entorno real, se propone el método de preentrenamiento/ajuste fino para la implementación, que no sólo puede ahorrar tiempo de entrenamiento y recursos informáticos, sino también lograr buenos resultados rápidamente. Los resultados experimentales muestran que el controlador DRL puede realizar una estabilización de actitud de alta precisión y un control de seguimiento de actitud, con una velocidad de respuesta rápida y un pequeño sobreimpulso. El algoritmo PID-Guide TD3 propuesto tiene una velocidad de entrenamiento más rápida y una mayor estabilidad que el algoritmo TD3.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Predicción de las emisiones conducidas en los autobuses eléctricos de los satélites
Artículo:
Un nuevo método de compensación para el DRR de un buscador de rollos basado en la ESO
Artículo:
Perspectivas de los biocombustibles de aviación sostenibles en Brasil
Artículo:
Modelado de reactores de plasma y propulsores de plasma por Ar Complete Global Models
Artículo:
Detección de fracturas en dientes de engranajes cónicos en espiral mediante respuesta armónica basada en el método de los elementos finitos
Informe, reporte:
Diagnóstico sobre la logística del comercio internacional y su incidencia en la competitividad de las exportaciones de los países miembros
Infografía:
Sistemas de calidad. Six Sigma
Manual:
Química de los taninos
Artículo:
Influencia del COVID-19 en las dinámicas de exportación, producción y consumo de carne vacuna en Colombia y el mundo: Una revisión monográfica.