Este breve trabajo proporciona un algoritmo simple que selecciona una estrategia en cada momento en un conjunto dado de múltiples estrategias para problemas estocásticos de bandidos multiarmados, jugando así el brazo por la estrategia elegida en cada momento. El algoritmo sigue la idea del ϵ t -switching probabilístico en la estrategia ϵ t -greedy y es asintóticamente óptimo en el sentido de que la estrategia seleccionada converge a la mejor del conjunto bajo algunas condiciones sobre las estrategias del conjunto y la secuencia de { ϵ t } .
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
El efecto del coeficiente de amortiguación, el coeficiente de muelle y la relación de masas en el rendimiento de extracción de potencia de un ala batiente semiactiva
Artículo:
Ventajas del análisis basado en la exergía para aplicaciones de ingeniería aeroespacial - Parte I
Artículo:
Esquema de abstracción de modelos dinámicos mediante funciones de base radial
Artículo:
Control robusto de generadores eléctricos aeronáuticos para aplicaciones de gestión de la energía
Artículo:
Optimización de la asignación de recursos para pruebas mediante un modelo de fiabilidad del software basado en la arquitectura
Informe, reporte:
Diagnóstico sobre la logística del comercio internacional y su incidencia en la competitividad de las exportaciones de los países miembros
Artículo:
Nuevas necesidades cosméticas : tendencias y productos específicos
Manual:
Química de los taninos
Artículo:
Influencia del COVID-19 en las dinámicas de exportación, producción y consumo de carne vacuna en Colombia y el mundo: Una revisión monográfica.