Biblioteca93.141 documentos en línea

Artículo

Combining Multiple Strategies for Multiarmed Bandit Problems and Asymptotic OptimalityCombinación de estrategias múltiples para problemas de bandidos armados múltiples y optimalidad asintótica

Resumen

Este breve trabajo proporciona un algoritmo simple que selecciona una estrategia en cada momento en un conjunto dado de múltiples estrategias para problemas estocásticos de bandidos multiarmados, jugando así el brazo por la estrategia elegida en cada momento. El algoritmo sigue la idea del ϵ t -switching probabilístico en la estrategia ϵ t -greedy y es asintóticamente óptimo en el sentido de que la estrategia seleccionada converge a la mejor del conjunto bajo algunas condiciones sobre las estrategias del conjunto y la secuencia de { ϵ t } .

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento