Este artículo presenta un enfoque de gestión de cadena de suministro basado en aprendizaje de refuerzo. El escenario de cadena de suministro planteado consiste en agentes de programación y optimización de rendimiento indirectamente acoplados que tratan de aprender una estrategia de aceptación óptima para los trabajos ofrecidos. El optimizador construye un programa obligatorio insertando los trabajos requeridos, los cuales llegan de forma estocástica desde los clientes.
Para reducir la complejidad, los agentes se dividieron en tres componentes: una interfase de cadena de suministro que clasifica las ofertas de trabajo, un algoritmo de aprendizaje de refuerzo que toma la decisión de aceptación, y una programación determinista que procesa los trabajos y genera una compresión preliminar del espacio. El algoritmo de aprendizaje de refuerzo acepta ofertas de acuerdo con la fecha de vencimiento de entrega, el precio del trabajo, el costo de penalidad por caducación y la información proporcionada por la programación.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Modelo de programación no lineal para la toma de decisión sobre locaciones, inventario y enrutamiento en una cadena de suministro de ciclo cerrado
Artículo:
Efectos de los factores humanos en la gravedad de los accidentes
Artículo:
Subvenciones públicas y reparto de ingresos en la cadena de suministro de servicios portuarios y marítimos en zonas de control de emisiones
Video:
Efecto Forrester: como los aumentos repentinos de demanda afectan las cadenas de suministro
Artículo:
Estimación del estado del tráfico mediante vehículos conectados y detectores estacionarios