當前位置:首頁 > 科技文檔 > 自動化技術(shù) > 正文

基于強化學習的人員輪休調(diào)度方法

計算機集成制造系統(tǒng) 頁數(shù): 12 2022-07-15
摘要: 針對傳統(tǒng)調(diào)度方法求解效果差、效率低、輪休約束表達不準確的問題,首次提出一種基于強化學習的人員輪休調(diào)度方法。該方法將輪休調(diào)度過程構(gòu)建為Markov決策過程,利用動作掩碼方法實現(xiàn)輪休約束,通過深度Q網(wǎng)絡(DQN)方法對輪休調(diào)度的策略進行學習。最后,采用學習得到的調(diào)度策略對人員進行快速安排。實驗表明,在遵守輪休約束的前提下,該方法能夠快速給出匹配每日人力需求的人員安排。對比傳統(tǒng)的基于... (共12頁)

開通會員,享受整站包年服務
說明: 本文檔由創(chuàng)作者上傳發(fā)布,版權(quán)歸屬創(chuàng)作者。若內(nèi)容存在侵權(quán),請點擊申訴舉報