基于深度强化学习的模块化集成建造车间实时调度方法研究*

doi:10.16731/j.cnki.1671-3133.2026.05.003

现代制造工程 ›› 2026, Vol. 548 ›› Issue (5): 18-30.doi: 10.16731/j.cnki.1671-3133.2026.05.003

• 先进制造系统管理运作 • 上一篇下一篇

基于深度强化学习的模块化集成建造车间实时调度方法研究^*

樊一, 刘斯麒, 沈洌政, 朱海平

华中科技大学机械科学与工程学院,武汉 430074

收稿日期:2025-04-28 出版日期:2026-05-18 发布日期:2026-06-04
通讯作者: 朱海平,博士,教授,主要研究方向为生产系统建模与优化、工业大数据、智能制造和数字化车间应用等。E-mail:haipzhu@hust.edu.cn
作者简介:樊一,硕士研究生,主要研究方向为智能优化调度。刘斯麒,博士研究生,主要研究方向为智能调度优化。沈洌政,博士研究生,主要研究方向为生产系统建模优化。E-mail:m202370728@hust.edu.cn;d202480324@hust.edu.cn;lzshen@hust.edu.cn
基金资助:
^*国家重点研发计划项目(2023YFB3307900)

Research on real-time scheduling method of modular integrated construction workshop based on deep reinforcement learning

FAN Yi, LIU Siqi, SHEN Liezheng, ZHU Haiping

School of Mechanical Science & Engineering,Huazhong University of Science and Technology, Wuhan 430074,China

Received:2025-04-28 Online:2026-05-18 Published:2026-06-04

摘要/Abstract

摘要： 模块化集成建造(Modular Integrated Construction,MIC)是一种新兴的建造模式,目前被广泛运用于建筑构件的生产制造。由于构件产品个性化需求日益突出,且建造车间生产环境复杂多变,因此亟需设计先进实时调度方法应对新的生产模式以及响应动态事件。基于此,针对模块化集成建造车间调度问题,提出了一种基于深度强化学习(Deep Reinforcement Learning,DRL)的实时调度方法。首先,分析模块化集成建造车间的生产流程与特性,将其抽象为一个具有混流生产特性的生产车间并完成相关数学模型的构建;其次,通过定义生产时间序列中的调度节点,将调度问题建模为马尔可夫决策过程(Markov Decision Process,MDP);随后,依次设计具有21个生产特征的通用状态空间、8个基于遗传规划(Genetic Programming,GP)复合规则的动作空间和奖励函数,基于此,提出一种基于双记忆池的近端策略优化(Proximal Policy Optimization with Dual Memory Pools,PPO-DMP)算法来训练调度智能体,以实现生产状态与调度规则间的高效映射,从而实现调度目标的有效优化;最后,通过对比实验证明所提出的实时调度方法相较于传统方法具有良好的调度性与动态性,尤其是在应对新订单插入的场景中,其优势更加显著。

关键词: 深度强化学习, 模块化集成建造, 实时调度, 马尔可夫决策过程

Abstract: Modular Integrated Construction (MIC) represents an emerging construction paradigm that has gained widespread adoption in the production of building components. Given the growing demand for customized component products and the intricate,dynamic nature of the construction workshop environment,there is an urgent need to develop advanced real-time scheduling methodologies capable of adapting to novel production modes and responding effectively to dynamic events. A real-time scheduling approach based on Deep Reinforcement Learning (DRL) was proposed for modular integrated construction shop scheduling. First,the production process and characteristics of the modular integrated construction workshop were systematically analyzed,abstracted as a hybrid-flow production system,and formalized through a relevant mathematical model. Second,by defining scheduling decision points within the production time series,the scheduling problem was formulated as a Markov Decision Process (MDP). Subsequently,a comprehensive state space encompassing 21 production features,8 action spaces,and reward functions derived from Genetic Programming (GP) complex rules were sequentially designed. Building on this foundation,an algorithm based on Proximal Policy Optimization with Dual Memory Pools (PPO-DMP) was proposed to train scheduling agents,enabling efficient mapping between production states and scheduling strategies,thereby achieving effective optimization of scheduling objectives. Finally,comparative experiments demonstrate that the proposed real-time scheduling algorithm exhibits superior scheduling efficiency and dynamic adaptability compared to traditional methods,particularly in scenarios involving new order insertions,where its advantages become even more pronounced.

Key words: deep reinforcement learning, modular integrated construction, real-time scheduling, Markov decision process

中图分类号:

TP18

樊一, 刘斯麒, 沈洌政, 朱海平. 基于深度强化学习的模块化集成建造车间实时调度方法研究^*[J]. 现代制造工程, 2026, 548(5): 18-30.

FAN Yi, LIU Siqi, SHEN Liezheng, ZHU Haiping. Research on real-time scheduling method of modular integrated construction workshop based on deep reinforcement learning[J]. Modern Manufacturing Engineering, 2026, 548(5): 18-30.

参考文献

[1] 乔东平,段绿旗,黎宏磊,等. 基于深度强化学习的作业车间调度问题优化[J]. 制造技术与机床,2023(4):148-155. DOI:10.19287/j.mtmt.1005-2402.2023.04.023.
[2] 周可. 带运输时间的柔性作业车间调度问题的启发式算法研究[D]. 武汉:华中科技大学,2022. DOI:10.27157/d.cnki.ghzku. 2022.002898.
[3] 刘胜辉,任娟,张淑丽. 柔性作业车间调度的分布式粒子群优化算法[J]. 哈尔滨理大学学报,2017,22(3):1-7.DOI:10.15938/j.jhust.2017.03.001.
[4] 黎阳,李新宇,牟健慧. 基于改进模拟退火算法的大规模置换流水车间调度[J]. 计算机集成制造系统,2020,26(2):366-375.
[5] CHEN R,YANG B,LI S,et al. A self-learning genetic algorithm based on reinforcement learning for flexible job-shop scheduling problem[J]. Computers & Industrial Engineer-ing,2020,149(1):106778.
[6] ZHANG Y,WANG L. A Dynamic Scheduling Method for Logistics Supply Chain Based on Adaptive Ant Colony Algorithm[J]. International Journal of Computational Intelligence Systems,2024,17(1):198. DOI:10.10071S44196-024-00606-5.
[7] 崔雪艳,万烂军,赵昊鑫,等. 基于深度强化学习的柔性作业车间调度方法[J]. 制造技术与机床,2023,(12):165-170. DOI:10.19287/j.mtmt.1005-2402.2023.12.024.
[8] 李子晨,苑明海,黄涵钰,等. 基于深度强化学习的作业车间节能调度研究[J]. 制造技术与机床,2024,(6):161-169. DOI:10.19287/j.mtmt.1005-2402.2024.06.024.
[9] LIN C C,DENG D J,CHIH Y L,et al. Smart manufacturing scheduling with edge computing using multiclass deep Q network[J]. IEEE Transactions on Industrial Informatics,2019,15(7):4276-4284. DOI:10.1109/TII.2019. 2908903.
[10] 孟繁威,郭宏,延小龙,等. 基于多智能体强化学习求解柔性作业车间联合调度问题[J/OL]. 计算机集成制造系统,2025:1-29[2026-04-24]. https://doi.org/10.13196/j.cims.2024.0236.
[11] 景轩. 基于多智能体深度强化学习的柔性作业车间调度问题研究[D]. 广州:华南理工大学,2023. DOI:10.27151/d.cnki. ghnlu.2023.004929.
[12] 王文达,汪勇,金炫智,等. 基于深度强化学习的动态作业车间调度问题研究[C]//中国自动化学会. 2022中国自动化大会论文集. 杭州:浙江大学控制科学与工程学院,浙江大学机械工程学院,2022:6. DOI:10.26914/c.cnkihy.2022.053835.
[13] GU W,DUAN L,LIU S,et al. A real-time adaptive dynamic scheduling method for manufacturing workshops based on digital twin[J]. Flexible Services and Manufacturing Journal,2024,36(1):1-33. DOI:10.1007/s10696-024-09523-5.
[14] REN Fujie,LIU Haibin. Dynamic scheduling for flexible job shop based on MachineRank algorithm and reinforcement learning[J]. Scientific Reports,2024,14(1):29741. DOI:10.1038/s41598-024-60360-8.
[15] ZHUANG M, ZHANG W, TANG H,et al. A multi-objective genetic algori-thm based on two-stage reinforce-ment learning for green flexible shop scheduling problem considering machine speed[J]. Expert Systems With Applications,2024,258:125189. DOI:10.1016/j.eswa.2024.125189.
[16] 曾令铭,丁林山,管在林. 基于深度自学习禁忌搜索的柔性作业车间调度[J]. 计算机集成制造系统,2025,31(11):3979-3989.
[17] 赵林林. 基于深度强化学习的作业车间在线调度方法研究[D]. 武汉:华中科技大学,2023. DOI:10.27157/d.cnki.ghzku. 2023.003781.
[18] LI Y,LI X,GAO L,et al. Multi-agent deep reinforcement learning for dynamic reconfigurable shop scheduling considering batch processing and worker cooperation[J]. Robotics and Computer-Integrated Manufacturing,2025,91:102834. DOI:10.1016/j.rcim.2024.102834.
[19] GU W,LIU S,GUO Z,et al. Dynamic scheduling mechanism for intelligent workshop with deep reinforcement learning method based on multi-agent system architecture[J]. Computers & Industrial Engineering,2024,191:110155. DOI:10.1016/j.cie.2024.110155.
[20] 李可,熊顺蕊,戴朋林,等. 基于深度强化学习的卫星动态任务实时调度时效性优化方法[J]. 中国科学:信息科学,2024,54(10):2443-2469. DOI:10.1360/SSI-2024-0123.
[21] 唐亮,匡理霖. 深度强化学习算法求解协同制造的订单分配与调度问题[J]. 计算机集成制造系统,2024(7):1-26.
[22] 苏进. 基于深度强化学习的作业车间调度研究[D]. 成都:电子科技大学,2024. DOI:10.27005/d.cnki.gdzku.2024.005472.

基于深度强化学习的模块化集成建造车间实时调度方法研究^*

Research on real-time scheduling method of modular integrated construction workshop based on deep reinforcement learning

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 10

编辑推荐

Metrics

[1]	张宁宁, 万卫兵, 张梦晓, 赵宇明. 面向多目标动态作业车间调度的强化学习决策算法研究^*[J]. 现代制造工程, 2025, 538(7): 20-30.
[2]	金桥, 杨光锐, 王霄, 徐凌桦, 张芳. 基于A-TD3的码垛机器人轨迹规划^*[J]. 现代制造工程, 2025, 536(5): 42-52.
[3]	徐帅, 李艳武, 谢辉, 牛晓伟. 基于卷积金字塔网络的PPO算法求解作业车间调度问题^*[J]. 现代制造工程, 2025, 534(3): 19-30.
[4]	杨丹, 舒先涛, 余震, 鲁光涛, 纪松霖, 王家兵. 深度强化学习求解动态柔性作业车间调度问题^*[J]. 现代制造工程, 2025, 533(2): 10-16.
[5]	刘嘉成. 基于深度强化学习的晶圆分拣系统实时调度研究[J]. 现代制造工程, 2025, 541(10): 26-34.
[6]	杨逢海, 杨晓英, 裴志杰, 武亚琪, 张志伟. 基于深度强化学习的风电拉挤板生产智能排程^*[J]. 现代制造工程, 2025, 532(1): 23-32.
[7]	谢子健, 秦建军, 曹钰. 基于改进TD3的四足机器人非结构化地形运动控制^*[J]. 现代制造工程, 2025, 532(1): 33-41.
[8]	黄浪, 王艳, 纪志成. 基于多Agent动态博弈的柔性车间实时调度决策方法^*[J]. 现代制造工程, 2024, 531(12): 27-36.
[9]	陶鑫钰;王艳;纪志成. 基于A3C的特征重构工艺路线规划方法[J]. 现代制造工程, 2023, 517(10): 15-26.
[10]	钟敬伟，石宇强. 基于DQN的智能工厂作业车间调度[J]. 现代制造工程, 2021, 492(9): 17-23.