CN119623933A

CN119623933A - 基于最大熵强化学习的多智能体协同调度方法及系统

Info

Publication number: CN119623933A
Application number: CN202411613865.5A
Authority: CN
Inventors: 彭广德; 李卫铳
Original assignee: Guangzhou Ligong Industrial Co ltd
Current assignee: Guangzhou Ligong Industrial Co ltd
Priority date: 2024-11-13
Filing date: 2024-11-13
Publication date: 2025-03-14
Anticipated expiration: 2044-11-13
Also published as: CN119623933B

Abstract

本发明公开了一种基于最大熵强化学习的多智能体协同调度方法及系统，该方法包括：根据生产线的第一环境数据，生成环境状态向量；根据所述环境状态向量，生成初始生产任务；对所述初始生产任务进行任务调度操作，并生成路径规划；对所述环境状态向量、所述初始生产任务以及所述路径规划进行存储，得到经验数据；根据所述经验数据，通过最大熵强化学习算法对初始策略模型进行训练，得到目标策略模型；根据所述目标策略模型，得到多智能体协同的目标调度策略。本发明能够提高多智能体协作效率，从而提升生产效率，可以广泛应用于智能体调度技术领域。

Description

基于最大熵强化学习的多智能体协同调度方法及系统

技术领域

本发明涉及智能体调度技术领域，尤其是一种基于最大熵强化学习的多智能体协同调度方法及系统。

背景技术

随着工业的发展，智能制造技术在各类生产场景中得到了广泛应用。柔性生产线作为智能制造的重要组成部分，能够根据生产需求的变化，实现生产流程的快速调整和产品种类的多样化生产。柔性生产线通常需要多台机器人和自动化设备的协同工作，以完成物料搬运、装配、加工和检测等任务。然而，传统的生产线调度系统通常依赖于固定规则或预设路径进行任务分配和规划。这类方法在面对生产需求的变化或生产线环境的不确定性时，往往显得应对不及时，难以有效适应生产现场的变化。此外，传统方法缺乏对多机器人之间协作关系的深入理解，容易导致机器人之间的资源冲突和路径干扰，从而降低生产效率。

发明内容

有鉴于此，本发明实施例主要目的在于提供一种基于最大熵强化学习的多智能体协同调度方法及系统，以期解决现有技术问题至少之一，本发明能够提高多智能体协作效率，以提升生产效率。

为实现上述目的，本发明实施例的一方面提供了一种基于最大熵强化学习的多智能体协同调度方法，该方法包括以下步骤：

根据生产线的第一环境数据，生成环境状态向量；

根据所述环境状态向量，生成初始生产任务；

对所述初始生产任务进行任务调度操作，并生成路径规划；

对所述环境状态向量、所述初始生产任务以及所述路径规划进行存储，得到经验数据；

根据所述经验数据，通过最大熵强化学习算法对初始策略模型进行训练，得到目标策略模型；

根据所述目标策略模型，得到多智能体协同的目标调度策略。

在一些实施例中，一种基于最大熵强化学习的多智能体协同调度方法，该方法还包括以下步骤：

采集所述生产线的第二环境数据，对所述目标策略模型的初始调度策略进行调整，得到中间调度策略；

通过混合云边协同计算架构，根据所述中间调度策略以及所述第二环境数据，对所述目标策略模型进行训练，生成所述目标调度策略；

根据所述目标调度策略，执行目标生产任务，得到反馈信息。

在一些实施例中，所述对所述初始生产任务进行任务调度操作，并生成路径规划，包括以下步骤：

根据所述第一环境数据以及所述初始生产任务进行时间序列分析，得到预测负载波动数据；

构建所述初始生产任务的预分配机制；

通过多层次图神经网络通信机制，将多智能体的通信机制划分为局部通信机制和全局广播机制；

根据所述预测负载波动数据、所述预分配机制、所述局部通信机制以及所述全局广播机制，对所述初始生产任务进行任务调度；

通过路径交互避让机制以及所述多层次图神经网络通信机制，生成所述路径规划。

在一些实施例中，所述对所述环境状态向量、所述初始生产任务以及所述路径规划进行存储，得到经验数据的步骤之后，还包括以下步骤：

构造多智能体的特征权重；

通过KL散度以及所述特征权重，构造策略参数损失函数；

其中，所述策略参数损失函数用于对学习所述经验数据的过程进行加权。

在一些实施例中，所述根据所述经验数据，通过最大熵强化学习算法对初始策略模型进行训练，得到目标策略模型，包括以下步骤：

构造动态多目标奖励函数；

根据所述动态多目标奖励函数以及熵系数，构造最大熵强化学习算法的目标函数；

基于所述经验数据，通过所述目标函数，对所述初始策略模型进行训练，得到所述目标策略模型。

在一些实施例中，所述根据所述动态多目标奖励函数以及熵系数，构造最大熵强化学习算法的目标函数，所使用的公式包括：

其中，J(π)代表目标函数，是策略π的性能指标；t代表时间步，t＝0,1,…,T；s_t代表状态；a_t代表动作；r(s_t，a_t)代表在状态s_t采取动作a_t时的即时奖励，即所述动态多目标奖励函数；α(a_t)代表根据状态s_t的动态复杂度进行调整的熵系数；代表策略π在状态s_t下的条件熵；代表在策略π下状态s_t和动作a_t的联合分布的期望值

为实现上述目的，本发明实施例的另一方面提出了一种基于最大熵强化学习的多智能体协同调度系统，所述系统包括：

第一模块，用于根据生产线的第一环境数据，生成环境状态向量；

第二模块，用于根据所述环境状态向量，生成初始生产任务；

第三模块，用于对所述初始生产任务进行任务调度操作，并生成路径规划；

第四模块，用于对所述环境状态向量、所述初始生产任务以及所述路径规划进行存储，得到经验数据；

第五模块，用于根据所述经验数据，通过最大熵强化学习算法对初始策略模型进行训练，得到目标策略模型；

第六模块，用于根据所述目标策略模型，得到多智能体协同的目标调度策略。

在一些实施例中，一种基于最大熵强化学习的多智能体协同调度系统，还包括：

第七模块，用于采集所述生产线的第二环境数据，对所述目标策略模型的初始调度策略进行调整，得到中间调度策略；

第八模块，用于通过混合云边协同计算架构，根据所述中间调度策略以及所述第二环境数据，对所述目标策略模型进行训练，生成所述目标调度策略；

第九模块，用于根据所述目标调度策略，执行目标生产任务，得到反馈信息。

为实现上述目的，本发明实施例的另一方面提供了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现前面所述的一种基于最大熵强化学习的多智能体协同调度方法。

为实现上述目的，本发明实施例的另一方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现前面所述的一种基于最大熵强化学习的多智能体协同调度方法。

为实现上述目的，本发明实施例的另一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述的一种基于最大熵强化学习的多智能体协同调度方法。

本发明的实施例至少包括以下有益效果：本发明提供一种基于最大熵强化学习的多智能体协同调度方法及系统，该方案根据生产线的第一环境数据，生成环境状态向量；根据所述环境状态向量，生成初始生产任务；对所述初始生产任务进行任务调度操作，并生成路径规划；对所述环境状态向量、所述初始生产任务以及所述路径规划进行存储，得到经验数据；根据所述经验数据，通过最大熵强化学习算法对初始策略模型进行训练，得到目标策略模型；根据所述目标策略模型，得到多智能体协同的目标调度策略，能够提高多智能体协作效率，进而提升生产效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于最大熵强化学习的多智能体协同调度方法的一种流程图；

图2是本发明实施例提供的基于最大熵强化学习的多智能体协同调度方法的其中一种可选流程图；

图3是本发明实施例提供的基于最大熵强化学习的多智能体协同调度系统的运行流程图；

图4是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。以下示例性实施例中所描述的实施方式并不代表与本发明实施例相一致的所有实施方式，它们仅是与如所附权利要求书中所详述的、本发明实施例的一些方面相一致的装置和方法的例子。

需要说明的是，虽然在系统示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于系统中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一/S100”、“第二/S200”可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。例如，在不脱离本发明实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“若”、“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本发明所使用的术语“至少一个”、“多个”、“每个”、“任一”等，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，每个是指对应的多个中的每一个，任一是指多个中的任意一个。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

柔性生产线通常需要多台机器人和自动化设备的协同工作，以完成物料搬运、装配、加工和检测等任务。然而，传统的生产线调度系统多依赖于预设规则和固定的任务分配策略，当生产需求或环境发生变化时(如生产任务增加、设备状态改变等)，无法迅速做出调整，容易导致生产效率下降。这些系统在面对频繁变动的生产任务和多样化的产品种类时，表现出较低的灵活性和适应性，难以满足现代柔性制造的要求。而现有的多机器人调度方法往往缺乏对机器人之间协作关系的深度理解，调度过程中容易出现任务冲突、路径干扰等问题，导致机器人在执行任务时发生阻塞或等待，增加了生产过程中的时间消耗。协同过程中，机器人之间的信息传递不畅通，缺乏有效的通信机制，导致资源利用率低，整体生产线的协同效率不高。近年来，基于强化学习的调度与优化方法逐渐受到关注。强化学习通过智能体与环境的交互，能够自适应地学习最佳策略，在动态复杂的环境中表现出良好的适应性。然而，传统强化学习方法在多智能体场景中往往难以在探索与利用之间找到平衡点。过度探索会导致学习效率低下，而过度利用则可能陷入局部最优解，无法找到全局最优策略。尤其是在多变的生产环境中，智能体需要频繁调整策略，但传统强化学习方法收敛速度慢，难以快速适应新的任务和环境变化。并且现有的调度系统通常在任务分配策略上较为静态，缺乏在线学习的能力。当生产过程中的环境发生变化时(如生产线拥堵、设备故障等)，系统无法自主学习和调整策略，只能依赖人工干预，影响了生产线的连续性和稳定性。

有鉴于此，如图1所示，本发明实施例提供了一种基于最大熵强化学习的多智能体协同调度方法，该方法可以包括但不限于步骤S100至步骤S600：

步骤S100，根据生产线的第一环境数据，生成环境状态向量；

步骤S200，根据所述环境状态向量，生成初始生产任务；

步骤S300，对所述初始生产任务进行任务调度操作，并生成路径规划；

步骤S400，对所述环境状态向量、所述初始生产任务以及所述路径规划进行存储，得到经验数据；

步骤S500，根据所述经验数据，通过最大熵强化学习算法对初始策略模型进行训练，得到目标策略模型；

步骤S600，根据所述目标策略模型，得到多智能体协同的目标调度策略。

在一些实施例的步骤S100中，生产线环境数据可以包括物料、位置、设备状态等，但不限于此。通过采集生产线的环境数据，可以形成多维度的环境状态，进而对环境趋势进行分析和预测，帮助智能体在生产线上的变化中提前做出调整。示例性地，通过激光雷达、摄像头、力传感器等多种传感器，实时采集生产线的第一环境数据，形成多维度的环境状态，并输出对应的环境状态向量，该环境状态向量可以用于实时监控生产线的状态，并用于后续的决策过程中，为后续的决策提供依据。还可以新增情境识别功能，通过对环境趋势进行分析和预测，帮助智能体在生产线上的变化中提前做出调整，如物料短缺预警或设备状态变化预测，从而提高生产决策的前瞻性。

在一些实施例的步骤S200中，根据采集的第一环境数据以及生成的环境状态向量，选择智能体的最优的任务执行路径和动作，生成初始生产任务。该初步选择的智能体的最优的任务执行路径和动作、初始生产任务等数据，为后续相关经验数据的生成、策略模型的训练打好基础，从而生成目标策略模型，根据目标策略模型学习到的策略，可以进一步地用于多智能体决策中，即智能体可以根据环境数据、环境状态向量，并结合学习到的策略，选择最优的任务执行路径和动作。

在一些实施例的步骤S300中，通过自适应任务负载预测功能，可以预估未来的任务负载波动，从而进行提前任务分配。可选地，在实际生产过程中，通过实时监控生产状态，并根据实际情况进行动态调整。如果实际负载高于预测值，系统会立即增加资源分配；如果实际负载低于预测值，系统会适当减少资源分配，以避免资源浪费。另外，结合多层次图神经网络(GNN)通信机制，实现智能体之间的局部与全局信息共享。并通过路径交互避让机制，使智能体在路径冲突时通过协商避让，减少了等待时间，优化了生产线的整体运行效率。

在一些实施例中，步骤S300可以包括但不限于步骤S310至步骤S350：

步骤S310，根据所述第一环境数据以及所述初始生产任务进行时间序列分析，得到预测负载波动数据；

步骤S320，构建所述初始生产任务的预分配机制；

步骤S330，通过多层次图神经网络通信机制，将多智能体的通信机制划分为局部通信机制和全局广播机制；

步骤S340，根据所述预测负载波动数据、所述预分配机制、所述局部通信机制以及所述全局广播机制，对所述初始生产任务进行任务调度；

步骤S350，通过路径交互避让机制以及所述多层次图神经网络通信机制，生成所述路径规划。

在一些实施例的步骤S310中，在任务调度之前，根据第一环境数据以及初始生产任务进行时间序列分析，预测负载波动数据。这种分析有助于识别生产过程中的高峰和低谷时段，从而允许系统预先调整资源分配，以应对即将到来的负载变化。

在一些实施例的步骤S320中，构建初始生产任务的预分配机制是任务调度的一部分。该机制根据生产任务的特性和生产线的能力，预先为任务分配合适的资源。这种预分配有助于减少生产过程中的等待时间和资源冲突。

在一些实施例的步骤S330中，在多智能体系统中，通信机制是关键。通过多层次图神经网络，可以将通信划分为局部通信机制和全局广播机制。局部通信有助于快速响应局部变化，而全局广播则确保所有智能体都能获得关键信息，利用多层次图神经网络通信机制，有助于协调整个生产线的运作。

在一些实施例的步骤S340中，结合预测负载波动数据、预分配机制、局部通信和全局广播，可以对初始生产任务进行调度。在任务调度的过程中，可以通过优化算法来最小化生产时间、减少资源浪费和提高产品质量，还可以通过遗传算法、强化学习等确保生产任务的高效执行。

在一些实施例的步骤S350中，在任务调度之后，系统会生成路径规划，指导生产资源(如机器人、运输车辆等)在生产线上的移动。路径规划需要考虑避免碰撞、优化路径长度以及适应动态变化的生产环境。路径交互避让机制确保了生产资源能够安全、高效地在生产线上移动。

在一些实施例的步骤S400中，将环境状态向量、所述初始生产任务以及所述路径规划等存储进共享经验池中。还将智能体在任务执行过程中获得的经验数据，可以包括但不限于状态、动作、奖励和下一状态等存储进共享经验池中。根据该共享经验池中生成的经验数据为后续的多智能体学习打好基础。可选地，通过优先级学习机制，确保高优先级任务的数据得到充分学习，还可以通过增量学习共享机制使智能体能够从其他智能体的策略变动中选择性地学习增量数据，显著提高了学习效率和系统响应速度。

在一些实施例的步骤S400之后，还可以包括：构造多智能体的特征权重；通过KL散度以及所述特征权重，构造策略参数损失函数；其中，所述策略参数损失函数用于对学习所述经验数据的过程进行加权。

在一些实施例中，所有智能体的任务执行经验，包括状态、动作、奖励、下一状态等数据，都被存储到共享经验池中。经验池中的数据用于强化学习训练过程中的策略更新。针对生产线中不同功能的智能体(如搬运机器人、装配机器人等)，提出了异构多智能体间的自适应策略共享机制。示例性地，通过在共享经验池中引入智能体异构性特征，对不同智能体的学习过程进行个性化加权，即在共享经验池中加入多智能体的特征权重，智能体能够学习到更多样化的策略，同时通过KL散度调整策略的个性化。这种机制不仅使得智能体能够利用其他智能体的经验加速学习，还能通过个性化调整使每个智能体针对自身任务进行优化，从而提升整个生产系统的协同效率和适应能力。智能体在共享经验时能够根据自身能力调整学习速率，使得具有不同功能的智能体能够协同学习，同时保持个体任务执行的最优策略。其中，通过在经验池中引入智能体异构性特征，对不同智能体的学习过程进行个性化加权的步骤过程如下策略参数损失函数所示：

式中，代表策略参数损失函数；代表在经验数据集下状态s_t的分布的期望值，其中，经验数据集用于存储智能体在训练过程中的历史状态、动作、奖励等数据样本，策略更新时可以从该经验数据集中抽样经验进行训练；i代表第i个智能体，i＝1,2，...，N；代表第i个智能体的策略函数；代表第i个智能体在状态s_t下的策略根据参数θ_i确定在状态s_t时选择的动作概率分布；Q_φ(s_t，·)代表基于状态s_t及动作的值函数用于评估智能体在当前状态下采取特定动作后的期望回报，其中，值函数由参数φ表示；V_ψ(s_t)代表基于状态s_t的价值函数用于评估在给定状态s_t下不依赖于具体动作的期望回报，其中，价值函数由参数ψ表示；α代表熵系数；λ_i代表根据智能体能力调整的个性化系数。

在一些实施例中，步骤S500可以包括但不限于步骤S510至步骤S530：

步骤S510，构造动态多目标奖励函数；

步骤S520，根据所述动态多目标奖励函数以及熵系数，构造最大熵强化学习算法的目标函数；

步骤S530，基于所述经验数据，通过所述目标函数，对所述初始策略模型进行训练，得到所述目标策略模型。

在一些实施例的步骤S510中，为了在任务执行中平衡多种目标(如生产效率、能耗、任务优先级等)，设计了一个基于环境感知的动态多目标奖励函数。智能体可以通过实时采集的环境信息，对不同优化目标的权重进行动态调整，则该动态多目标奖励函数的表达式为：

式中，r(s_t，a_t)代表在状态s_t采取动作a_t时的即时奖励，即所述动态多目标奖励函数；i代表第i个智能体，i＝1,2，...，N；ω_i(s_t)代表与状态s_t相关的动态权重系数，用于控制智能体对不同奖励的重视程度；r_i(s_t，a_t)代表第i个智能体在状态s_t采取动作a_t时的即时奖励，即第i个智能体的动态多目标奖励函数。

通过调整与状态s_t相关的动态权重系数，使得智能体能够在不同生产场景下自动适应优化目标的变化，其中，该动态权重系数可以包括但不限于生产效率、能耗、任务优先级等相关的权重。示例性地，当生产线上任务紧急时，可以增大与生产效率相关的权重ω_energy，以加快任务执行速度；而在能源消耗控制阶段，则提高与能耗相关的权重ω_energy。这种动态调整机制使得智能体能够在不同生产场景下自动适应优化目标的变化，显著提升生产调度的灵活性和适应性。

在一些实施例的步骤S520中，智能体在决策过程中，利用最大熵强化学习(SoftActor-Critic，SAC)算法进行策略优化。智能体的目标是通过最大化奖励和策略的熵值组合，达到平衡探索与利用的目的，则根据动态多目标奖励函数以及熵系数，可以构造最大熵强化学习算法的目标函数，所使用的公式包括：

其中，J(π)代表目标函数，是策略π的性能指标；t代表时间步，t＝0，1，...，T；s_t代表状态；a_t代表动作；r(s_t，a_t)代表在状态s_t采取动作a_t时的即时奖励，即所述动态多目标奖励函数；α(s_t)代表根据状态s_t的动态复杂度进行调整的熵系数，不是固定值；代表策略π在状态s_t下的条件熵；代表在策略π下状态s_t和动作a_t的联合分布的期望值。

在一些实施例中，智能体在面对复杂任务或突发事件时，α(s_t)会增大，鼓励更高的探索性；在任务相对简单且环境稳定时，α(s_t)会减小，使智能体更专注于利用已有的最优策略。这种机制使得智能体可以灵活地调整探索与利用的平衡，更加快速地适应生产环境的变化，尤其适用于柔性生产线中频繁变动的任务分配场景。智能体在复杂环境下能够保持更高的探索性，而在稳定环境下则倾向于利用已学到的最优策略，从而提高决策效率。

在一些实施例的步骤S530中，基于经验数据，通过目标函数对初始策略模型进行训练中，智能体使用这些经验数据来更新其策略模型，在最大熵强化学习中，通常会采用策略梯度方法来更新策略参数，以最大化目标函数。在训练过程中，智能体会不断地尝试新的动作，以探索环境并寻找更好的策略。同时，智能体会利用已学到的知识来选择那些能够带来更高回报的动作。通过这种方式，智能体能够在探索和利用之间找到一个平衡点，从而在复杂的环境中有效地学习。另外，通过最大熵强化学习算法，在策略优化过程中引入了熵的概念，这有助于智能体在面对不确定性时保持一定的随机性，从而避免陷入局部最优解。此外，通过动态调整熵系数，智能体可以根据环境的变化灵活地调整其探索策略，这对于处理动态和复杂的任务起重要作用。

在一些实施例的步骤S600中，在最大熵强化学习算法训练完成后，每个智能体将拥有一个优化后的策略模型。这些策略模型集成了智能体在各种状态下应采取的动作，以最大化累积奖励和熵值。则通过目标策略模型，可以生成多智能体协同的目标调度策略。

在一些实施例中，如图2所示,基于最大熵强化学习的多智能体协同调度方法，还可以包括步骤S700至步骤S900:

步骤S700,采集所述生产线的第二环境数据，对所述目标策略模型的初始调度策略进行调整，得到中间调度策略；

步骤S800,通过混合云边协同计算架构，根据所述中间调度策略以及所述第二环境数据，对所述目标策略模型进行训练，生成所述目标调度策略；

步骤S900,根据所述目标调度策略，执行目标生产任务，得到反馈信息。

在一些实施例的步骤S700中，通过实时采集的生产线的第二环境数据，对所述目标策略模型的初始调度策略进行在线优化与调整。可选地，在线优化与调整可以是智能体利用实时反馈的数据，通过增量学习机制，迅速吸收新信息并更新策略。通过多层次反馈机制使得智能体能够在短期内进行调整，同时基于长期表现进行行为优化，从而实现持续的策略改进和适应性提升，从而得到在线优化与调整后的中间调度策略。

在一些实施例的步骤S800中，混合云边协同计算架构是一种将云计算与边缘计算相结合的架构，旨在提高计算效率、降低延迟、增强数据处理能力和优化资源利用。在这种架构中，云端和边缘端各自承担不同的角色和任务，相互协作以实现整个系统的最佳性能。可选地，在云端对目标策略模型进行复杂的策略训练与全局数据分析，同时在边缘节点处理智能体的实时决策和环境感知任务，生成目标调度策略。则通过混合云边协同计算架构，在确保高计算密度的同时，可以实现低延时的实时响应，使得智能体在数据密集型任务和快速响应任务中表现更加优异。

在一些实施例的步骤S900中，通过分析生产线上的各个环节和任务执行过程中产生的中间数据(如调度策略、生产任务、环境数据、反馈信息等，但不限于此)，系统会自动生成优化建议(如调整某类物料的配送频率或优化某条任务路径)，并通过人机交互界面展示给操作人员。此外，操作人员可以通过自然语言指令与系统进行交互，实时调整任务调度参数，进一步提升人机协作效率。

如图3所示，本发明实施例还提供一种基于最大熵强化学习的多智能体协同调度系统，可以实现上述的一种基于最大熵强化学习的多智能体协同调度方法，该系统包括：

第一模块(多智能体决策模块)，用于根据生产线的第一环境数据，生成环境状态向量；

第二模块(多智能体决策模块)，用于根据所述环境状态向量，生成初始生产任务；

第三模块(任务调度与路径规划模块)，用于对所述初始生产任务进行任务调度操作，并生成路径规划；

第四模块(共享经验池模块)，用于对所述环境状态向量、所述初始生产任务以及所述路径规划进行存储，得到经验数据；

第五模块(强化学习训练模块)，用于根据所述经验数据，通过最大熵强化学习算法对初始策略模型进行训练，得到目标策略模型；

第六模块(目标调度策略生成模块)，用于根据所述目标策略模型，得到多智能体协同的目标调度策略。

如图3所示，本发明实施例提供的一种基于最大熵强化学习的多智能体协同调度系统，还可以包括：

第七模块(在线优化与反馈调整模块)，用于采集所述生产线的第二环境数据，对所述目标策略模型的初始调度策略进行调整，得到中间调度策略；

第八模块(混合云边协同计算架构模块)，用于通过混合云边协同计算架构，根据所述中间调度策略以及所述第二环境数据，对所述目标策略模型进行训练，生成所述目标调度策略；

第九模块(智能化生产建议与人机交互模块)，用于根据所述目标调度策略，执行目标生产任务，得到反馈信息。

在一些实施例中，基于最大熵强化学习的多智能体协同调度系统包括：

多模态感知模块，通过激光雷达、摄像头、力传感器等多种传感器实时采集生产线的环境数据，包括物料位置、设备状态、其他机器人的位置和任务进度等，并进行融合处理，生成状态向量，用于辅助智能体的任务选择和路径规划，同时结合情境识别模型的情境识别功能，对生产环境的变化趋势进行预测分析。其中，情境识别模型结合机器学习算法，能够基于历史数据和当前环境变化模式进行预判，提高智能体对异常情况的应对能力。

多智能体决策模块，用于基于强化学习模型生成的策略，结合多模态感知模块获取的环境状态，为每个机器人智能体选择最优的任务执行路径和动作，并可以通过自适应熵权重调整机制在不同生产环境下动态调整智能体的探索与利用的平衡，还可以通过增量学习共享机制吸收其他智能体的增量更新数据，以提高决策效率。

任务调度与路径规划模块，基于图神经网络(Graph Neural Networks,GNNs)模型对各智能体的任务分配进行优化，结合自适应任务负载预测与预分配机制进行动态任务调度，结合多层次图神经网络(GNN)通信机制，实现智能体之间的局部与全局信息共享。并在路径规划中应用路径交互避让机制，以避免多智能体间的路径冲突，提高整体生产效率。

在一些实施例中，自适应任务负载预测与预分配机制包括：在任务调度中引入自适应任务负载预测模块。通过对历史生产数据和当前任务状态进行时间序列分析，智能体可以预估未来一段时间内的任务负载波动，并提前调整任务分配策略。这样，智能体可以在任务高峰期时提前准备，并在低负荷时进行路径优化和维护操作，从而实现生产线负载的动态平衡。

在一些实施例中，多层次图神经网络通信机制包括：采用多层次GNN通信模型，将智能体的通信分为局部通信和全局广播两部分。局部通信用于智能体与附近其他智能体分享状态和任务进度，而全局广播则在生产线发生重大变化时，将关键信息(如物料短缺、设备维护)同步给所有智能体。多层次的通信机制提高了智能体在不同环境中的信息感知能力，确保系统在变化环境下的快速响应。

在一些实施例中，路径交互避让机制包括：在路径规划过程中引入路径交互避让机制，智能体在检测到即将与其他智能体发生路径冲突时，可以通过共享通信协议进行动态避让协商。通过对路径的优先级进行评估，智能体能够自主决定是调整自身速度还是改变路径方向，从而减少因路径冲突导致的等待时间。

共享经验池模块，用于存储智能体在任务执行过程中的经验数据，包括状态、动作、奖励和下一状态，通过优先级学习机制对高优先级任务的数据进行加权处理，并支持增量学习共享机制，使智能体能够选择性地学习其他智能体的增量策略更新，显著提高了学习效率和系统响应速度。

强化学习训练模块，基于最大熵强化学习(Soft Actor-Critic,SAC)算法进行集中式训练，通过云端计算平台训练各智能体在不同任务和环境条件下的最优策略，并将训练完成的模型部署至边缘计算节点，实现分布式的实时决策与执行，以及实现智能体的低延时决策。可选地，还可以部署策略自适应进化机制，部署后的智能体不仅能够根据实际生产情况进行自适应调度，还能通过策略进化算法逐步优化其策略参数。在生产线长时间运行后，智能体会对其策略进行评估，并根据评估结果通过策略交叉、变异等进化操作生成新策略。策略进化机制使得智能体能够在运行中逐渐优化其任务执行策略，实现自我优化。

在线优化与反馈调整模块，用于在生产过程中根据实时采集的数据对智能体策略进行在线调整，通过增量学习共享机制加速策略更新，并基于多层次反馈机制对短期和长期的行为表现进行优化，以提高系统的适应性。进一步地，通过引入多层次反馈机制，智能体不仅可以根据当前状态进行短期调整，还能够基于长时间的任务执行表现进行行为调整(如调整对某类任务的优先级或行动方式)。这种多层次反馈机制使得智能体的行为更加精细化，从而能够在长期运行中逐步优化任务执行效率。

在一些实施例中，在传统在线学习基础上，引入了智能体间的增量学习共享机制，则每个智能体在生产过程中更新的策略变动会通过共享经验池进行同步，其他智能体可以选择性地学习这些增量更新，而不必完全重新训练。这种方式大幅缩短了策略调整时间，并使得多智能体系统能够更快速地学习到最新的任务执行方法。

在一些实施例中，还可以将多维度环境感知机制引入到在线学习模块中，不仅捕捉生产线的实时状态数据，还对环境中的潜在趋势进行情境识别。例如，当检测到生产线上的物料消耗速度增加，智能体能够提前预警并调整策略，以避免物料短缺导致的停工。

混合云边协同计算架构模块，支持系统在云端进行复杂的策略训练与全局数据分析，同时在边缘节点处理智能体的实时决策和环境感知任务。通过混合云边协同计算架构，系统在确保高计算密度的同时，实现了低延时的实时响应，使得智能体在数据密集型任务和快速响应任务中表现更加优异。

智能化生产建议与人机交互模块，通过分析生产线上的瓶颈环节和任务执行数据，系统会自动生成优化建议(如调整某类物料的配送频率或优化某条任务路径)，并通过人机交互界面展示给操作人员。支持自然语言交互，操作人员可以通过语音或文本命令与系统互动，实时调整调度参数，进一步提升人机协作效率。这种人机协作方式提高了系统在不同生产阶段的灵活性，并使操作人员能够轻松地对生产流程进行优化调整。

为了验证基于最大熵强化学习的多智能体协同调度方法及系统在柔性生产线中的应用效果，搭建了一套实验环境。实验环境模拟了一个多机器人协作的生产车间，其中包括自动化搬运机器人、装配机器人和检测机器人三种类型的智能体，共计10台，每种类型各有不同的任务和功能。这些智能体的任务是协同完成多个产品的组装、检测和配送工作。实验车间配备了多种传感器，包括激光雷达、高清摄像头、压力传感器和力传感器，用于实时采集生产线上的环境数据。实验场地中设置了复杂的物料流转路线和多种设备(如流水线、检测台、装配工作台等)，以模拟真实生产线中不同设备之间的交互过程。

为了实现智能体间的实时通信和任务协调，实验环境还搭建了一个边缘计算节点用于处理多智能体的实时决策和数据交互。同时，连接到云端的计算平台用于进行复杂策略模型的训练和优化。系统的核心算法和任务调度策略由SAC强化学习模型和图神经网络(GNN)进行支持，以确保各智能体在多变的生产任务中能有效进行任务分配和路径优化。

实验环境的目标是模拟在不同生产负荷、突发任务变化、设备故障等条件下，智能调度系统对柔性生产线的任务执行效率、能耗优化、任务响应速度等多个维度的表现，从而验证系统的可靠性和优越性。

以下为该实验的具体步骤过程：

步骤1：环境初始化

1.1启动实验环境，包括边缘计算节点和云端计算平台，确保两者间的网络连接稳定。

1.2启动生产车间内的各类传感器，包括激光雷达、高清摄像头、力传感器等，确保实时数据可以传输到边缘节点并供智能体决策使用。

1.3初始化各类智能体(搬运机器人、装配机器人、检测机器人)的位置和初始状态，并将智能体连接到边缘计算节点上，以便实现实时的数据传输和任务调度。

步骤2：强化学习模型训练与部署

2.1利用云端计算平台，对多智能体的策略模型进行集中式训练。训练数据包括历史生产数据、仿真环境下的任务执行数据等。训练过程中采用SAC(Soft Actor-Critic)算法，并结合多目标奖励函数，优化各智能体的任务执行策略。

2.2将训练完成后的强化学习模型下载到边缘计算节点，并部署到各个智能体上，使其能够在实际生产过程中根据环境状态进行实时决策。

2.3启动共享经验池模块，智能体在实际生产中执行任务时，会将经验数据(如状态、动作、奖励等)上传到经验池中，用于后续的在线策略优化。

步骤3：任务调度与执行

3.1实验开始时，随机生成一批生产任务，包括物料搬运、产品装配、产品检测等，任务要求各个智能体协同完成。

3.2多智能体决策模块基于实时感知数据，结合SAC模型生成的策略，为各智能体分配具体任务。任务调度与路径规划模块通过图神经网络(GNN)模型，优化智能体的路径选择，避免智能体之间的路径冲突。

3.3各智能体根据分配的任务进行操作，例如搬运机器人负责从仓库搬运物料至装配区，装配机器人完成部件的组装，而检测机器人则在产品装配后进行质量检测。

3.4在线优化模块在任务执行过程中持续监控各智能体的状态变化和任务完成情况，当检测到环境发生变化(如任务需求增加、设备故障等)时，实时调整智能体的任务和路径。

步骤4：异常处理与策略调整

4.1人为设置实验中的一些异常情境，如增加突发任务、临时故障的设备停机、部分路径被占用等，以测试系统在异常情况下的反应速度和调整能力。

4.2智能体根据在线学习机制，在环境变化时调整策略，通过增量学习从异常处理中快速获取新的经验，并将其上传至共享经验池。

4.3系统在接收到异常反馈后，动态调整任务分配方案，利用自适应熵调整机制，使智能体在面对新的复杂环境时能更快地探索并找到适应的策略。

步骤5：数据采集与分析

5.1记录实验过程中各智能体的任务完成时间、能耗情况、任务分配调整次数、路径规划调整次数、生产效率等数据。

5.2在边缘计算节点上进行实时数据分析，监控每个智能体的任务执行效率和路径规划效果，生成实时数据报告。

5.3实验结束后，将所有数据同步到云端平台，对各类数据进行进一步的统计分析，包括任务平均完成时间、能耗变化、智能体之间的协作效率，以及不同异常情境下的响应时间。

步骤6：实验结果评价

6.1比较智能化调度系统在不同负荷(高负荷、低负荷)、不同异常情况(任务突增、设备故障)下的调度效率和生产线整体运行稳定性。

6.2分析智能体在使用增量学习机制后的策略优化速度与传统在线学习的差异，验证增量学习对快速适应能力的提升。

6.3通过多目标奖励函数的权重调整，分析能耗与生产效率之间的平衡点，评估系统在不同生产需求下对各优化目标的适应能力。

步骤7：实验总结与优化建议

7.1根据实验结果，评估多智能体系统在生产线中的实际表现，总结系统在任务分配、路径规划和在线学习等方面的优缺点。

7.2针对实验中发现的问题(如某些特定情境下的策略调整速度较慢、智能体间的通信延迟等)，提出进一步的改进措施和优化方向。

7.3结合实验中智能化生产建议与人机交互模块生成的优化方案，对实际生产线的调整提出建议，包括优化生产流程、提升设备利用率等。

可以理解的是，上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供了一种电子设备，该电子设备包括处理器以及存储器，存储器存储有计算机程序，处理器执行计算机程序时实现上述的一种基于最大熵强化学习的多智能体协同调度方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。

可以理解的是，上述方法实施例中的内容均适用于本设备实施例中，本设备实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

参考图4，图4示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器1001，可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明实施例所提供的技术方案；

存储器1002，可以采用只读存储器(Read Only Memory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory，RAM)等形式实现。存储器1002可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1002中，并由处理器1001来调用执行本发明实施例的一种基于最大熵强化学习的多智能体协同调度方法；

输入/输出接口1003，用于实现信息输入及输出；

通信接口1004，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线1005，在设备的各个组件(例如处理器1001、存储器1002、输入/输出接口1003和通信接口1004)之间传输信息；

其中处理器1001、存储器1002、输入/输出接口1003和通信接口1004通过总线1005实现彼此之间在设备内部的通信连接。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述的一种基于最大熵强化学习的多智能体协同调度方法。

可以理解的是，上述方法实施例中的内容均适用于本存储介质实施例中，本存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述的一种基于最大熵强化学习的多智能体协同调度方法。

综上所述，本发明实施例的一种基于最大熵强化学习的多智能体协同调度方法及系统具有以下优点：

1、本发明实施例通过最大熵强化学习的高探索性、多智能体共享经验池、层次化协同策略以及自适应熵权重调整机制，提升多机器人系统在动态生产环境中的任务分配和路径优化能力。该系统结合多模态感知和在线学习，实现了生产过程中智能体间的高效协作与实时优化，为柔性生产线提供了一种智能化、适应性强的调度解决方案。

2、本发明实施例设计基于最大熵强化学习的调度算法，使智能体在高不确定性和动态变化的生产环境中，能够快速探索并找到合适的任务分配和路径规划策略，提高生产线的适应能力。通过自适应熵权重调整机制，使得智能体在不同生产阶段自动平衡探索与利用，提升策略优化速度和决策灵活性。

3、本发明实施例通过多智能体的共享经验池和层次化的协同策略，实现多机器人在任务执行过程中有效的信息共享和协同决策，减少机器人之间的资源冲突和路径干扰，优化任务执行顺序。设计基于图神经网络的多智能体通信机制，使得智能体在做决策时，能够充分考虑周围其他机器人的状态和任务情况，从而提升多机器人系统的整体协作效率。

4、本发明实施例结合多模态感知模块和在线学习机制，使智能体能够实时感知生产环境的变化，并根据新数据动态调整调度策略，实现生产过程中的自学习和持续优化。设计智能体间的在线反馈机制，使得系统在出现生产异常时(如设备故障、物料短缺等)，能够迅速进行策略调整，确保生产线的高效运行和稳定性。

5、本发明实施例通过最大熵强化学习的高探索性，使智能体在多样化的生产场景中快速适应环境变化，避免因过早陷入局部最优而导致整体效率下降的问题。引入多智能体间的优先级训练机制，使智能体在高优先级任务下能够更快地找到最优策略，提高系统对关键任务的响应速度。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种基于最大熵强化学习的多智能体协同调度方法，其特征在于，包括以下步骤：

根据生产线的第一环境数据，生成环境状态向量；

根据所述环境状态向量，生成初始生产任务；

对所述初始生产任务进行任务调度操作，并生成路径规划；

2.根据权利要求1所述的一种基于最大熵强化学习的多智能体协同调度方法，其特征在于，还包括以下步骤：

3.根据权利要求1所述的一种基于最大熵强化学习的多智能体协同调度方法，其特征在于，所述对所述初始生产任务进行任务调度操作，并生成路径规划，包括以下步骤：

构建所述初始生产任务的预分配机制；

4.根据权利要求1所述的一种基于最大熵强化学习的多智能体协同调度方法，其特征在于，所述对所述环境状态向量、所述初始生产任务以及所述路径规划进行存储，得到经验数据的步骤之后，还包括以下步骤：

构造多智能体的特征权重；

通过KL散度以及所述特征权重，构造策略参数损失函数；

5.根据权利要求1所述的一种基于最大熵强化学习的多智能体协同调度方法，其特征在于，所述根据所述经验数据，通过最大熵强化学习算法对初始策略模型进行训练，得到目标策略模型，包括以下步骤：

构造动态多目标奖励函数；

6.根据权利要求5所述的一种基于最大熵强化学习的多智能体协同调度方法，其特征在于，所述根据所述动态多目标奖励函数以及熵系数，构造最大熵强化学习算法的目标函数，所使用的公式包括：

其中，J(π)代表目标函数，是策略π的性能指标；t代表时间步，t＝0,1,…,T；s_t代表状态；a_t代表动作；r(s_t,a_t)代表在状态s_t采取动作e_t时的即时奖励，即所述动态多目标奖励函数；α(s_t)代表根据状态s_t的动态复杂度进行调整的熵系数；代表策略π在状态s_t下的条件熵；代表在策略π下状态s_t和动作a_t的联合分布的期望值。

7.一种基于最大熵强化学习的多智能体协同调度系统，其特征在于，，包括：

第一模块，用于根据生产线的第一环境数据，生成环境状态向量；；

8.根据权利要求7所述的一种基于最大熵强化学习的多智能体协同调度系统，其特征在于，还包括：

9.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1至6中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1至6中任一项所述的方法。