新闻资讯

从光子实现角度实现无冲突并行 Q-Learning 的强盗方法

介绍
强化学习是一种机器学习技术,使代理能够在特定环境中通过反复试错来执行所需的任务[ 1 ]。之前的研究中采用的方法已经取得了显着的成果,包括在围棋等棋盘游戏中战胜了职业人类棋手 [ 2 , 3 ]。最近,人们提出了强化学习的光子方法,以外包计算成本并利用光的物理性质[ 4-8 ]。

先前的研究利用光子的量子性质解决了强盗问题,这是一种基本的强化学习模型[ 9-12 ]。老虎机问题是人类决策中常用的模型[ 13 ]。多台老虎机按概率生成奖励,并且代理尝试在一次只能玩一台机器的约束下最大化机器的累积奖励 [ 1 , 14]。因为在游戏的早期阶段,代理缺乏对机器奖励概率的了解,所以它必须与各种机器(包括明显不好的机器)一起玩,以准确估计奖励概率。这是由于奖励生成的随机性造成的;也就是说,一台机器不应该仅仅因为它当时没有产生很多奖励而被认为具有低奖励概率。但如果代理过多地玩坏机,就会遭受损失;因此,它必须集中在游戏后期奖励概率最高的机器上。前者称为探索,后者称为利用;平衡这两个相互冲突的需求是解决这个问题的关键[ 15]。Softmax规则是一种通过概率决策来平衡探索和利用的模型,被认为是最适合人类决策的模型[ 13 ]。

光子的量子性质可以用来解决强盗问题。特别是,通过将机器的选择映射到光子状态的观察,可以实现概率决策,因为观察到的状态是概率确定的[ 9 ]。此外,由于纠缠和量子干涉,光子在决策中的作用变得至关重要,这是量子物理学的固有属性[ 10 – 12]。例如,考虑这样一种情况,其中 2 个智能体同时解决强盗问题,但选择同一台机器会减少总奖励。这类似于现实世界的情况,即多人或设备同时连接到同一无线信道,导致个人通信速度下降[ 14 , 16 – 18 ]。通过观察偏振纠缠的 2 光子对的状态,两个智能体可以确保他们的选择在这种情况下始终不同。也就是说,纠缠避免了选择冲突。

肖维等人。[ 10 , 11 ] 理论和实验表明,处理上述情况的竞争性多臂老虎机问题,可以通过使用偏振纠缠的光子对,由面对两台机器的 2 个代理来解决,而不会出现选择冲突。他们的系统的显着之处在于,由于量子纠缠,代理可以避免选择冲突,而无需直接就要选择的机器进行相互通信。此外,Amakasu 等人。[ 12] 理论上表明,利用光轨道角动量的量子干涉,该系统可以扩展到处理 3 个或更多机器。因此,他们开发了一种光子系统,确保 2 个智能体与任意数量的机器进行无冲突选择。此外,新川等人。[ 19 ]提出了一个问题,其中人们个人对选项有概率偏好,导出了满意度方面的最佳联合决策,并证明基于光子量子干涉的系统可以为该问题提供启发式解决方案[ 20 ]。这是光子系统协调多个体决策的另一个例子。

本研究旨在展示光子强化学习方案的潜力,该方案需要将合适的算法与利用光子独特物理性质的光子系统相结合。根据之前的研究,光子系统可以用来解决老虎机问题,这是一个简单的强化学习任务。然而,为了解决具有挑战性的问题,必须扩展光子系统,使其可以处理 3 个或更多代理,并且必须相应地修改算法。强盗问题中的环境是静态的,而一般强化学习问题中的环境通常是动态的。特别是,环境(奖励概率)与强盗问题中的代理行为无关。相反,在一般的强化学习问题中,环境状态会因智能体的行为而发生变化,在学习过程中必须考虑这一点。这项研究提出了一种改进的算法,可以解决更广泛的强化学习问题。虽然用 2 个以上代理扩展光子系统仍然是开放的,并且必须在未来的研究中解决,但这项研究为光子强化学习方案奠定了基础,一旦光子系统开发出来,就可以实施该方案。

我们将网格世界问题视为一个动态环境[ 21 ]。它是单元格的集合,代理可以在其中执行向上、向下、向左或向右操作。根据细胞和动作的组合,智能体从环境中获得不同的奖励。由于不同的细胞有不同的奖励环境,网格世界是一个动态的环境。
虽然 Q 学习通常用作强化学习的算法 [ 22-24 ],但本研究提出了 Q 学习与 bandit 算法的组合,称为改进的 bandit Q 学习(BQL)。虽然Q-learning的目的是学习最优路径,但本研究的目的是高精度地学习整个环境中每个状态-动作对的价值。因此,假设代理偏离了最佳路径。在这种情况下,它会从环境中的任何位置准确地返回到最佳路径。
在所提出的 BQL 方法中,每个智能体在每个时间步选择环境中的状态-动作对,并更新相应的Q值(详细定义在材料和方法部分给出)。对要选择的状态-动作对的决策具有类似于强盗问题的结构,因为代理必须平衡 2 个需求;第一个是exploitation的需求,即暂时更新可能具有较大ΔQ值(Q值的变化)的状态-动作对,以加速学习。二是准确估计ΔQ期望值的探索需求对于尚未经常访问的其他状态-动作对。因此,通过将状态-动作对视为机器并将 Δ Q视为奖励,整个环境的Q值的准确估计可以被视为老虎机问题。

此外,我们考虑多个智能体同时参与学习并遵循 BQL 的情况。我们证明,通过避免同时选择相同的状态-动作对可以加速学习;也就是说,通过迫使代理人做出无冲突的决定。如前所述,我们还没有设想出一种光子系统,可以在不直接通信的情况下在两个以上代理之间进行无冲突选择。因此,本研究在算法上实现了无冲突选择,这本质上意味着迫使代理人公开他们的选择。一旦将来开发出具有超过 2 个智能体的光子系统,我们的方案将通过光子系统和我们提出的算法的混合来实现,从而消除智能体共享其选择的必要性。

本文的其余部分安排如下。网格世界问题部分描述了实验环境和网格世界。Bandit Q-learning 部分解释了 Q-learning,然后详细描述了所提出的方法 BQL。并行学习部分提供了多个智能体同时探索时环境的响应,通过量子干涉进行协作决策部分说明了使用光子量子干涉的选择冲突避免系统。结果部分演示了使用 BQL 在网格世界中执行实际搜索的结果,以量化 bandit 算法对学习的影响以及避免选择冲突的影响。最后,讨论部分讨论了结果和未来的前景。

材料和方法
网格世界问题
网格世界的示意图如图1所示,网格世界经常被用作强化学习研究的模型[ 21 ] 。代理存在于网格世界中并在环境中移动。

图。1。5 × 5 网格世界。代理在每个时间步执行 4 个操作之一,并接收奖励和下一个状态。在特殊的单元格 A 和 B 中,奖励很大,代理会跳转到另一个单元格。

在此示例中,世界由 5 × 5 单元格网格表示,其中每个单元格称为“状态”。在每个时间步,代理选择一个“动作”,向上、向下、向左或向右。在网格世界中,当智能体在时间步t处于状态t时,所选择的动作a t决定奖励r t和由环境提供的下一个状态t +1。在本研究中,我们假设环境是马尔可夫的,这意味着下一个状态s t +1仅由当前状态s t和t采取的行动决定。例如,如果智能体位于左上角单元格并选择动作“向右”,则智能体将获得特定奖励并移动到单元格 A。这里,确定智能体在每个状态下选择的动作的规则被称为“政策”。在本研究中,我们将策略限制为确定性的。

Bandit Q 学习
解决网格世界问题的常见方法是 Q 学习。Q-learning是一种应用广泛的强化学习方案,基本介绍可以在参考文献中找到。[ 23 ]。

在本研究中,我们提出了一种改进的 Q 学习方案,将原始 Q 学习解释为关于代理在每个时间步选择什么状态-动作对 ( s,  a )的决策问题。然后,我们使用用于多臂老虎机的算法来解决修改后的 Q 学习问题,并表明老虎机算法确实适合此任务。
算法 1 概述了我们修改后的 Q 学习设置。与基本的 Q 学习不同,在这个修改后的 Q 学习设置中,状态-动作对 ( s t +1 ,  a t +1 ) 是在每一步从环境中所有可能的对中直接选择的。代理本身决定选择哪个状态-动作对,我们设计这个决策算法的目标是实现网格世界的快速学习。

算法 1 表明,智能体在每个时间步更新的状态-动作对 ( s t,  a t ) 是根据“特定标准”确定的。这项研究表明老虎机算法可以有效地作为选择标准。

允许我们使用强盗算法来增强 Q 学习的主要实现如下:在网格世界中的 Q 学习中,智能体试图预测沿着特定路径前进的“价值”,以最大化其奖励。然而,最初,它的 Q 表还没有很好地建立,因此它对未来的预测很差。对环境进行统一的探索似乎是实现这一目标的最彻底的方法,但正如我们稍后将用数值证明的那样,通常情况并非如此。事实上,智能体应该专注于探索对 Q 表的学习有巨大影响的网格单元和动作(=运动)。

Δ Q ( s ,  a ) 越大意味着学习速度越快。因此,智能体应该选择具有高期望值 Δ Q ( s ,  a ) 的状态-动作对( s ,  a ),以使学习过程更加高效。然而,其他状态动作对 ( s ,  a ) 的潜在更新 Δ Q ( s ,  a ) 可能会更高,并且也会随着更新的进行而变化。因此,智能体不能仅仅依赖于选择相同的状态-动作对(s,  a)一遍又一遍,纯粹是因为它在过去有效。代理还需要探索其他对。这个结构类似于老虎机问题的结构。
因此,通过将每个状态-动作对 ( s ,  a ) 视为老虎机,并将Q ( s ,  a ) 的变化视为改进的 Q 学习算法的强盗问题背景下的奖励,我们可以将代理的尝试选择具有较大 Δ Q 的状态 - 动作对 ( s ,  a ) 作为“利用”,并将对其他状态 - 动作对 ( s ,  a ) 的 Δ Q的研究作为“探索”。因此,我们将改进的 BQL 定义为遵循改进的 Q 学习的算法,其中老虎机算法充当选择标准。
在 BQL 中,代理遵循 softmax 算法,这是一种广泛使用的算法,成功解决了 bandit 问题。代理记录每个状态-动作对 ( s ,  a ) 的 Δ Q。令μ t ( s ,  a ) 为时间步长t的 Δ Q ( s ,  a )的经验平均值。智能体在下一个时间步t + 1 选择状态-动作对 ( s i ,  a j )的概率

在结束本节之前,我们对老虎机问题和 Q 学习进行了简短的文献回顾。多臂老虎机问题由 Robbins 于 1952 年提出[ 27 ]。从那时起,人们进行了广泛的研究,甚至转化为光子实现,如引言部分所述。Kuleshov 和 Precup [ 28 ]回顾了老虎机算法的代表性算法。本研究使用softmax方法[ 13 ],因为它的简单性和在未来光子实现中使用的强大潜力[ 12 ],尽管其他强盗算法,如置信上限[ 29 ]和汤普森采样[ 30]] 也可以用于老虎机策略。Q-learning 的基本原理已在引言部分介绍[ 22-24 ]。此外,在网格世界问题部分定义网格世界问题时,参考贝尔曼方程[ 25,26 ]讨论了Q值的基本概念及其最优性。Clifton 和 Laber 在参考文献中对 Q-learning 进行了广泛的回顾。[ 31 ]。
并行学习
bandit 算法也适用于并行学习。当多个智能体并行探索时,它们可以提高学习 Q 表的速度。在本研究中,多个智能体基于BQL参与同时更新Q ( s ,  a )的全局查找表以加速学习过程,如图2所示。也就是说,在我们的设置中,代理共享Q ( s ,  a ) 的全局查找表,同时单独记录 Δ Q ( s ,  a )的单独表。在每个时间步t,每个智能体都参考 Δ Q它记录了表并根据式(1)中的softmax算法确定要更新的状态-动作对(s t,  a t ) 。4 . 这对应于它试图通过查找导致较大更新 Δ Q ( s ,  a ) 的状态动作对 ( s ,  a ) 来尽快更新全局Q ( s ,  a ) 表。接下来,它观察任何潜在的奖励rt并检索Q ( s t ,  a t) 从全局查找表中,根据方程 (1 ) 计算更新 Δ Q ( s t ,  a t ) 3,并将更新后的Q ( s ,  a )发送回全局表。它还更新μ t ( s ,  a ) ,即 Δ Q ( s ,  a )的经验平均值,用于该特定的状态-动作对,以供将来使用。

图2 . 由多个代理组成的 BQL 结构。每个代理从全局查找表中查找Q值,使用生成的奖励和环境提供的下一个状态更新它,并将其发送回全局表。在我们的方案中,Agent之间不是直接相连的,也不能相互通信;然而,由于光子的量子干涉,它们的状态-动作选择是协调的。然而,我们在本研究中使用算法来协调他们的选择,因为我们无法用 2 个代理来扩展光子系统。

一个重要的规则是,当 2 个或更多代理尝试在同一时间步更新相同的状态动作对 ( s,  a ) 时,只有其中一个更新会随机反映到全局查找表中。这取决于问题设置;然而,现实世界中存在这样的例子:多个主体对状态-动作对进行相同的调查是有害的。例如,考虑一个探索场景,其中使用声波来揭示海底的底层地层。多个智能体同时进行同一位置探索会导致干扰并产生不良结果。
此外,即使我们允许多个智能体同时更新并计算 Δ Q的总和以反映到全局表中,这也可能会干扰 Q 学习的收敛性,因为获取总和本质上意味着在本地改变学习率α这个特定的时间步长。

将我们的方法与传统的多智能体强化学习区分开来非常重要,传统的多智能体强化学习中多个学习智能体在共享环境中交互并拥有单独的 Q 表 [ 32 , 33 ]。另一方面,我们的方法涉及使用通用 Q 表的代理,使其更类似于并行或分布式学习。并行化是强化学习中用于减少训练时间的常用技术[ 34-36 ]。

通过量子干涉进行合作决策
本节解释了如何利用光子的量子干涉,使得多个智能体可以避免在同一时间步骤选择相同的状态动作对(s,  a),而无需直接了解其他智能体的选择。正如已经提到的,我们无法用 2 个智能体扩展传统的协作决策系统,因此结果部分中显示的数值演示使用算法方式来避免选择冲突。因此,我们将仅在本节中介绍核心概念,并概述光子实现原则上如何发挥作用。

由于光子的量子特性,每个OAM的检测概率是使用概率幅值的模平方来计算的。此外,衰减器的使用使我们能够控制概率幅度,从而改变观测概率。在他们提出的系统中,Amakasu 等人。设置K等于选项的数量(在我们的例子中,这是状态-动作对的数量),并设计了一个协议,其中代理选择索引与检测到的 OAM 数量相同的选项。例如,如果第一个代理检测到 OAM ∣ + 1>,则该代理选择第一个选项。该协议支持概率决策,因为衰减器对概率幅度的控制导致了对选项选择概率的控制。
当两个智能体同时遵循上述协议基于概率做出决策时,量子物理学的使用会产生影响。存在一种称为红欧曼德尔干涉的量子效应,当通过这种效应连接的光子对被 2 个探测器观察到时,总是会观察到不同的 OAM。根据该协议,两个智能体总是选择不同的选项,而不会互相通知他们的选择;也就是说,无冲突的选择是可能的。红欧曼德尔干涉的实现非常简单,只需使用非常基本的光学仪器即可完成,例如空间光调制器和分束器,如图3所示。

图3 . 双光子红欧曼德尔干涉。∣Φ> 和∣Ψ> 表示由空间光调制器控制的光子的状态。
尽管详细设计尚未设计,但通过级联多个空间光调制器和分束器以及适当配置输入 OAM 状态作为扩展,很可能可以使用 3 个或更多智能体实现无冲突概率决策之前的设置。例如,图4示出了具有3个光子的光子配置的示意图。该系统完全消除了所有代理选择相同选项的选择;然而,只有 2 个代理选择相同选项的选择仍然存在。已经进行了许多关于多光子之间的量子干涉的研究,包括参考文献。[ 37 – 39]; 因此,成功地将这些方法与OAM的使用相结合对于开发未来完全消除选择冲突的光子系统具有指导意义。

图4 . 具有 3 个光子的光子配置。∣Φ>、∣Ψ> 和∣Ξ> 代表光子的状态。
在我们的方案中,我们假设可以实现并利用多光子无冲突系统,通过光子的量子干涉来协调N 个智能体的概率决策,从而选择状态-动作对 ( s ,  a)。这使得代理能够防止选择冲突,而无需彼此就对的选择进行通信。由于避免了不必要的更新,不仅加速了学习,而且还可以减少交换有关状态-动作对选择的信息所需的资源。请注意,不同代理的同时更新对于除一个代理之外的所有代理来说都是一种浪费,如并行学习部分中所述。这项研究通过在计算机上数值计算联合选择概率而不是使用光子系统,使用算法实现了无冲突选择。

结果
本研究考虑了图1所示的 5 × 5 网格世界,我们分析了多个智能体根据改进的 Q 学习在每个时间步更新状态动作对 ( s ,  a ) 的情况(算法1)。

网格世界的规则
网格世界中的状态-动作组合决定了代理及其移动到的单元格收到的奖励。本研究使用以下设置:
•    
当从单元格 A 采取任何操作时,该单元格产生 +10 奖励的机会是 50%,并且智能体跳转到单元格 A'。如果没有产生奖励,代理将保留在单元格 A 中。
•    
当从单元格 B 采取任何操作时,该单元格产生 +5 奖励的机会是 50%,并且智能体跳转到单元格 B'。如果没有产生奖励,代理将保留在单元格 B 中。
•    
在任何其他单元格中,不会生成任何奖励,并且目的地遵循操作,除非智能体撞到墙上。在这种情况下,会生成 -1 的奖励,并且代理保留在当前单元格中。

目标
每个智能体在每个时间步选择一个状态-动作对 ( s ,  a ) 并根据算法 1 更新Q ( s ,  a )。在本研究中,我们考虑了 10 到 100 个智能体,具有 100 个状态-动作对(25 个单元格和每个单元格中有 4 个动作)。为了量化学习准确性,

本研究测试了两个主要点:首先,我们测试了 bandit 算法是否优于算法 1 中的随机选择。也就是说,我们比较了 BQL 和智能体统一随机决策而不是使用softmax算法作为算法1中的选择标准。

其次,我们考虑了状态-动作对选择中避免冲突对学习的影响。如并行学习部分所述,如果多个智能体同时选择相同的状态动作对 ( s,  a ),则只有其中一个更新会反映在全局 Q 表中。因此,可以通过避免选择冲突来加速学习过程。本研究旨在量化这种影响。此外,我们还证明了避免冲突的重要性,尤其是在使用 BQL 时。参数如下:迭代次数T为20,000,算法1中的学习率α初始设置为0.035,并在t时线性衰减至α  = 0 = 20,000,时间折扣γ为0.9。方程中的β 4控制 BQL 中使用的 softmax 算法的探索和利用程度,最初设置为 1.0,并在t = 20,000 时线性增长到β  = 5.0  ,因为在学习的后期阶段需要更多的利用。

性能对比
图6 A 至 C 分别显示了 10、50 和 90 个智能体的平均损失L t,它量化了学习过程中最优动作值函数和Q值之间的差距。其中,蓝色和橙色曲线代表允许不同智能体同时选择相同状态-动作对的情况,用“冲突”表示。蓝色和橙色曲线的状态-动作对选择过程有所不同。图例“uniform random/conflict”表示的蓝色曲线基于随机选择,而“bandit/conflict”表示的橙色曲线基于等式1中的softmax算法。4 .

图6 . 比较 5 × 5 网格世界的 4 种学习方法,如材料和方法部分所述。显示了具有 (A) 10 个智能体、(B) 50 个智能体和 (C) 90 个智能体的 4 种学习方法的平均损失,代表学习期间最佳动作值函数和Q值之间的差距。学习方法沿两个轴划分:是否使用老虎机算法作为选择标准以及是否允许不同代理之间的选择冲突。

类似地,绿线和红线代表以“无冲突”方式进行状态-动作对选择的情况,如图例的后半部分所示。不允许代理在同一时间步骤选择相同的状态-动作对。此外,绿色曲线中的操作以均匀随机的方式选择,而红色曲线则基于基于老虎机的方法。因此,绿色和红色曲线分别表示为“均匀随机/无冲突”和“强盗/无冲突”。

首先,我们将基于随机的线与基于 bandit 的线进行比较,以检查 bandit 算法的效果。通过比较蓝色和橙色线或绿色和红色线,我们观察到当智能体遵循老虎机算法时,学习速度更快。这验证了 BQL 的有效性,它将Q值 (Δ Q ) 的变化视为老虎机问题的奖励。

随着代理数量接近一百,均匀随机/无冲突和强盗/无冲突之间的性能差异缩小。这是因为在不允许决策重叠的情况下,如果智能体的数量足够大,每个智能体的合理选择的重要性就会降低。特别是,当智能体数量为 100 时,无论智能体做出什么选择,性能都没有差异,因为每个状态-动作对总是分配一个智能体。

此外,我们分析了状态-行动对选择中避免冲突对学习的影响。虽然考虑到环境规则,结果相当明显,但当选择无冲突时,学习速度会更快。我们将S under定义为学习曲线下的面积,以量化整个学习过程的学习效率。

随着代理数量的增加,该比例也增加,表明避免冲突提供了更实质性的好处。这是因为多个智能体选择相同状态动作对( s,  a )的概率增加,并且当允许选择冲突时,更多选择被丢弃,因为只有其中一个是有效的。

因此,我们将R valid定义为有效选择的比例,以定量评估此类影响。随着代理数量的变化,对于强盗/冲突有效的R的变化如图7所示。R valid随着智能体数量的增加而下降,表明冲突避免对于智能体数量的增加更为重要。当智能体数量为 100 时,如果智能体的选择不协调,大约 60% 的更新会被浪费。

讨论
本研究提出了一种光子强化学习方案,该方案需要新颖的算法和光子系统,并展示了其性能。我们采用了强化学习中常用的模型——网格世界问题,其目的是高精度地学习所有状态-动作对( s,  a )的最优动作-价值函数,涉及多个智能体。研究中提出的细节总结如下。

首先,我们提出了 BQL,一种学习算法,其中每个智能体在每个时间步t中选择环境中所有状态动作对 ( s ,  a ) 中的一个,并基于与中相同的公式更新Q ( s ,  a )原始的 Q 学习。选择状态-动作对 ( s ,  a )的决策问题类似于老虎机问题。这是因为,如果我们将每个时间步的Q ( s ,  a ) 更新量定义为 Δ Q,则智能体必须在选择状态-动作对 ( s , a)用大的 Δ Q来加速学习过程(老虎机问题中的“利用”),并需要研究其他状态-动作对(s,  a )的 Δ Q值(“探索”)强盗问题)。我们将使用 bandit 算法作为算法 1 的决策标准的情况与使用均匀随机选择的情况进行比较,以验证 BQL 的有效性。前者导致了更快的学习过程,如结果部分所述。

其次,我们提出了一种并行架构,其中多个智能体在学习中做出无冲突决策,然后定量评估避免冲突对学习的影响。正如结果部分所示,当避免选择冲突时,尤其是当智能体数量增加时,学习确实会加速。此外,当多个智能体遵循 BQL 时,协作决策至关重要,以防止智能体陷入学习过程的后期阶段。如果不协调选择,大多数智能体很可能会在学习过程的后期选择具有最大奖励的单元。虽然系统的具体配置尚未确定,具有级联空间光调制器和分束器的光子系统有望实现 3 个或更多代理的协作决策,以避免选择冲突。一旦将来构想出这个系统,它就可以合并到我们提出的方案中,并消除代理之间相互通信以协调他们的选择的必要性。
而 Amakasu等人。提供了解决竞争强盗问题的基本思想的概念,本研究以网格世界问题为例,解决了一般的强化学习问题。这两个问题的不同之处在于,在强盗问题中,无论代理的行为如何,机器的奖励概率都是不变的;然而,在网格世界问题中,状态转换(对应于强盗问题中奖励概率的变化)是由于代理的行为而发生的。我们提出的方案适用于动态环境中此类具有挑战性的问题。

接下来,我们讨论这项研究的一些局限性以及未来如何解决这些局限性。首先,在 BQL 中,代理的操作被修改。这可以通过将代理在每个时间步可以选择的可能状态动作对(s,  a )限制为当前单元中的状态动作对来解决。然而,使用这种方法,如果超过 4 个智能体最终进入特定单元,则至少有 2 个智能体必须选择相同的状态-动作对(s,  a)在下一个时间步。这需要制定异常处理规则。其次,当状态-动作对的数量充分大于智能体的数量时,选择冲突发生的频率就会降低,并且通过量子干涉避免冲突的优势可能会降低。关于这个问题,正如生日悖论所示,即使智能体的数量远小于配对的数量,2 个智能体的选择重叠的概率也大于我们的直觉。例如,假设存在 100 个状态-动作对,并且 10 个智能体随机做出统一选择,则至少 2 个智能体做出相同选择的概率超过 37%。此外,正如结果部分提到的,

未来,我们的首要任务是设计一个允许 3 个或更多智能体进行无冲突决策的系统。此外,我们希望开发算法,允许代理采取连续行动,并将 BQL 应用于比网格世界更复杂的其他强化学习问题。据我们所知,这项研究首次将光子协同决策的概念与 Q 学习联系起来,并将其应用于动态环境。我们相信这项研究对利用物理过程进行决策领域做出了宝贵的贡献。

 

发布日期:2024-03-11