新闻资讯

一种基于多云环境下多代理深度强化学习的视频边缘协同缓存和多播方法

摘要:物联网技术的发展推动了网络流量需求的急剧增长。多云场景中的缓存和多播是减轻网络回程负担和减少服务延迟的有效方法。然而,现有的工作并没有共同利用这两种方法的优势。在本文中,我们提出了一种基于多代理深度增强学习的视频边缘缓存和多播的合作方法,以最小化多云方案中的传输数,而每个边缘云的存储能力有限。通过将合作传输模型与缓存模型相结合,给出了联合问题的具体公式。当时,我们把这个决策问题作为马尔可夫决策过程的一个多代理扩展,提出了一种多代理行为批评算法,其中每个代理学习一个局部缓存策略,并进一步包括作为整体状态的组成部分的邻近代理的观察。最后,为了验证COAM算法,我们对一个真实数据集进行了广泛的实验。结果表明,我们提出的算法在视频传输数量方面优于其他基线算法。结果表明,我们提出的算法在视频传输数量方面优于其他基线算法。结果表明,我们提出的算法在视频传输数量方面优于其他基线算法。

图形摘要

导言
随着物联网技术的发展,用户与电子设备的互联越来越多[ 1 ]。新的无线网络的出现,例如第五代(5G)网络,智能设备的扩散,以及用户大量使用不同的应用程序,例如视频流媒体、在线游戏和虚拟现实,导致视频流量的大幅上升。根据思科的报告[ 2 ],研究预测,到2022年,视频类型的流量将占全球所有互联网流量的79%。视频流量的广泛普及和严格的经验质量要求给网络带来了巨大的回程压力[ 3 ]。因此,尽量减少传输过程中的网络资源消耗,同时满足用户需求,已成为网络营办商最关注的问题之一[ 4 ].

在传统云环境中,服务过程需要将数据转移到远程数据中心,以便进行集中计算和存储。这导致网络传输延迟时间过高,可能对移动应用程序的性能产生负面影响。为了解决这一问题,并为对时间敏感的应用程序提供可靠的服务,研究人员已探索将小型云服务器部署在边缘,以便这些边缘云服务器能够提供更接近边缘平板设备的资源[ 5 , 6 , 7 ]。边缘云服务器配备有限的资源,可用以在边缘提供最优化的带宽服务,从而能够提供快速和即时的服务[ 8 , 9 ]。多云架构,包括远程云和边缘云,是改善使用者数量及减少耗能的理想范例[ 10 , 11 ]。正如若干研究所强调的那样,这一潜力源于它有能力为最终用户促进无处不在的缓存和有效的内容交付。

在内容请求阶段,网络在收到用户的请求后进行内容搜索。为了缓解流量拥挤,边缘缓存是在靠近请求者的边缘云服务器上缓存流行文件的一种有效方式。它解决了在边缘云中缓存哪些内容的问题[ 12 ]。最近的学术研究证实了协作缓存的有效性,这引起了相当多的学术关注。协作缓存工作允许边缘云通过内部连接集体分发内容。宋等人。[ 13 提出了一种自适应合作缓存方案,该方案采用了增强的量子遗传算法来解决延迟能量权衡问题。张等人。[ 14提出了一种两级异构网络的空间合作缓存策略。该策略的目标是最大限度地减少缓存中重复内容的存储使用,同时最大限度地提高内容检索成功的可能性(点击概率)。

在内容传递阶段,传统的单播机制将内容从远程云到边缘云和用户端(UES)的传播效率低下。另一方面,多播可以利用现有的网络带宽向多个接收器提供相同的内容,这得益于在地理位置较近的地点,用户对内容的偏好相似。这个机制通过通过单一的多播而不是多个交换机传送所请求的文件,从而减少交付过程中生成的流量[ 15 ]。政府已作出重大努力,进行视频编码及多播传送[ 16 , 17 , 18 , 19 ]。例如,郭等人。[ 18 提出了基于可伸缩视频编码的基于Layer的多质量组播波束形成方案。吴等人。[ 19 设计了一个自适应视频流方案使用命名数据网络组播。然而,这些算法在处理视频编码和多播传输时,没有考虑编码多播与在合作环境中缓存的集成。

根据直觉,缓存通过在边缘云端提供经常请求的内容,减少延迟和网络带宽消耗[ 10 , 20 ]。多播通过有效地同时向多个用户提供流行内容,特别是在同时请求相同内容的情况下,进一步减少带宽的使用。通过根据实时用户需求和网络条件动态分配缓存和多播资源,共同考虑缓存和多播可以提高整体网络性能和资源利用率。该自适应策略优化了内容的可用性和交付效率,从而改进了用户体验。特别是,它有助于部署各种对延迟敏感的应用程序和服务[ 21 , 22 ]。在大规模的CACT无线网络背景下,姜等人。[ 23 应用迭代数值算法分析和优化缓存和多播。在不同情况下,建议采用不同的多播编码机制[ 24 , 25 , 26 , 27 ]。尽管如此,在大规模合作缓存场景中,在边缘缓存和多播之间找到平衡,以提高资源效率仍然是一项挑战。

本文利用多云环境下多播移动边缘缓存的优点,降低了网络传输的消耗。我们研究了不同边缘云之间的协作缓存,以有效地适应动态边缘环境。我们提出了一种多代理的基于DRL的协同视频缓存和多播多播方法,以最小化平均传输数,从而提高视频传输效率。我们的主要贡献概述如下:

我们研究了在多云场景中减少传输数的协同视频边缘缓存和多播问题。此外,我们还提出了问题公式作为一个多代理马尔可夫决策过程(MDP)。

设计了一种新的多代理行为者-批评算法来解决该问题。具体而言,每个代理学习一个本地缓存策略,并进一步包含作为整体状态的成分的邻近代理的观察。多代理协作,有效适应动态网络环境.

广泛的跟踪驱动仿真表明,我们提出的算法在视频传输数方面优于其他基线。

本文件其余部分组织如下。在…里面 相关工作 部分,介绍相关工作. 系统模型和问题的表述 介绍了系统模型和问题的形成.该方法的详情载于 可可法 分部。我们比较了实验结果并分析了 业绩评价 分部。 结论 论文的最后一节。

相关工作
缓存算法
边缘缓存在本地边缘云上存储受欢迎的内容,允许它们直接向用户提供所请求的内容。它大大降低了网络延迟和网络消耗。李等人。[ 28 研究了一种具有成本效益的贪婪算法,考虑到了不同的视频特性。对动态自适应视频流的移动边缘缓存放置问题进行了优化。泰兰等人。[ 29 ]提出了一种基于整数线性规划的联合协作缓存和处理框架,以适应移动边缘计算网络中的自适应比特率视频流。无线通信网络中的缓存决策过程可以表示为MDP,而强化学习在该领域中被广泛应用。基于多代理框架,王等人。[ 30 ]提出了一种深度的行为者-批评强化学习算法,通过使每个边缘都能通过自适应学习最佳策略来解决缓存决策的动态控制问题。然而,现有的研究主要侧重于内容缓存政策,没有考虑到内容交付过程。

多播算法
多播传输在边缘网络中得到广泛应用,证明它通过降低带宽、路由和成本,在提高网络性能方面的有效性[ 31 ]。达梅拉等人。[ 32 ]构建了一个新的可行的架构模型,通过多路传输向用户传输所需的内容。利用多细胞传输改进了信号噪声比。优化的MEC调度算法与现有的模型相比性能较好。扎霍等人。[ 33 ]]建议一套改进的电子商务管理系统网络架构,以解决标准电子商务管理系统架构的重大局限性,即:一种使用网络功能虚拟化(NFV)和MEC的网络体系结构。拟议的架构允许多播众包现场流。伦等人。[ 15 ]考虑了移动边缘云中的Nfv支持组播的基本问题,设计了启发式算法。秦等人。[ 34 研究了基于延迟网络切片问题的边缘网络多播应用的多播通信。然而,这些工作的重点是网络架构和多播协议,而不是与边缘云服务器的实际应用集成。

联合缓存和多播算法
利用基站的多播传输,使同一文件的不同用户请求能够同时得到服务,被认为是支持通过无线网络传送广泛内容的一种非常有效的方法。这种方法被认为是无线通信中一种有效的策略,可以满足不断增加的内容传输需求。马达赫-阿里等人。[ 35 ]使用多个文件的联合编码和下行链接通道的多播特性来优化编码多播下的内容放置和传递。并对缓存增益进行了评价,验证了联合优化问题可以提高缓存增益。廖等人。[ 36 ]利用多播内容传递和协作内容共享的好处,共同开发了一种复合缓存技术(多意识协作缓存)。他等等。[ 37 设计了部分缓存大容量传输和部分缓存管道传输,以降低采用CACE的多组组播网络的传输延迟。索穆伊瓦等人。[ 38 将主动缓存和多播传输相结合,将单用户多请求问题建模为MDP,并采用DLL方法解决问题。由于传统的方法很难适应这种高度多样化和动态的多云合作缓存环境,我们提出了一个以可可为基础的框架,以最大限度地提高视频传输阶段的流量消耗。

系统模型和问题的表述
在本部分中,我们介绍了合作视频边缘缓存和多播模型,并给出了具体的定义。然后,我们陈述了相应的缓存决策问题。为了方便起见,我们在表格中总结了一些关键的建模参数和符号 1 .

表1重要符号摘要
大号桌
网络模型
我们考虑了多云系统,它由三种类型的层组成:远云层、边缘云层和UE层。假设远程云提供所有请求的视频文件 .由于视频服务通常将视频分割成大小相等的块,我们假设所有文件都是单位大小的。边缘云服务器集可以表示为 .我们表示请求的时间段 .边缘云接收请求并在每个时间段做出缓存决策 t .在每个时间段 tF = { 1 , 2 , ⋯ , F}N={1,2,⋯,N}T={1,2,⋯,T} q_{t,n}^f \in \{0,1\} q_{t,n}^f = 1 q_{t,n}^f = 0 x_{t,n}^f x_{t,n}^f=0 x_{t,n}^f\in (0,1] x_{t,n}^f=1 ,边缘云接收请求并决定缓存决策。边缘云收到的请求 n 存档 f 是指 ,在哪里 表示文件请求 f ,以及 签署无文件要求 f .一个变量 是用来表示传送决定,即,不论所要求的录影带 f 从遥远的云传输到边缘云 n 及时地 t .如果没有,我们有 ,以及qft,n∈{0,1}qft,n=1qft,n=0xft,nxft,n=0xft,n∈(0,1] 否则。 意味着传输通道被边缘云完全使用 n 只有在单播条件下才会发生。否则,如果多个边缘云服务器在一个多播条件下共享一个通道,我们假设这些边缘云平均共享该通道。xft,n=1

缓存模型
每次 t ,我们假设边缘云服务器下只有一个 n 会要求录像。对于每个UE,如果请求的视频已缓存在上边缘云,边缘云服务器可以将其直接交付给UE。其他边缘云服务器从远程云中请求文件。

每个边缘云都有相同的最大容量 C .我们使用二进制变量 以表明所要求的录像 f 储存在边缘云中 n 及时地 t .如果是,我们有 ,还有0。每个服务器存储的内容以其最大存储能力为限:yft,n y_{t,n}^f=1yft,n=1

∑f ∈ Fyft , n ≤ C.
(1)
在边缘云获得请求的视频后,边缘云将决定是否缓存内容。如果边缘云存储容量没有完全填充,我们就直接存储视频。否则,我们将根据策略更新缓存空间。

传输模型
远程云将视频传送到请求的边缘云。图形  1 给出了我们的合作传输模型中的四个方案,描述如下:

Localcast (LC) :如果所请求的视频已在本地边缘云服务器时缓存 t ,UE可以直接从边缘云端获取,而无需从远程云端请求。我们用的 以表示一系列的边缘云,我们可以从这些云中获得视频 t 通过lc模式,而不从远程云中获取。我们有:NL C = { n |yft , n = 1 , ∀ n ∈ N , ∀ f ∈ F}

Xft , n = 0 , ∀ n ∈NL C,
(2)
如图所示。  1 , 请求 , 存放在 .N1f1f1N1

Multicast (MC) :如果请求的视频没有在边缘云中缓存,那么边缘云从远程云中请求文件。如果有其他不同的边缘云朵请求相同的视频 f 及时地 t ,然后这些边缘云可以获得所要求的视频 f 通过MC模式。我们使用 指可以利用组播传输获得所需视频的边缘云集 f .我们有:NfMC = { n |qft , n = 1 ,yft , n = 0 , ∀ n ∈ N∖NL C}

∑n ∈NfMCXft , n = 1 ,
(3)
如图所示。  1 , 和 同时请求 那些没有缓存的。N2N3f2

XOR-cast (XC) :我们形成一个特殊的边缘云集,称为排他性或(X或)设置,其中每个边缘云集存储其他边缘云请求的视频文件。我们表示这一组如下:

NGXC = { n ∣qft , n = 1 ,yft , n = 0 ,yft ,n′ = 1 ,∀ n ∈ N ∖ (NL C∪NfMC ) , ∀n′∈NGXC ∖ n , ∀ f ∈ G } ,
(4)
当通过XC方案设置的视频可以表示为:

G = { f∣qft , n = 1 ,yft , n = 0 ,yf′t , n = 1 ,∀ n ∈ N ∖ (NL C∪NfMC ) , ∀f′ ∈ G ∖ f } .
(5)
XOR集通过一个传输接收Xor编码的比特流。然后,每个边缘云通过用存储在其缓存中的内容解码接收的比特流来恢复其视频。我们有:

∑n ∈NFXC∑f ∈ FXft , n = 1 ,
(6)
如图所示。  1 , 和 同时请求 和 它们不是自己缓存的,而是彼此缓存的。我们表示编码的异或者信息 fN4N5f5f4.如果有多个XC组合,我们选择的组合将产生最小数量的XC集合,并有相同数量的边缘云参与。这种偏好是基于我们提出的XC方法在大幅度降低单播传输过程中的内耗的有效性。虽然本文件没有明确考虑与异或作业相关的能源消耗,但必须承认,这种作业仍然需要不可忽略的能源开销。考虑到一定数量的边缘云,我们的目标是尽量减少XC组合的数量,以减轻影响异或能耗。

儿童电视台 :当边缘云请求和缓存列表之间的关系不能满足上述任何情况时,边缘云通过建立传输通道直接从远程云获取视频。我们表示加州大学 .我们有:NUC = { N ∖ (NL C∪NfMC∪NFXC ) }

Xft , n = 1 , ∀ n ∈NUC.
(7)
如图非政府组织联合会部分所示。  1 ,边缘云从远程云获取内容。

Fig. 1
图1
系统模型

全尺寸图片
为了在传输过程中使用较少的传输来传递所有数据,我们使用了网络编码技术。传输内容在网络节点编码,然后在目的地解码。我们使用X或编码技术。这些边缘云没有缓存请求的视频,但缓存了其他边缘云请求的视频。缓存策略决定边缘云中缓存的内容,然后远程云根据边缘云中的缓存状态对传输进行分类。根据以上四种情况,我们可以提出联合组播传输和缓存替换问题,目的是最大限度地减少从远程云到边缘云的传输总数,如:

最多的∑n ∈ N∑f ∈ F∑t ∈ Tqft , nXft , nN
(8)
s . t .( 1 ) , ( 2 ) , ( 3 ) , ( 6 ) , ( 7 )
(9)
0 ≤Xft , n ≤ 1 −yft , n,
(10)
yft , n ∈ { 0 , 1 } .
(11)
可可法
我们的建模问题是一个混合整数规划(MIP)问题[ 22 这是非常困难的。用传统的计算方法解决MIP问题,在低计算效率的天然缓存系统中已被证明是具有挑战性的。因此,我们考虑一种学习方法。我们探索了不同边缘云服务器之间的协作,基于多代理增强学习算法,以更好地适应动态边缘环境。

在本节中,每个边缘云作为独立代理运行,同时与其他边缘云保持合作关系。将缓存决策问题建模为马尔可夫决策过程(MDP)的多代理扩展,并引入一种新的多代理行为体批评缓存方法。我们提议的方法旨在尽量减少请求传输过程中的平均传输次数。多因素强化学习由因素和环境构成。基于状态和来自环境的回报,每个代理根据其特定的策略执行一个动作。然后,环境会转变为一个新的状态。MDP是一个数学框架,用于建模由状态、动作、过渡概率和奖励组成的顺序决策。每个代理通过与环境的连续互动学习最佳决策序列。我们将多代理MDP的基本元素定义如下:

状态
代理国 n 及时地 t 被称为 ,在哪里 指示现时的要求及 表示边缘云的缓存状态 n .我们定义了代理人观察到的社区 n 作为 .我们用的 指代理人的保单 n .因此,代理人的相邻代理人保单 n 可称为st , n = {yt , n,qft , n}qft , nyt , n = {yft , n}∀ f ∈ FNnπt , nπt ,Nn .每个探员都能观察社区的情况和政策。因此,代理人的共同状态 n 输入网络的输入是 .s^t , n = {st , M}∀ M ∈ { n ,Nn}

作用
代理根据缓存列表的策略决定哪些视频应该替换。我们指的是代理人的行为 n 作为 ,在哪里 .如果 ,所要求的视频不会被缓存。另外,还有 v -边缘云缓存空间中的TH内容 n 会被当前的视频替换。At , n = vv ∈ { 0 , 1 , 2 , ⋯ , C}v = 0

奖励
目标是最小化平均传输数。我们将传输号的负值定义为奖励:

rt , n = −∑f ∈ Fqft , nXft , nN.
(12)
因此,计算的全球报酬是:

rt=∑n ∈ Nrt , n.
(13)
网络架构
如图所示。  2 ,每个代理人由两部分组成:参与者网络 )及评论家网络 )。行为者网络和批评者网络是政策网络的重要组成部分.行为体网络接收环境状态作为投入,生成相应的行动产出,目的是学习最佳政策 最大限度地实现与累积回报相关的预期回报或价值函数。另一方面,评论家网络作为一个价值函数估计网络,评估行为者网络在给定状态下选择的行为的质量。其主要目的是学习一种价值功能θωπθnVωn能够根据当前状态和行为体网络选择的操作估计预期回报或值。行为体网络由两个完全连接的隐藏层组成,具有重新激活功能,其尺寸由缓存的可变状态大小决定。它的输出层是利用双曲切线激活功能的完全连接层。类似地,评论家网络与演员网络共享相同的架构,包括两个完全连接的隐藏层和再激活功能。评论家网络的输出层由一个由线性函数激活的单元组成。每个网络包含一个目标网络和一个相同网络结构的主网络。利用目标网络提高训练的稳定性和收敛性.主网络学习一定次数后,利用主网络的参数更新目标网络的参数。

Fig. 2
图2
可可法

全尺寸图片
代理人拿到保险单 以他们的演员网络为基础。行为体网络被表示为寻求最佳策略的函数 ,在哪里 代理商网络参数的表示 n .代理通过随机抽样和策略分布获得动作.我们表示代理人的评论网络的参数 n 作为 . Thus, 表示评论家网络的价值函数,作为预期报酬的估计.ππt , n=πθn(At , n|s^t , n,πt − 1 ,Nn)θnωnVωn

我们推导了边缘云的期望值方程 n 如:

Rt , n=rt + γV′wn(s^t + 1 , n,πt ,Nn ) ,
(14)
在哪里 表示折扣奖励因素。每次 t ,代理人储存经验 在重播记忆中 B .γ(s^t , n,At , n,rt , n,s^t + 1 , n)

我们使用时差(TD)算法来更新评论家网络.评论家网络的损失函数可以计算为:

L (wn ) =12 | B |∑t(Rt , n−Vwn(s^t , n,πt − 1 ,Nn ) )2.
(15)
通过策略梯度算法更新了行为体网络。行为体网络的损失功能可界定为:

L (θn ) =−1| B |∑t ( 圆木πθn(At , n∣s^t , n,πt − 1 ,Nn)A~t , n − β∑πθn圆木πθn(At , n∣s^t , n,πt − 1 ,Nn ) ) ,
(16)
在哪里 表示一个超参数来控制熵项,以及优势函数 折扣报酬减去基线。βA~t , n=Rt , n−Vwn(s^t , n,πt − 1 ,Nn)

然后我们更新每个代理的目标网络参数 n 如:

θ′n = ζθn + ( 1 − ζ)θ′n,
(17)
ω′n = ζωn + ( 1 − ζ)ω′n,
(18)
在哪里 表示目标网络更新参数.目标网络每年更新一次 一步一步。ζτ

训练完成后,每个代理可以在当前状态下根据自己的状态在每个执行步骤中得到最有效的操作策略。

图B
算法1 可可算法

算法1给出了可可算法.每一个本地代理商通过遵循现行政策收集经验元组,直到收集到足够的样本进行批更新(第8至15行)。然后将随机抽样,以更新演员和评论家网络(第17至20行)。每一个 更新目标网络(第21至23行)。 τ

表2模拟参数
大号桌
业绩评价
试验装置
我们在伊奇依的一个真实数据集上进行了实验,该数据集包含了200万用户在两周内观看的30万个视频。我们随机从里面挑选了一万张唱片。图形  3说明在iqiyi数据集中观察到的视频请求偏好的降序趋势。视频的流行分布呈现明显的偏斜,坚持ZIPF分布。这意味着极受欢迎的一小部分视频对大多数访问量的贡献很大,而大量其他视频得到的关注却很少。流行视频经常被访问,因此需要定期更新其缓存内容。相反,很大一部分不太受欢迎的视频很少被访问,这使得它们在缓存中无效。然而,尽管受欢迎程度有限,但这些不太受欢迎的视频仍然有助于满足用户的需求。因此,当务之急是设计一个自适应的合作缓存和多播策略来捕捉视频流行中的分布和动态。我们根据地理信息将数据集划分为30个边缘区域,采用K-均值算法[ 39 ]。我们选择20台部署边缘云服务器(即,为用户提供录像服务。默认情况下,我们将缓存大小设置为50.我们假设每个代理都能从环境中观察所有其他代理的状态。关键实验参数列于表中 2 .

Fig. 3
图3
内容请求数与其数据集上的排名

全尺寸图片
比较和结果
不同边缘云服务器的内容在多播传输中相互关联,导致多播缓存倾向于存储相似内容。相反,对于合作缓存,为了更好地利用有限的存储空间,不同单元中的缓存内容应该是相互排斥的。在组合中使用多因素强化学习来平衡组合。

图形  4 显示随着训练次数的增加,可可的传播次数的变化。我们可以看到,传输数在开始时呈线性下降,在大约150集稳定收敛。

Fig. 4
图4
可可培训过程中的传播量值

全尺寸图片
根据情商的说法。( 8 ),我们使用整个请求过程中的平均传输数来衡量我们提出的算法的性能。平均传输数可以显示多播传输的效率,这受缓存决策的影响。平均传输量的降低意味着相同的请求的信道资源的减少和多播传输效率的提高,这可以有效地缓解网络传输压力。

To evaluate the performance of the COCAM algorithm, we compare it with other algorithms in different cases.

Comparison with non-cooperative caching algorithms
无花果树。  5 ,我们比较了在合作传输的情况下,COCAAM算法和非合作缓存算法的传输次数。 Lru [ 40 ]:新内容将取代最新要求的缓存内容。 LFU [ 40 ]:新内容将取代最少请求的缓存内容。 菲奥 [ 41 ]:新内容将取代最早存储的缓存内容。 莱卡尔 [ 42 ]:它采用LRU或LFU算法,通过后悔最小化技术,根据权重适应更新缓存。 弧形的 [ 43 ]:它动态调整两个队列的大小,并根据LRU算法执行缓存更新。

Fig. 5
图5
与非合作缓存算法的性能比较

全尺寸图片
在这些缓存算法中,每个边缘云服务器根据其缓存决策单独缓存内容,而不合并边缘云之间的合作缓存。

图形  5 a显示不同数量请求下的比较结果。请求编号从300到1500不等。我们的COCAM算法的性能比其他基线更好,全球效益的平均改进率为2%到15%。此外,除了LRU算法之外,请求数量的变化几乎不会影响性能。这是因为LRU在流行内容中的工作效果更好,而且容易导致平滑数据集中的缓存污染。图形  5 显示了不同边缘云缓存大小下的性能比较。缓存大小从30到90不等。

从无花果。  5 观察到,随着边缘云缓存大小的增加,所有方法的传输数都会减小。由于所请求的视频更可能在本地被击中,或者随着缓存容量的增加而建立一个多播传输,所以我们的COCAM算法的性能比其他基线更好。

图形  5 c显示在不同量边缘云下的比较。我们设置边缘云服务器的数字从5到25不等,缓存大小为50。我们比较1500个请求后的结果。我们可以看到,可可达到了最小传输数。算法的性能明显优于其他算法,在边缘云较少的情况下稳定。

与合作缓存算法的比较
无花果树。  6 本文比较了在协同传输下应用协同缓存的COCAM算法和A2c算法。 A2C [ 44 ]:该算法采用单代理优势的行为者-批评算法来选择最佳奖励的动作。

Fig. 6
图6
协同缓存算法的性能比较

全尺寸图片
如图所示,两个合作缓存算法的曲线收敛,与可可显著优于A2c算法。与A2B算法相比,我们提出的算法平均改进了4个 .这主要是因为可可产生了更明智的决策,学习基于全局状态的动态请求模式。基于学习的算法的性能可以很好地适应多播环境,不受边缘云量变化的影响。在不同制剂的配合下,可可表现出更好、更稳定的性能。%

不同多播方案的算法比较
图形  7 展示了在合作缓存场景下传输阶段多播传输和编码传输的性能。我们设计的可可-W/O-MC&XC:使用可可-W/O-MC&XC,不使用MC和XC的部分。可可-W/O-XC:我们使用可可-W/O-XC设计可可-W/O-XC,而不使用XC的部分。

Fig. 7
图7
不同部分的业绩比较

全尺寸图片
实验结果表明,我们提出的可可算法比设计修正的可可算法更有效。这表明我们提出的MC和XC方案有效地减少了传输数。如图所示,两个改变的算法曲线在结果上更接近,表明MC方案在这个数据集上的有效性较低。这一现象可归因于观察到同一区域内的用户往往有类似的请求偏好,而他们访问相同内容的活动可能因不同时间段而异。它表明,我们的XC方案可以有效地利用这种洞察力来实现集成缓存和多播场景中的优越性能。

结论
本文提出了一种多云方案中的联合缓存替换和多播传输策略。这种策略可以有效地减少视频传输的传输数量。我们已经设计了一个多代理行为者批评算法,称为可可,使多重边缘云合作,以实现智能缓存决策。此外,我们还对一个真实世界的数据集进行了实验。评价结果表明,与其它基线相比,我们的COCAAM算法可以通过不同代理之间的合作减少平均传输数。在未来的工作中,我们将进一步加强学习算法,在资源受限和带宽受限的多云大规模环境中实现更好的适应。

发布日期:2023-09-18