面向B5G,多业务场景基于D3QN,的双时间尺度网络切片算法

时间：2023-02-10 17:20:04　来源：柠檬阅读网本文已影响人

陈赓，齐书虎，沈斐，曾庆田

（1.山东科技大学电子信息工程学院，山东青岛 266590；
2.中国科学院上海微系统与信息技术研究所，上海 200050）

B5G 的关键技术产生了3 种典型的应用场景：增强型移动宽带（eMBB,enhanced mobile broadband）、超可靠低时延通信（URLLC,ultra-reliable and low-latency communication）和大连接物联网（mMTC&eMTC,massive machine-type communication&enhanced machine-type communication）[1]。eMBB 面向高数据速率的应用，如高清视频或虚拟现实；
URLLC 支持具有超高可靠性和极低时延的服务，如自动驾驶或远程手术；
mMTC&eMTC 涵盖需要连接各种设备的服务，并简化操作流程以提供较长的电池寿命，如物联网用例[2]。在同一网络上服务不同的业务类型会使资源分配的复杂性大大增加，因此必须进行资源管理以确保得到较高的系统频谱效率（SE,spectral efficiency）以及不同切片用户服务质量（QoS,quality of service）。为了支持这3 种典型的应用场景，研究者引入了无线电接入网（RAN,radio access network）切片作为新一代蜂窝网络的关键支持技术[3]。网络切片提供了构建多个独立逻辑网络的能力，每个网络切片都适应特定服务的需求。因此，每个RAN 切片都可以定制并专用于支持具有独特特征和要求的特定服务[4]，利用软件定义网络（SDN,software defined network）提供的网络可编程性，动态地管理RAN切片资源[5]。

近年来，基于深度强化学习（DRL,deep reinforcement learning）算法的网络切片越来越受到关注。DRL 算法常被应用于解决资源分配等动态决策问题，相比传统优化算法具有更好的环境感知能力。文献[6]在单基站多切片的RAN 场景中研究了最大系统SE 和服务水平协议满意度问题，主要提出了生成对抗网络驱动的深度分布式 Q 网络（GAN-DDQN,generative adversarial network powered deep distributional Q network）以及Dueling GAN-DDQN 算法来为每种切片分配合适的资源块（RB,resource block）并且分别验证了不同带宽分辨率对切片性能的影响。文献[7]在RAN 多切片场景中研究了用户移动性对需求感知的影响，提出了把长短期记忆（LSTM,long short term memory）网络融入优势演员-评论家（A2C,actor-critic）算法中，使用LSTM网络从过去的状态中捕获服务请求的变化规律并在Actor 网络和Critic 网络中的损失函数添加了熵正则化。文献[8]在多小区场景下提出了2 种时间尺度的RAN 切片机制来优化URLLC 和eMBB服务的性能。在大时间尺度内，SDN 控制器采用探索和利用指数权重算法根据每种业务的需求为基站分配频谱资源；
在小时间尺度内，每个基站利用多智能体强化学习（MADRL,multi-agent deep reinforcement learning）算法将其可用的资源调度到终端用户。文献[9]在多基站的场景下针对虚拟化RAN 提出了一种粗资源分配方案和基于深度Q 网络（DQN,deep Q network）的动态资源切片细化方案。考虑了资源预留问题可以满足切片中用户突然增加的情况，在用户满意度和资源利用率之间取得了平衡。文献[10]在多基站多切片的密集蜂窝网络场景中研究了基站之间的协作以及资源分配问题，为应对频繁的基站切换并满足不同业务之间的波动，提出了一种基于图注意力的MADRL 算法。图注意力用来加强代理之间的时空合作，通过图注意力与DRL 算法结合突出了基于图注意力的优越性。文献[11]考虑到切片数量变化的问题，使用了一种分布式优先经验重放方法，在一个切片作为一个代理的基础上管理资源，通过测试多种场景验证了既能满足切片需求也不会过度地分配资源。文献[12]考虑了无线资源以及计算资源的动态分配，以实现最佳的用户体验和最高的资源利用率，提出了一种具有两层范式的动态资源分配方案，在本地层采用惩罚函数辅助的线性规划来将切片中的无线资源分配给用户，在边缘层使用DRL 算法将计算资源动态分配给边缘网络。文献[13]在车联网的场景中研究了天地一体化车载网络的资源切片和调度问题，以支持时延敏感服务和时延容忍服务，提出了一种基于双层强化学习求解方法。基于传统优化算法的网络切片也得到了广泛研究。文献[14]针对B5G 多基站场景提出了一种两级软切片方案，同时考虑了可靠性以及时延要求，在网络层面首先确定eMBB 和URLLC 所需要的资源，在基站层面的资源调度问题主要是实现URLLC 服务之间的实时资源共享，采用启发式算法来获得接近最优的资源分配策略。文献[15]在多基站的场景下主要研究了切片的隔离，在满足切片内单个用户吞吐量的同时最大化切片吞吐量，通过采用李雅普诺夫优化算法解决。文献[16]考虑了多基站RAN 场景，首先基础设施提供商（InP,infrastructure provider）将资源分配给移动虚拟网络运营商（MVNO,mobile virtual network operator），然后MVNO 使用分配的资源为其终端用户提供服务。由于MVNO 的利润和满足用户QoS需求方面存在矛盾，提出了三层Stackelberg 博弈来联合解决InP 的频率和功率分配问题。文献[17]提出了一个统一的RAN 切片框架，最大限度地提高资源利用率的同时保证用户QoS。上述研究工作很少考虑用户移动的场景，多基站多切片用户移动的场景可能会加剧资源需求的波动，并使切片间资源管理更具挑战性。因此，在利用DRL 算法解决多基站多切片的用户移动场景中如何合理地实现切片间资源分配；
如何最大化系统SE；
如何保证不同切片用户QoS 需求等方面仍然存在一定的挑战。

针对以上挑战，本文主要的研究工作如下。

1) 建立了多基站多切片的下行链路传输场景，以系统SE 和不同切片用户QoS 指数的加权和为优化目标，建立了一个优化问题。该问题是一个非凸、非线性NP-hard 问题。

2) 提出了一种双时间尺度的DRL 求解方法。首先将研究问题分为大时间尺度的资源切片和小时间尺度的资源调度问题。这2 种时间尺度是紧密耦合的。大时间尺度的资源切片对每个切片的资源调度造成资源约束，资源调度的性能可以为切片决策提供反馈。

3) 在大时间尺度内，由于无线网络环境的时变性和用户请求动态性，DRL 智能体能够根据当前的环境状态选择合适的切片策略，实现实时地调整切片资源比例。在小时间尺度内，基站根据动态网络状况和服务需求通过轮询调度算法将频谱资源调度到终端用户。

4) 仿真结果表明，综合考虑保证切片用户QoS 需求、SE 和系统效用等评估指标，相比于其他4 种基准算法，所提算法具有优异的性能。

本文的创新性在于提出基于竞争双深度Q 网络（D3QN,dueling double deep Q network）的双时间尺度网络切片算法解决多基站多切片用户移动场景下的切片间以及切片内的资源分配问题。大时间尺度内采用D3QN 算法解决多基站多切片用户移动场景下的切片间资源分配问题；
小时间尺度内在同一切片采用轮询调度算法，把同一切片内所有用户的优先级都视为相等，所有用户可以被周期性地调度资源，能够保证同一切片内每个用户被调度的概率相同。相比于现有的小时间尺度的分配算法，本文算法在调度过程中考虑了用户之前被调度的情况，能够保证资源在切片内分配得更加公平。所提算法在系统效用和系统SE 方面有一定程度的提升，更重要的是该算法在稳定性和收敛性方面有了较大程度的提升。

1.1 系统模型

本文考虑支持SDN 控制器的RAN 多基站多切片正交频分多址下行链路传输场景，由一组有限的基站组成，其集合表示为 M={1,2,…,m,…,M}，如图1 所示。这些基站都是由SDN 控制器直接管理的。切片表示为n∈N={ne,nu,nv}，其中e、u 和v分别代表eMBB、URLLC 和VoLTE。N=表示切片的总数。所有基站共享聚合带宽W，每个RB的带宽为B，分配给基站BSm的 RB 表示为Km={1m,2m,…,km,…,Km}。umn和Umn分别表示基站BSm下切片n的用户和用户集合。(m,n)表示基站BSm下切片n的服务，Am,n表示分配给服务(m,n)的RB 数量。具有多个复杂移动模式的用户随机分布在该区域中。每个用户u只能与一个基站相关联并属于一个切片。在大时间尺度内，SDN控制器先收集整个系统内切片请求发送数据包数量，然后对共享聚合带宽W进行切片并且根据基站不同切片的负载状态分配切好的资源。在小时间尺度内，基站根据动态网络状况和服务需求将资源调度给终端用户。

图1 基于SDN 控制器的RAN 架构

1.2 移动模型

URLLC 服务通常存在于流动性较高的场景（如自动驾驶），然而eMBB 服务广泛存在于中低流动性场景（如行人移动），VoLTE 服务大部分存在于静止的环境当中。由于损耗不同，具有相同QoS 需求的用户所需的RB 也可能不同。因此，应该将用户移动性特征考虑在内。假设eMBB、URLLC 和VoLTE 用户的移动速度分别服从均匀分布[1,5] m/s、[6,10] m/s 和[0,1] m/s。

1.3 通信模型

QoS 考虑在速率和时延都满足的情况下成功传输数据包与传输总数据包个数的比值，表示为

1.4 问题建模

在RAN 中RB 分配的主要问题是如何为终端用户实现最优分配，以满足在不同服务下用户数据速率和时延方面的QoS 要求[8]。系统效用定义为系统SE 和不同切片用户QoS 的加权和，并以系统效用作为优化目标。因此，RB 分配问题可以表示为

其中，α和βn=[βe,βu,βv]分别表示系统SE 和不同切片用户QoS 的重要性系数。式(8)的优化目标是找到RB 的分配策略使整个系统SE 和切片用户QoS 指数的加权和最大。约束条件 C1判断RBkm∈Km是否分配给用户umn∈Umn，约束条件 C2限制每个RB 一次只能分配给一个终端用户，约束条件C3保证所分配的资源总和不超过系统的总带宽，约束条件 C4判断速率和时延是否满足切片的服务指标要求。

一般来说，求解该目标函数J非常具有挑战性。这主要是由于优化变量的二进制性质和定义的用户服务质量QoSmn与优化变量有直接关系，该目标函数J是非线性问题。因此该RB分配问题是一个0-1 非线性规划问题，与背包问题类似也是典型的NP-hard 问题。由于传统算法求解背包问题时间复杂度较高，因此本文提出了一种D3QN 算法解决RB 的分配任务。

证明目标函数J是NP-hard 问题详见附录1。

2.1 双时间尺度分配机制

考虑到动态服务请求到达率的影响，在大时间尺度内基于D3QN 算法确定频谱资源切片比例，在小时间尺度内基于动态的网络条件和业务需求采用轮询调度的方式将可用RB 分配给用户。双时间尺度网络切片模型如图2 所示，其中T0表示大时间尺度内共有T0个小时隙，b表示第b个小时隙。

图2 双时间尺度网络切片模型

大时间尺度的资源切片。在切片窗口aT开始时，SDN 控制器首先做出资源切片决策φn∈ [0,1],∀n∈N，即确定分配给切片n频谱资源的切片比例，再根据每个基站切片的用户数量分配切好的RB。在整个切片窗口内，切片决策保持不变。由于服务请求模式的变化以及用户移动性的影响，服务需求和可用频谱资源随时间变化，因此在每个切片窗口结束时，SDN 控制器根据基站的反馈评估系统性能的差异，并在下一个切片窗口(a+1)T调整资源切片决策。值得注意的是，不同切片窗口中的资源切片决策是独立的。

小时间尺度的资源调度。基于大时间尺度的资源切片决策，在每个时隙开始时进行资源调度。根据网络拓扑、用户移动性和业务需求的变化为各个终端用户分配频谱资源。

2.2 马尔可夫决策过程

对于目标函数J的网络切片资源分配模型，可将其转化为一个无模型的马尔可夫决策过程（MDP,Markov decision process）。该MDP 的状态空间与动作空间均具有较高的维度，可用一个四元组(S,A,P,R)表示，其中，S 表示智能体所有可能状态组成的状态空间，A 表示智能体所有可能采取的动作集合，P 表示转移概率，R 表示奖励函数[18]。

状态空间S。S 表示整个系统的状态。SDN 控制器充当智能体，将大时间尺度内所划分的RB 分配给基站。切片窗口aT内每个切片请求发送的数据包数量作为状态。如果在切片窗口内没有该切片请求，则该切片的状态设置为0。为了方便状态的处理，对其进行了标准化。packetn表示切片n在切片窗口内请求传输的数据包总和，meann、stdn分别表示切片n传输数据包请求到达间隔分布的平均值、标准差。因此，在切片窗口aT的状态SaT简记为S= {se,su,sv}。

动作空间A。A 表示所执行动作的集合。SDN控制器每获取一个状态，便会根据贪心策略选取并执行该动作。对于该网络切片资源分配问题，将频谱资源RB 分配方案作为动作。在大时间尺度内，动作A共包含3 个元素，记为A={Ae,Au,Av}，其中，φn∈ [0,1],∀n∈N 表示该大时间尺度内分配给切片n的切片比例。SDN 控制器确定切片比例φn之后，根据不同基站下切片所连接的用户数分配切好的资源，在小时间尺度基站在同一切片内采用轮询调度的方式分配给用户。由于在把带宽划分为RB的过程中可能会出现不能整除的情况，因此在划分RB 时进行向下取整。使用ALLn表示SDN 控制器分配给切片n的RB 数量，分配给服务(m,n) 的RB数量Am,n可以表示为

转移概率P。由于该MDP 中的状态为每个切片请求的数据包数目，每个切片请求的数据包数目随机变化，用户平均QoS 同无线环境中的噪声密切相关，因此无法直接量化其转移概率，所以该模型为无模型MDP。

奖励函数R。R 表示智能体与环境交互后所得到的奖励回报。通常来说，这个奖励回报能直接反映选取动作的好坏[19]。系统SE 和用户QoS 都是评估指标，需要综合考虑。因此本文引入了分层即时奖励机制。为了尽可能满足不同切片用户QoS 需求，eMBB、VoLTE 切片用户QoS 阈值都设置为0.98，URLLC 切片用户QoS阈值为0.95。由于eMBB、VoLTE 切片指标要求比较容易实现，因此在设置奖励函数时这2种切片用户QoS必须同时大于或等于0.98，否则给予一个大的负奖励[7]。在训练过程中注意到，系统SE 的最大值取值范围为340～350 bit/(s·Hz)，最小值取值范围为190～200 bit/(s·Hz)，因此本文对系统SE 最大值和最小值取折中，系统SE 的指标要求为280 bit/(s·Hz)。为了尽可能使奖励函数值在以0 为中心的一定范围内波动并表现出分配策略的差异，具体奖励函数设计步骤如下。

该奖励函数共由3 个阶段组成，由于优化目标是在满足不同切片用户QoS 的同时最大化系统SE，因此把判断以及是否满足切片的服务指标要求放在前2 个阶段，第三阶段判断系统SE 是否满足指标要求。第一阶段判断以及是否满足切片服务指标要求，若不满足则给予一个大的负奖励R1，即

第三阶段判断系统SE是否满足系统SE的指标要求，奖励函数R3可以表示为

2.3 基于D3QN 双时间尺度网络切片算法

D3QN 算法结合了Double DQN 和Dueling DQN算法的思想，进一步提升了算法的性能。D3QN 算法的其他方面与DQN 一致，算法框架如图3 所示。

图3 D3QN 算法框架

Dueling DQN 将Q 网络分成2 个部分。第一部分仅与状态S有关，表示状态的好坏程度，这部分为价值函数，记作fvalue(S;w,ξ)。第二部分同时与状态S和动作A有关，表示该状态下某个动作相对于其他动作的好坏程度，即采取该动作的优势，这部分为优势函数，记作fadv(S,A;w,ζ)。fvalue(S;w,ξ)和fadv(S,A;w,ζ)之和表示在该状态下确定的某个动作的值，即

其中，w、ξ、ζ分别是网络公共部分、价值函数、优势函数的网络参数。不同的动作有不同的偏差，价值函数是一个标量，直接将fvalue(S;w,ξ)和fadv(S,A;w,ζ)相加会导致学习效果不佳。为了改进这种方法，通常使用优势函数的平均值进行计算，即

由于DQN 在计算目标Q值时，每次都选择下一状态中最大Q值，这会使Q值出现高估计的问题。为了解决这一问题，Double DQN 不再在目标Q 网络里面找各个动作中的最大Q值，而是在当前Q 网络中先找出最大Q值对应的动作[20]，即

然后利用Amax在目标Q 网络中计算目标Q值，即

其中，yDouble表示目标Q 网络中计算的Q值，R表示奖励回报，γ表示折扣因子。

结合式(17)、式(18)，计算目标Q 网络中的Q值为

损失函数定义为

其中，E[·]表示期望运算。在选取动作时采用ε-贪心策略。ε-贪心策略是指每次尝试时以ε的概率进行探索，以1-ε的概率选择Q值最大的动作进行利用[21]。

大时间尺度基于D3QN的网络切片算法如算法1所示。

算法1大时间尺度基于D3QN的网络切片算法

输入系统环境参数、切片参数和D3QN 算法参数

输出系统SE、切片用户QoS 和系统效用

根据算法1 中步骤6)的分配结果，小时间尺度内利用轮询调度执行步骤7)。小时间尺度轮询调度算法如算法2 所示。

算法2小时间尺度轮询调度算法

3.1 仿真场景与仿真参数设置

本文考虑一个大小为240 m×240 m的蜂窝网络环境，包括由SDN 控制器直接管理的4 个半径为40 m 的基站以及1 200 个移动用户[7]。为了验证本文所提出的基于D3QN 的双时间尺度网络切片算法，仿真实现使用Python 平台和Pytorch 工具执行。总带宽设置为40 MHz，带宽分配分辨率为0.5 MHz，每个RB 的带宽为180 kHz。仿真了B5G 的3 种典型服务，即用于语音通信的VoLTE、超高清视频传输的eMBB 和工业级应用的URLLC。根据文献[22-23]设置仿真参数，如表1 所示。

表1 仿真参数设置

D3QN 算法由两层全连接隐藏层组成，每层含有200 个神经元。采用ReLU 作为激活函数，Adam优化器以0.001 的学习率更新网络参数。每50 回合更新目标Q 网络参数，训练探索率ε一直保持0.2。为了使代理更偏向于未来的奖励，折扣因子γ设为0.99。最小批量大小m和经验回放单元大小分别为512 和100 000。

3.2 仿真结果分析

为了更好地评估提出的基于D3QN的双时间尺度网络切片算法在系统SE 和用户QoS 加权和优化问题上的性能，将本文所提出的基于D3QN 的双时间尺度网络切片算法与其他4 种基准算法进行了比较，即Double DQN 算法、Dueling DQN 算法[24]、DQN 算法[9]和LSTM-A2C 算法[7]。

1) 系统效用的对比

图4 说明了系统效用随训练迭代次数的变化。SE 的重要性系数α设置为0.01，QoS 的系数βn设置为[1,1,1]，总共迭代训练5 000 次。可以观察到D3QN 算法在大约1 300 次收敛，系统效用稳定在6.47 左右。Double DQN 在当前训练次数下波动幅度较大，最终未达到收敛。Dueling DQN 算法在收敛速度方面占有明显的优势，系统效用最终收敛在6.3 左右，整体系统效用略差。DQN 算法只有个别取值能够达到同D3QN 的效果且最终没有达到收敛的状态。LSTM-A2C 算法最终能够达到收敛状态，但整体系统效用稳定在4.8 左右。由于采用集中控制的方式可能导致动作数量过多，LSTM-A2C算法容易陷入局部最优，不适用于动作较多的场景，因此性能较差。整个分配过程说明基于D3QN的网络切片算法能够在有限的训练次数下找到较合适的分配策略，更适用于解决在多基站多切片用户移动场景下的优化系统SE 和用户QoS 问题。所提出的基于D3QN 网络切片算法与基于Double DQN、Dueling DQN、DQN 和LSTM-A2C 算法相比，系统效用分别提升了3.22%、3.81%、7.48%和21.14%。

图4 系统效用随训练迭代次数的变化

2) 系统SE 的对比

图5 给出了系统SE 随训练迭代次数的变化。从图5 可以看出存在个别高于收敛值的异常点，这是因为在该状态下没有找到合适的分配策略，在分配过程中为某个切片分配过多的RB，导致分配给其他切片的RB 数量过少，此时分配RB 数量过少的切片用户QoS 很大程度上不能满足服务指标要求，所以此次的奖励回报很小，接下来的训练过程中在该状态下会避免采取该动作。因此，本文算法系统SE 稳定在350 bit/(s·Hz)左右。相比于Dueling DQN 算法的340 bit/(s·Hz)以及LSTM-A2C 算法的190 bit/(s·Hz)有了一定程度的提升。

图5 系统SE 随训练迭代次数的变化

图6～图8 分别给出了VoLTE、eMBB 和URLLC切片用户QoS 随训练迭代次数的变化。从图6 可以看出，VoLTE 切片用户QoS 稳定在1.00 可满足VoLTE 切片服务要求。从图7 中可以看出eMBB 切片用户QoS 都保持得较稳定，D3QN、Double DQN、Dueling DQN 和DQN 算法基本能够稳定在0.99 甚至能够达到1.00，LSTM-A2C 算法可以达到0.98。

图6 VoLTE 切片用户QoS 随训练迭代次数的变化

图7 eMBB 切片用户QoS 随训练迭代次数的变化

图8 URLLC 切片用户QoS 随训练迭代次数的变化

由于URLLC 切片的服务要求最高，各算法的差异很容易表现出来。D3QN、Double DQN 和Dueling DQN 算法能够稳定在 0.95 左右，LSTM-A2C 算法稳定在0.91 左右。

3) 单时间尺度和双时间尺度性能的对比

图9 为在相同环境下单时间尺度和双时间尺度的系统效用比较。从图9 可以看出，单时间尺度的基于Double DQN、DQN 算法稳定性略差，而基于Dueling DQN、LSTM-A2C 算法收敛后的稳定性较强，大致稳定在6.3 左右。

图9 单时间尺度和双时间尺度的系统效用比较

由于LSTM-A2C 算法实现了A2C 和LSTM 的融合，因此该算法具有长时记忆功能，具有较好的稳定性。单时间尺度性能较差原因在于该区域中的用户在整个系统中随机移动，导致一些基站过载而RB 远远不足，而另一些基站的RB 则会有剩余。相比于单时间尺度基于D3QN、Double DQN、Dueling DQN、DQN 和LSTM-A2C 网络切片算法，所提出算法在系统效用方面分别提升了1.33%、1.01%、1.62%、3.59%和4.00%。

图10 为系统SE 在不同时间尺度上随训练迭代次数的变化。在系统SE 方面，双时间尺度分配算法明显高于单时间尺度分配算法。在单时间尺度下基于LSTM-A2C 算法在稳定性方面优于其他算法，但系统SE 只能约为325 bit/(s·Hz)。所提算法相比于单时间尺度D3QN、Double DQN、Dueling DQN、DQN 和LSTM-A2C 算法在系统SE 方面分别提升了4.03%、3.57%、4.47%、6.91%和6.26%。

图10 系统SE 在不同时间尺度上随训练迭代次数的变化

图11～图13 显示了3 种切片在双时间尺度和单时间尺度下用户QoS 比较。从图11 可以看出，双时间尺度分配算法和单时间尺度分配算法的VoLTE 切片用户QoS 都稳定在1.0 附近，能够满足该切片的服务指标要求。图12 为不同时间尺度下eMBB 切片用户QoS 比较。从图12 可知，在单时间尺度下D3QN 算法与LSTM-A2C 算法的性能较好，用户QoS 基本能够稳定在0.99 甚至能够达到1.0。基于Double DQN 和DQN 的算法能够满足服务指标要求但是稳定性略差。由于VoLTE 切片对数据速率和时延的要求较低，服务需求很容易满足。从图12 可以看出，eMBB 切片用户QoS 采用双时间尺度分配算法稳定性较强。图13 为不同时间尺度下URLLC 切片用户QoS 比较。从图13 可知，相比于单时间尺度Dueling DQN 和LSTM-A2C 算法，所提算法的收敛值略低，但可以稳定在0.95 左右，能够满足服务指标要求。目的是能够在满足URLLC 切片用户QoS 前提下，尽可能地分配给eMBB 切片更多RB，以提高系统SE。

图11 单时间尺度和双时间尺度下VoLTE 切片用户QoS 比较

图12 单时间尺度和双时间尺度下eMBB 切片用户QoS 比较

图13 单时间尺度和双时间尺度下URLLC 切片用户QoS 比较

综上所述，本文所提算法能够更好地进行资源分配，在满足用户QoS 需求、系统SE 和系统效用方面具有较好的性能，证明了所提算法的有效性。

本文面向B5G 多业务场景中的网络切片资源分配进行了研究。将系统SE 和不同切片用户QoS指数的加权和作为优化目标，提出了一种基于D3QN 的双时间尺度网络切片算法。该算法在大时间尺度内通过基于D3QN的强化学习算法确定资源切片比例，再根据每个基站的负载状况分配切好的资源，在小时间尺度同一切片内采用轮询调度算法解决RB 分配给终端用户问题。将基于D3QN 的双时间尺度网络切片算法与基于 Double DQN、Dueling DQN、DQN 和LSTM-A2C 算法进行了对比。仿真结果表明，所提出的基于D3QN 双时间尺度网络切片算法在满足用户QoS 需求、系统SE 以及系统效用等方面具有更好的性能表现。与基准算法相比具有一定的优势，更适合网络切片的智能分配，为网络切片资源管理提供了一种具有前景的解决方案。

附录1 目标函数J 是NP-hard 问题的证明

背包的定义。假设有一个背包，其容量是capacity，给定一组Z件物品，每件物品都有它的价值pz和重量wz。每个物品可以放入或不放入背包（相应的取值为1 或0）。该问题的目标是找到一个物品子集Z′⊆Z使总价值最大，并且所选物品的总重量小于或等于背包容量，即≤ capacity。

考虑该问题中一个简化问题，在场景中只有一种切片n（n是一个定值）情形，目标函数变为

其中，式(22)的目的是找到集合 Km,m∈M 实现对切片n终端用户集Un的RB 分配策略，在满足用户QoS 的同时最大化系统SE。约束条件 C1判断RBkm∈Km是否分配给用户umn∈Umn，约束条件 C2限制每个RB 每次仅分配给一个终端用户，约束条件 C3表示预分配给所有基站的资源之和不超过总带宽，约束条件 C4判断是否满足切片速率和时延要求。

将0-1 背包问题映射到该目标函数Jm，物品数Z对应于RB 数量，价值pz是该切片实现的SE 和QoS 之和，物品的重量wz对应于分配给每个基站RB 的数量，总容量的限制为分配给基站RB 的数量之和不能超过总带宽，即

由于该目标函数Jm显然是能够在多项式时间内完成的，并且0-1 背包问题是NP-hard 问题，因此该问题的简化问题Jm是一个NP-hard 问题。由此可以得出结论，目标函数J是NP-hard 问题。

证毕。

猜你喜欢时间尺度切片基站 CaputoΔ型分数阶时间尺度Noether 定理1)力学学报(2021年7期)2021-11-09交直流混合微电网多时间尺度协同控制能源工程(2021年1期)2021-04-13时间尺度上非迁移完整力学系统的Lagrange 方程与Nielsen 方程苏州科技大学学报(自然科学版)(2021年1期)2021-03-24新局势下5G网络切片技术的强化思考科学与财富(2020年15期)2020-07-045G网络切片技术增强研究移动通信(2020年4期)2020-05-07时间尺度上完整非保守力学系统的Noether定理苏州科技大学学报(自然科学版)(2020年1期)2020-04-135G IAB基站接入网络方案研究*通信技术(2020年2期)2020-03-265G基站辐射对人体有害？恋爱婚姻家庭·青春(2019年9期)2019-12-10网络切片标准分析与发展现状移动通信(2019年4期)2019-06-25浅析5G网络切片安全现代信息科技(2018年4期)2018-07-12