引用本文:
晏丹,冯楠,左晓博,等. 基于深度强化学习的C+L波段弹性光网络频谱分配算法[J]. 光通信技术,2024,48(3):23-29.
晏 丹1,2,冯 楠3,4,左晓博1,2,沈凌飞1,2,任丹萍1,2,胡劲华1,2,赵继军1,2*
(1.河北工程大学 信息与电气工程学院,河北 邯郸 056038;2.河北工程大学 河北省安防信息感知与处理重点实验室,河北 邯郸 056038; 3.中国电子科技集团公司 第五十四研究所,石家庄 050081;4.河北省光子信息技术与应用重点实验室,石家庄 050081)
【下载PDF全文】 【下载Word】摘要:针对C+L波段弹性光网络中受激喇曼散射(SRS)效应导致物理层损伤加剧的问题,提出一种基于深度强化学习(DRL)自适应调制格式的频谱分配算法,在路由阶段,采用K最短路由算法为业务请求预计算K条最短备选路径;在波段、调制格式与频谱分配阶段,采用DRL进行智能化决策,并结合了2种奖励函数,以降低网络阻塞率并提高频谱使用效率。仿真结果表明,该算法能够有效降低阻塞率并提高频谱利用率。
关键词:C+L波段弹性光网络;路由与频谱分配;受激喇曼散射效应;深度强化学习;奖励设计
中图分类号:TN929.1 文献标志码:A 文章编号:1002-5561(2024)03-0023-07
DOI:10.13921/j.cnki.issn1002-5561.2024.03.005
0 引言
随着增强现实、虚拟现实、元宇宙和ChatGPT等新兴应用的迅猛发展,网络流量呈现出急剧增长的趋势[1]。为满足不断增长的数据传输需求,多波段弹性光网络(MB-EONs)凭借其无需重新铺设光纤的特性,成为了一种极具经济性和实用性的解决方案。MB-EONs是一种利用常规C波段以外的低损耗波段(O、E、S和L波段,其衰减系数小于0.4 dB/km的)进行传输的方案[2]。其中,由于L波段与C波段的损耗相近,并且相应的放大器、光交叉连接器等器件相对成熟,因此以L波段为扩展目标的C+L波段弹性光网络(C+L-EONs)获得了工业界和学术界的高度关注。然而,引入L波段也加剧了受激喇曼散射(SRS)效应,在该效应与其它物理层损伤因素的共同作用下,信号在传输中受到的非线性干扰(NLI)增加,造成了业务传输质量(QoT)的劣化,严重时甚至导致信号在接收端无法被正确解码和处理[3]。此外,相关信道上NLI的严重程度与频谱资源分配决策密切相关,而合理的频谱分配策略可以有效减轻NLI对业务QoT的负面影响[4]。为了有效保证业务请求的QoT,同时实现资源的高效利用,需要设计一个合理可靠的路由、波段、调制格式和频谱分配(RBMSA)算法。现有的RBMSA算法主要采用基于固定规则的启发式算法。文献[5]在C+L+S波段场景下,将业务根据不同的传输距离需求分为3类,根据需求特性,提出了一种基于波段分配优先级的RBMSA算法,有效提高了频谱利用率。然而,在业务持续时间内,SRS效应的影响会动态变化。为了全面考虑新业务对已有业务的影响,文献[6]提出了一种基于信噪比重检测的RBMSA算法。在为新业务分配频谱资源时,该算法重新计算路径上其它业务的信噪比,以保证原有业务的QoT。然而,在C+L-EONs中,由于业务类型与调制格式多样化,以及物理层损伤与RBMSA过程的密切耦合,利用启发式算法进行频谱资源管理变得愈加复杂。
近年来,随着人工智能的快速发展,人们通过机器学习算法可以更高效地控制RBMSA问题的决策过程,从而提高频谱资源利用率,并进一步提升网络性能[7]。文献[8]首次提出了适用于EON中路由与频谱分配的深度强化学习(DRL)框架的资源分配算法。该框架以业务相关信息和所有光纤链路上的频谱占用情况作为输入,通过神经网络计算得出每个资源分配方案对应的Q值,并最终选择Q值最大的方案作为最优策略。与常见的启发式算法相比,该算法虽然能够进一步降低网络的阻塞率,但未考虑SRS效应对业务QoT的影响,因此不适用于MB-EONs中的资源分配。在此基础上,文献[9]聚焦MB-EONs,在损伤评估过程中特别关注了SRS的影响。然而,该研究采用离线评估的方法,这种方法基于网络中最差的光信噪比(OSNR)状况进行设计,忽视了实际网络中的动态变化,从而不利于频谱资源利用率的提升。相比之下,文献[10]提出了一种创新的在线OSNR评估方法,该方法利用高斯噪声进行仿真,无需对路由预计算,各链路被分配特定数值,智能体在选路后通过计算这些数值总和来评估路径的优劣。该算法采用DRL方法优化路由选择,但在实际应用中,由于某些原因,该算法尚未能够根据业务需求自适应选择频谱分配和调制格式。
综上所述,为了在C+L-EONs中保证业务QoT的同时提升频谱资源利用率,本文以置信域策略梯度优化(TRPO)为基础,提出一种基于DRL的自适应调制格式(AMF)C+L+EONs频谱资源分配算法(下文简称AMF-TRPO算法)。
4 结束语
本文针对C+L-EONs的路由和频谱分配问题,基于DRL中的TRPO算法,提出了AMF-TRPO算法。该算法以TRPO为基础,利用DRL智能化选择合适的调制格式,根据业务当前实际所受物理层损伤状况进行决策,同时还考虑未来业务对当前业务QoT的潜在影响。通过挖掘最佳路由路径并智能分配频谱资源来进一步优化C+L-EONs的性能。此外,该算法还结合了
2种奖励函数,有效降低了网络的阻塞率并提高频谱利用率。仿真结果表明:与基准的TRPO算法相比,在仿真的网络负载范围内,所提算法阻塞率最高降低8.3%,资源利用率最高提升了9.6%。未来工作将致力于进一步提高系统性能,包括增加更多训练拓扑和对训练超参数(如学习率、折扣因子等)进行敏感性分析、将强化学习算法与不同的启发式算法进行对比等,从而更全面评估所提算法的性能。