引用本文:

侯临风,何荣希,吴梓敬. 弹性光网络中基于DRL的RMSA算法[J]. 光通信技术,2024,48(3):57-63.

弹性光网络中基于DRL的RMSA算法

侯临风,何荣希*,吴梓敬

(大连海事大学 信息科学技术学院,辽宁 大连 116026)

【下载PDF全文】 【下载Word】

摘要:为了更好地解决弹性光网络(EON)的路由、调制格式与频谱分配(RMSA)问题,进一步降低网络阻塞率,提出一种基于深度强化学习(DRL)的RMSA算法。该算法在奖励设计中将考虑影响RMSA决策的资源占用度和频谱邻接度这2个指标,以鼓励智能体优先选择资源占用度低、频谱邻接度高的路径来建立光路,并对比该算法与其它算法在不同网络中的性能。仿真结果表明:与几种典型的DRL算法相比,所提算法的网络阻塞率更低。

关键词:弹性光网络;路由、调制格式与频谱分配;网络阻塞率;深度强化学习;奖励设计

中图分类号:TN929.11  文献标志码:A  文章编号:1002-5561(2024)03-0057-07

DOI:10.13921/j.cnki.issn1002-5561.2024.03.010

0 引言

  传统波分复用(WDM)光网络采用固定栅格,这限制了其在未来高速率、大容量、可扩展的光传送网中的应用。为此,业界提出了基于光正交频分复用技术的弹性光网络(EON)[1-2]作为解决方案。然而,EON在实际应用中面临一个关键问题,即路由、调制格式与频谱分配(RMSA),这在一定程度上限制了EON的进一步优化和应用[3]。文献中常用整数线性规划(ILP)求其最优解,但由于RMSA是一个NP-hard问题,当网络复杂度较高时,基于ILP的算法可能无法在合理的时间内找到最优解。因此,一些启发式算法[2-4]被提出,用于解决RMSA问题中路由选择和频谱分配这2个子问题。另外,也有文献考虑了EON的频谱碎片问题。文献[5]首先提出二维资源模型,用以描述链路和路径上时频资源的可用性,并提出最小资源消耗选路策略和二维碎片感知频谱分配策略,这2种策略有利于减少频谱碎片并降低带宽阻塞率。文献[6]提出一种最大化业务承载力的碎片感知算法,在频谱分配时根据空闲频谱块大小及相邻业务剩余持续时间等因素评估其业务承载力,选取业务承载力最大的方案建立连接,该算法能够降低网络阻塞率并提高频谱利用率。文献[7]针对抗毁EON中,在业务保护路径建立过程中可能出现的保护碎片问题,提出了一种基于自适应调制的碎片感知共享通路保护算法,该算法能够有效减少空闲碎片和保护碎片的数量。然而,上述策略都是基于人工提取特征的简单经验方法,缺乏对整体EON状态的全面感知,无法在具有时变特性的EON中实现真正的自适应服务。为此,文献[8]对异步优势表演者-评论家(A3C)算法进行改进,提出了基于经验集的DeepRMSA架构,并进一步提出基于窗口的灵活训练机制,取得了更显著的效果。文献[9]通过引入基于多智能体的NC&M体系结构和应用多智能体深度强化学习(MADRL),将自治网络框架扩展到多域EON。文献[10]提出一种基于深度强化学习(DRL)的非线性EON RMSA方案,使用高斯噪声模型计算非线性效应对传输质量的影响,显著降低了网络阻塞率。文献[11]使用图卷积神经网络和循环神经网络进行状态特征的提取,让智能体感知与RMSA相关的关键信息,以做出更好的决策。但是,上述方案在奖励设计上,仅考虑了业务请求是否服务成功,这种单一的奖励机制可能导致智能体在探索时表现出过大的随机性。为此,文献[12]提出启发式的奖励设计方案,在奖励设计中分别结合了频谱切割度和频谱碎片大小这2个因素,让智能体在训练过程中能够明确地识别并减少频谱碎片化影响,从而进一步降低网络阻塞率。但由于该方案仅考虑对候选频谱相邻资源的碎片化影响,其算法在奖励空间的设计上仍存在一定局限性。

  奖励设计对于智能体的训练至关重要,而现有的大多数基于DRL的RMSA算法在奖励空间上的设计较为简单,限制了算法的性能。为了克服现有局限性并有效降低网络阻塞率,本文引入 2 个关键指标:资源占用情况和频谱邻接情况,并将这些指标融入奖励设计中,进而提出一种改进奖励设计(IRD)DRL 的 RMSA 算法(下文简称 DRL-IRD 算法)。


4 结束语

  本文提出了DRL-IRD算法,该算法将资源占用度和频谱邻接度2个指标结合到DRL的奖励设计中。鼓励智能体选择资源占用程度更小,且在频谱分配后空闲频谱资源邻接程度更大的路径建立连接,可以提高成功服务后续业务请求的概率,从而降低网络阻塞率。仿真结果表明:对学习率和折扣因子的调整可以影响DRL-IRD算法的学习效率,与KSP-FF算法和几种典型DRL算法相比,本文所提算法具有更低的网络阻塞率。