引用本文:
尚晓凯,韩龙龙*,翟慧鹏
(国家计算机网络与信息安全管理中心河南分中心,郑州 450000)
【下载PDF全文】 【下载Word】摘要:针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Erlang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。
关键词:弹性光网络;改进深度Q网络强化学习算法;资源分配
中图分类号:TN929.1 文献标志码:A 文章编号:1002-5561(2023)05-0012-04
DOI:10.13921/j.cnki.issn1002-5561.2023.05.003
0 引言
随着数据中心、云平台和第五代移动通信(5G)网络等互联网业务的蓬勃发展,网络数据流量急剧增加,人们对基础网络传输提出了更高要求[1],传统的波分复用光网络传输方法已难以满足网络业务需求[2]。基于正交频分复用的弹性光网络(EON)通过对频域需求的调控来提升频谱资源利用率,并针对不同业务需求提供灵活的配置方案[3]。路由与频谱分配(RSA)[4]是EON中至关重要的技术之一,一些研究学者已将深度Q网络(DQN)强化学习算法(下文简称DQN算法)应用于EON的RSA中[5-7],但该算法在应用过程中仍然存在分配效果不佳、灵活性差、收敛速度慢等问题[8-9]。基于此,本文对DQN算法进行改进,提出改进DQN强化学习算法(下文简称改进DQN算法),以便提高EON的频谱利用率,降低网络阻塞率和平均访问时延。
3 结束语
本文提出了一种改进的DQN算法,并获得了实时调整的ε值。该值有效地改善了DQN算法中的随机性和误差性,使其动作选择更加合理,并提高了算法的迭代速度,得到了最优的频谱资源分配模型。最后对不同算法在相同仿真环境下进行了收敛效果、频谱资源利用率、阻塞率和平均访问时延的仿真对比。仿真结果表明:本文提出的改进DQN算法不仅能够使训练模型快速收敛,同时在解决RSA问题时能更好地提升频谱资源利用率,并进一步降低了阻塞率,为下一代EON发展提供了思路。