引用本文:
季晨阳,毕美华,周钊,等. 基于深度强化学习的多租户PON在线带宽资源分配算法[J]. 光通信技术,2021,45(9):36-39.
季晨阳1,毕美华1,周 钊2,陈天宁1,林嘉芊1,徐志威1
(1.杭州电子科技大学 通信工程学院,杭州 310018;2.国家电网湖南省电力有限公司 信息通信分公司,长沙410007)
【下载PDF全文】 【下载Word】摘要:为了解决运营商共享网络资源带来的资源分配问题,提出了一种基于深度强化学习(DRL)的在线带宽资源分配算法。该算法将多租户无源光网络(PON)系统映射到DRL模型中,DRL代理通过与环境交互,为各个待处理的带宽请求和当前剩余带宽做决策,并不断更新策略参数直至模型收敛,从而完成算法优化。搭建了仿真系统,对该算法进行了可行性验证,仿真结果表明所提的算法可以有效提高带宽资源利用率。
关键词:多租户;网络共享;带宽资源分配;深度强化学习
中图分类号:TN915.6 文献标志码:A 文章编号:1002-5561(2021)09-0036-04
DOI:10.13921/j.cnki.issn1002-5561.2021.09.009
0 引言
近年来,随着网络服务迅速发展[1-2],网络运营商面临着网络需求(特别是接入网带宽需求)快速增加的挑战。无源光网络(PON)是一种提供宽带服务高效的接入网解决方案,已成为现在接入网部署的主流技术[3-4]。然而,传统接入网的不同运营商需要在同一地区部署各自的网络设施来服务其用户,独立部署PON系统将会造成大量的带宽浪费。为此,在多个网络运营商之间共享网络资源即多租户共享的解决方案应运而生[5],其中,基础设施供应商负责物理网络的部署和维护,网络运营商向基础设施供应商租借现有的资源,并为自己的用户服务 [6]。于是,网络共享带来的资源分配问题成为亟待解决的难题。文献[7]提出了一个多运营商间的带宽资源共享框架,并在该框架中引入了一个片调度器,充当电路开关,在一帧的持续时间内将整个PON容量分配给某一个虚拟网络运营商(VNO)。然而,在该框架中,动态切换方法导致带宽短缺并增加负载,使得VNO之间的隔离性变差。与此同时,深度强化学习(DRL)已成功地应用于资源管理的决策问题,特别是在提高通信网络性能方面的应用引起了学术界和工业界的关注。文献[8]提出利用DRL进行资源管理,在解决多资源集群调度问题时优于启发式算法,能够有效减少作业的平均等待时间。多租户PON系统对请求的等待时间要求并不严格,而是更加关注PON系统的带宽利用率。因此,本文以提升共享网络的带宽利用率为目标,提出一种基于DRL的在线带宽资源分配算法。
4 结束语
多租户共享网络资源的方案能有效缓解网络运营商的成本压力和投资风险。面对网络共享带来的资源分配问题,本文提出了针对多租户网络的基于DRL的在线带宽资源分配算法。仿真结果表明:随着训练迭代次数的增加,基于DRL的在线带宽资源分配算法带宽利用率不断提高直至模型收敛,比基准启发式算法的带宽资源利用率高。