引用本文:
张慧颖,马成宇,李月月,等. 基于强化学习的异构网络接入选择算法[J]. 光通信技术,2024,48(4):77-82.
张慧颖,马成宇,李月月,梁士达,盛美春
(吉林化工学院 信息与控制工程学院,吉林 吉林 132022)
【下载PDF全文】 【下载Word】摘要:针对异构网络接入选择时在提高吞吐量与保持高公平性方面所面临的挑战,提出了一种基于强化学习的异构网络接入选择算法,即近端策略优化(PPO)算法。该算法通过与环境进行交互并采样数据,以用户长期吞吐量和满意度最大化为优化目标,随机模拟用户位置,收集用户属性数据进行模型训练,以获取最优的网络接入点分配策略。仿真结果表明:与传统算法相比,PPO算法在访问用户数达到最大值时,吞吐量可以提高40%~70%,用户平均满意度仍可达30%以上,用户公平指数可达0.82。
关键词:强化学习;吞吐量;体验质量;公平指数
中图分类号:TN929 文献标志码:A 文章编号:1002-5561(2024)04-0077-06
DOI:10.13921/j.cnki.issn1002-5561.2024.04.015
AI全文阅读精要
这篇文章主要提出了使用近端策略优化(PPO)算法来解决异构网络(包括LiFi和WiFi)接入选择中的吞吐量提升和公平性保持问题。以下是文件的核心内容总结:
研究背景与动机:
随着LiFi和WiFi异构网络的兴起,选择合适的接入点(AP)成为提升网络性能和用户体验的关键。
传统方法在处理复杂室内环境和多用户场景时存在局限性,因此需要新的解决方案。
PPO算法提出:
提出了基于强化学习的PPO算法,旨在通过与环境交互并采样数据,以最大化用户长期吞吐量和满意度。
随机模拟用户位置,收集用户属性数据进行模型训练,以获取最优网络接入点分配策略。
算法设计与实现:
模型设定:室内环境中包含4个LiFi AP和1个WiFi AP,分别提供区域和全局覆盖。
奖励函数:结合了吞吐量和用户满意度的比例因子,以平衡两者在优化目标中的权重。
动作定义:用户从5个可用的AP中选择一个进行接入,不同用户可以选择不同的AP。
算法流程:包括输入参数、模型训练、更新Actor和Critic网络参数等步骤,通过多轮训练确定最优接入方案。
仿真结果与分析:
复杂度比较:PPO算法复杂度适中,在用户数量增加时比穷举搜索算法低。
接入用户数量:PPO算法实现了WiFi和LiFi用户间的均衡分布,有效避免AP过载。
可实现速率:接入用户数量最大时,PPO算法的平均可实现速率仍高于其他方法,且最低速率也更高。
满意度:PPO算法使用户平均满意度达到30%以上,显著优于其他算法。
吞吐量:用户数量增多时,PPO算法平均吞吐量提升显著,最高可达72%。
公平指数:接入用户数最大时,PPO算法的公平指数高达0.82,表明用户间体验差异小。
结论与未来工作:
PPO算法在提升吞吐量和用户满意度、保持用户间公平性方面表现优异。
未来将进一步优化算法以适应复杂环境,并提升性能和收敛速度。