QY17VIP千亿体育,QY17VIP千亿体育|(中国)有限公司官网2019级博士研究生屈渤浩关于扩展非马尔科夫解空间学习多样性策略的研究已被期刊IEEE Transactions on Pattern Analysis and Machine Intelligence接收。本篇工作与新加坡科技研究局(A*STAR)Ivor W. Tsang教授和Yew Soon Ong教授合作完成。
论文题目:
Diversifying Policies with Non-Markov Dispersion to Expand the Solution Space
论文作者:屈渤浩
指导教师:曹晓锋副教授,常毅教授
收录期刊:
IEEE Transactions on Pattern Analysis and Machine Intelligence
期刊类别:CCF-A
论文概述:
本研究提出了一种策略空间扩散方法,通过扩展解空间来增强非马尔科夫决策过程场景下的策略多样性,从而提高强化学习的性能。策略多样性是指智能体在不同环境下采用多样化策略的能力,是强化学习中提升问题解决能力的关键。在许多现实世界场景中,由于奖励函数依赖于智能体的历史状态和动作,导致环境偏离了传统的马尔可夫决策过程假设,成为非马尔可夫决策过程。在这种情况下,解空间可能由于历史信息和时间依赖性而呈现无结构化扩展,使得解决方案的封闭形式并不等价。为了解决这一问题,本研究提出了一种通过策略扩散来推导多样化解决方案的方法。首先,我们利用Transformer模型对状态和动作序列进行建模,以学习用于解空间扩展的策略嵌入。Transformer在处理序列数据及捕捉非马尔可夫决策过程场景中的长距离依赖关系方面具有优势。随后,我们将策略嵌入进行堆叠,构建策略扩散矩阵作为策略多样性测度,以引导解空间中的策略扩散,进而获得一组多样化的策略。最后,我们证明了在策略扩散矩阵为正定的情况下,策略扩散的嵌入可以有效增加策略之间的分歧,从而为原始策略嵌入分布提供多样化表达。实验结果显示,在非马尔可夫决策过程和马尔可夫决策过程环境下,所提出的扩散方法通过扩展解空间,成功获取了更加多样化和具表现力的策略,相较于现有的学习方法展现出更为稳健的性能。