强化学习在许多仿真环境上取得了巨大成功,这些仿真环境通常假设智能体可以获得完美的感知。然而,在如自动驾驶、移动机器人等现实世界的实际任务中,由于智能体传感器设备低质或意外故障等原因通常会使智能体的部分观测数据带有噪声或缺失,这给经典的基于MDPs的强化学习决策方法应用于现实环境带来了挑战。并且,目前主流的基于粒子或基于高斯的部分可观测强化学习方法也只能提供潜在状态的概率估计,可能会使智能体学习效率低下甚至出现决策错误,无法很好地应对挑战。
图1 集员信念强化学习框架图
为此,论文《Set-membership Belief State-based Reinforcement Learning for POMDPs》提出了一种集员信念的强化学习算法(简称SBRL,见图1),该算法主要由集员信念状态学习(SBM)模型和强化学习控制器(RL Controller)组成。SBM是所提算法的关键创新点,其基于噪声有界假设对状态转移和观测函数进行模型构建,具体为:
(1)
其中,,。
论文证明了所提出SBM模型可以提供一系列始终包含真实状态的信念状态集,为部分可观测环境下的可靠决策提供了理论保证。大量实验结果表明,所提算法在各种具有挑战性的部分可观测实验场景下,整体性能优于当前最先进的方法。图2展示了所提算法在Safe gym环境下的实验结果。
图2 Safe gym环境下的部分结果
该论文通讯作者为梁吉业教授,第一作者为魏巍教授,合作者2021级博士生张利军、李琳讲师、2021级硕士生宋慧忠。研究工作得到计算智能与中文信息处理教育部重点实验室、科技创新2030-“新一代人工智能”重大项目、国家自然科学基金项目、山西省1331工程重点学科建设计划的支持、山西省自然科学基金项目的支持。
国际机器学习大会(International Conference on Machine Learning,简称ICML ) 是由国际机器学习学会(IMLS)举办的全球最负盛名的人工智能会议之一,同时也被中国计算机学会(CCF)推荐为人工智能领域的A类会议,主要发表机器学习领域的前沿研究成果。本届ICML将于今年7月23日至29日在美国夏威夷举办。