颠覆传统!强化学习+卡尔曼滤波荣登Nature封面

发布于:2025-06-23 ⋅ 阅读:(20) ⋅ 点赞:(0)

2025深度学习发论文&模型涨点之——强化学习+卡尔曼滤波

强化学习是一种通过智能体与环境交互来学习最优决策策略的方法,而卡尔曼滤波则是一种高效的状态估计技术,能够从带有噪声的测量数据中提取有用信息。

例如,这篇登上Nature封面的研究在无人机竞速与避障任务中,通过融合视觉-惯性估计器和门检测器的卡尔曼滤波估计,无人机的状态估计精度得到显著提升,使其能够在真实世界比赛中达到人类世界冠军级别的竞速性能。同时,利用深度强化学习算法(如PPO)训练无人机的避障策略,并结合卡尔曼滤波器进行去噪处理,进一步提高了无人机在噪声环境下的性能。

我整理了一些强化学习+卡尔曼滤波【论文+代码】合集,需要的同学公人人人号【AI科研灵感】自取。

论文精选

论文1:

Beyond Static Obstacles: Integrating Kalman Filter with Reinforcement Learning for Drone Navigation

超越静态障碍:将卡尔曼滤波器与强化学习相结合用于无人机导航

方法

      交互式多模型(IMM)卡尔曼滤波器:用于建模移动物体的潜在运动模式,从而准确预测未来目标位置。

      近端策略优化(PPO)强化学习算法:利用卡尔曼滤波器的预测来优化无人机的实时轨迹。

      模拟环境:开发了一个定制的三维无人机导航模拟器,用于训练和评估无人机的路径规划能力。

      奖励函数:设计了一个综合考虑通过动态门、完成任务、碰撞惩罚和时间惩罚的奖励函数,以引导无人机的行为。

      图片

      创新点

      动态障碍物导航:通过结合IMM卡尔曼滤波器和PPO强化学习,使无人机能够在动态环境中有效导航,成功通过动态门,平均奖励为11.60,成功率为87%。

      适应性轨迹规划:PPO算法能够根据环境变化动态调整无人机的轨迹,随着训练的进行,无人机的轨迹变得更加优化和快速,如图7所示。

      强化学习的不确定性量化:通过将卡尔曼滤波器的预测结果融入PPO的观察空间,增强了无人机对动态环境的适应性和决策的准确性,提高了在复杂动态环境中的导航性能。

      模拟环境的灵活性:开发的模拟环境能够支持多种动态场景和障碍物行为,为无人机路径规划算法的开发和测试提供了更现实、灵活的测试平台。

      图片

      论文2:

      Fast Value Tracking for Deep Reinforcement Learning

      深度强化学习中的快速值跟踪

      方法

      Langevinized Kalman Temporal-Difference(LKTD)算法:基于随机梯度马尔可夫链蒙特卡洛(SGMCMC),高效地从深度神经网络参数的后验分布中采样。

      状态空间模型:重新定义了强化学习的状态空间模型,引入了伪人口规模,使得算法能够收敛到正确的后验分布。

      集成学习:将LKTD算法与深度Q网络(DQN)和量化回归DQN(QR-DQN)等现有算法进行集成,提升了算法的性能。

      图片

      创新点

        动态环境适应性:LKTD算法能够适应动态环境中的值函数和模型参数变化,通过伪人口规模N的调整,提高了算法在动态环境中的适应性和稳定性。

        不确定性量化:LKTD算法通过SGMCMC从后验分布中抽样,量化了值函数和模型参数的不确定性,为强化学习提供了更准确的决策依据。

        计算效率:LKTD算法的时间复杂度为O(np),与DQN等算法相当,具有较高的计算效率和可扩展性,适用于大规模神经网络和大数据集。

        重放缓冲区的结合:LKTD算法与重放缓冲区的结合,提高了数据利用效率,增强了算法在离线策略学习中的适用性,即使在数据有限的情况下也能保持良好的性能。

        图片

        论文3:

        Champion-level drone racing using deep reinforcement learning

        使用深度强化学习的冠军级无人机竞速

        方法

          深度强化学习(RL):使用深度强化学习训练无人机的控制策略,使无人机能够在复杂的三维赛道上高速飞行。

          感知系统:结合视觉和惯性信息,通过卷积神经网络检测赛道上的门,并将其与视觉-惯性估计器的输出融合,提高无人机的状态估计精度。

          控制策略:使用两层感知器表示控制策略,通过模型自由的深度RL在模拟环境中训练,优化无人机的飞行路径。

          数据驱动的残差模型:通过在真实世界中收集的数据,建立感知和动态残差模型,将这些模型集成到模拟环境中,提高模拟的现实性,从而实现从模拟到现实的策略迁移。

          图片

          创新点

          冠军级性能:Swift系统在与三位人类世界冠军的比赛中多次获胜,并创造了最快的比赛记录,展示了无人机在物理世界中达到人类世界冠军水平的潜力。

          感知和动态残差模型:通过在真实世界中收集的数据,建立感知和动态残差模型,显著提高了从模拟到现实的策略迁移效果,使无人机能够在真实环境中表现出色。

          低延迟控制:Swift系统具有较低的传感器-电机延迟(40ms),相比人类飞行员的平均220ms,能够更快地做出反应,提高了飞行的精确性和效率。

          现实世界适应性:Swift系统能够在真实世界中适应不同的环境条件,如不同的光照条件和赛道布局,展示了其在实际应用中的广泛适用性。

          图片


          网站公告

          今日签到

          点亮在社区的每一天
          去签到