深入理解强化学习——强化学习的历史:最优控制

发布于:2023-10-25 ⋅ 阅读:(285) ⋅ 点赞:(0)

分类目录:《深入理解强化学习》总目录


强化学习的历史发展有两条同样源远流长的主线,在交汇于现代强化学习之前它们是相互独立的。其中一条主线关注的是源于动物学习心理学的试错法。这条主线贯穿了一些人工智能最早期的工作,并在20世纪80年代早期激发了强化学习的复兴。而另一条主线则关注最优控制的问题以及使用价值数和动态规划的解决方案。在很大程度上,这条主线并不涉及机器学习。尽管这两条主线在很大程度上是相互独立的,但它们都与第三条不太明显的关注时序差分方法的主线有一定程度的关联,在20世纪80年代末,这三条主线交汇在一起产生了现代的强化学习领域,正如我们在《深入理解强化学习》系列文章中所述的那样。

专注于试错学习的主线是我们最为熟悉的,也是我们在强化学习短暂的历史中最有话可说的。然而在此之前,我们先来简单地讨论一下最优控制这一条主线。“最优控制"这一术语最早使用于20世纪50年代末,用来描述设计控制器的问题,其设计的目标是使得动态系统随时间变化的某种度量最小化或最大化。在20世纪50年代中期由Richard BeIIman和其他一些人开发了针对这一问题的其中一种方法,该方法是对19世纪HamiIton和Jacobi理论的进一步延伸。这种方法运用了动态系统状态和价值数,或者称“最优回报函数"的概念,其定义了一个函数方程,现在我们通常称它为贝尔曼方程。通过求解这个方程来解决最优控制问题的这类方法被称为动态规划。Bellman也提出了最优控制问题的离散随机版本,被称作马尔可夫决策过程(Markov decision process,MDP)。而在此之后,Ronald Howard又设计出了MDP的策略迭代方法。所有以上这些方法都是现代强化学习理论和算法背后不可或缺的要素。

动态规划被普遍认为是解决一般随机最优控制问题的唯一可行方法。它遭受了贝尔曼所谓的“维度灾难",这意味着它的计算需求随着状态变量的数量增加呈指数级增长,但是它仍然比其他一般方法都更有效,使用更为广泛。自20世纪50年代末期以来,动态规划已经被全面开发,其中包括了对“部分可观测马尔可夫决策过程"的拓展、许多应用程序、近似方法和异步方法等。Bryson的著作较权威地描述了最优控制的发展历史。

另一方面,对最优控制和动态规划之间联系的认知过程却十分缓慢。我们无从得知究竟是什么导致了这种隔离,但主要原因大约是学科之间的隔离以及它们不同的目标。另一个可能的原因是,作为一种离线计算,动态规划主要依赖于精确的系统模型和贝尔曼方程的解析解。此外,动态规划的最简单形态是沿时间线反向推进的计算,这使得我们很难看出它如何能够被进行前向计算的学习过程所利用。动态规划最早的一些工作,比如Bellman和Dreyfus的工作,现在可以认为是一种“学习方法"。Witten的工作被认为是学习和动态规划思想的结合。Werbos明确地论证了动态规划和学习方法之间的更紧密的相互关系,以及动态规划与理解神经和认知机制的相关性。对于我们而言,动态规划方法与在线学习的首次完全整合出现在Chris Watkins1989年的研究里,他用MDP形式对待强化学习的方式至今仍被广泛使用。从那时起,这些关系被许多研究人员做了广泛研究,特别是由Dimitri Bertsekas和John Tsitsik1is创造的术语“神经动态规划",就指的是动态规划和人工神经网络的结合。目前使用的另一个术语是“近似动态规划"。虽然这些不同的方法强调了不同的方面,但它们都抱有同样的目的,即用强化学习来弥补动态规划中的典型缺陷。

我们认为所有最优控制的工作在某种意义上也都是强化学习的工作。我们将强化学习方法定义为解决强化学习问题的任何有效途径,现在很明显这些问题都与最优控制问题密切相关,尤其是那些可以形式化为马尔可夫决策过程的随机最优控制问题。因此,我们认为如动态规划等的最优控制的解决方法同样也是强化学习方法。由于几乎所有的传统方法都需要掌握关于系统的完备知识,所以说它们都是强化学习的一部分又显得有点不自然。然而从另一方面来说,许多动态规划算法都是增量式和迭代式的,它们通过循序渐进的方式逐步达到正确的答案,就像学习方法一样。正如我们在《深入理解强化学习》系列文章的其他部分所说的,这些相似之处远不止于表面。

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022

本文含有隐藏内容,请 开通VIP 后查看

网站公告

今日签到

点亮在社区的每一天
去签到