作者:禅与计算机程序设计艺术
1.简介
深度强化学习(Deep reinforcement learning, DRL)是机器学习领域中一个新兴的研究方向。它将强化学习与深度神经网络结合起来,使用神经网络作为函数逼近器,通过迭代更新网络参数来实现对复杂环境的高效控制。本文基于这一新的研究趋势,梳理了深度强化学习的相关知识,并给出了实践案例,帮助读者更加熟悉DRL的基本原理和应用。
2. 相关背景
深度学习(Deep learning)和强化学习(Reinforcement learning, RL)之间最初的关联可以追溯到上世纪90年代。当时,人们发现用神经网络来表示状态、动作和奖励等信息能够提升智能体的学习能力,于是开始尝试将深度学习运用于强化学习中。后来的研究表明,深度学习和强化学习之间的联系是广义上的,并非局限在RL领域。比如,深度学习也可以用于图像分类、物体检测、自然语言处理等领域。而深度强化学习则是深度学习在强化学习中的应用。
深度强化学习包括以下三个主要研究问题: 1.如何在多层结构中进行强化学习? 2.如何通过模型剪枝、正则化和蒙特卡洛树搜索(Monte-Carlo Tree Search, MCTS)等方式减少深度神经网络的参数量? 3.如何在连续的、不完全可观测的环境中进行有效的训练?
随着深度强化学习领域的不断发展,人们也越来越关注这一新的研究方向。诸如AlphaGo,Google DeepMind的星际争霸等AI比赛项目就是基于深度强化学习技术的。同时,越来越多的人越来越相信深度学习可以直接应用于解决实际的问题。
3. 强化学习基本概念与术语
3.1 强化学习
强化学习(Reinforcement Learning