设为首页 加入收藏

当前位置: 网站首页 研究方向 强化学习 正文

强化学习算法介绍01

作者:时间:2023-05-31点击数:

  强化学习算法则是一种模仿人类智能学习的算法,从定义来说,强化学习是一个智能体因采取某个行动改变自己的状态,从而获得奖励,不断通过重复、试错的方式最终形成丰富经验的过程。

  强化学习算法的结构较为复杂,其通常可分为三个层级。为了便于大家的理解,我们将以一场篮球赛为例来阐述整个强化学习的结构。首先介绍的是强化学习的第一层结构,其中包含三个元素,第一个元素是智能体;第二个元素是环境;第三个元素是目标。这三个元素构成了强化学习的框架,所以也被称之为基本元素。在一场篮球赛中,智能体元素就是比赛中的运动员,所也就是比赛的玩家;环境元素就是我们这场篮球活动本身;而目标元素则是赢得比赛。

  强化学习的第二层结构同样包含三个元素:即状态、行动、奖励。由于整个强化学习的过程,都是围绕这三个元素进行循环而完成目标,所以我们将其称为主要元素。状态元素包含的信息很广泛,指的是玩家和环境所处的状态,包括所有球员的位置、速度、球在谁手上、地板滑不滑等等;行动元素指的是玩家根据当前的状态将执行的下一步动作,可以是投篮、传球、突破、挡拆等等;奖励元素则是在一个状态之下,采取了特定的行动之后所得到的反馈。比如说如果当下执行的动作可以得分或者可以辅助得分,那么会给到玩家相对应的奖励;相反,如果该行动导致传球失误或者投篮失误,则会给到相应的惩罚。

  而强化学习的第三层结构则包含了策略和价值这两个元素。这两个元素决定了整个学习过程的方向性,所以将其称为核心元素。策略元素顾名思义,指的是玩家在某一状态下应该采取什么样的行动,即哪一种方式更容易得分。价值元素指特定状态下采取某种行动所具有的价值,通常我们会在行动结束后分析所有行动的价值,从而形成价值函数。而价值函数决定了策略函数,有了策略函数,我们只用输入新的状态,就可以输出下一步的最优行动。之后又将得到第二个过程的奖励,以此循环,直至达到最接近目标的状态。

  我们结合这个图再来总结一下强化学习算法的主要步骤:1是智能体和环境构成一个状态;2是针对该状态应该采取某些行动;3是根据特定行动获得相应的奖励;4是分析行动形成的价值函数;5是根据价值函数确定策略函数;6是根据策略函数和新的状态生成新的行动;最后则是往复循环以达成目标。

  下面我们将通过一个案例介绍强化学习在建筑能源管理中的应用。下图则是该工厂的能源管理系统示意图。我们的目标是利用强化学习的方法提高供冷系统的能效也就是系统COP,该过程中状态元素由系统冷负荷与室外湿球温度组合而成;反馈/奖励元素则为系统的COP;行动元素为冷却水泵和冷却塔风机的频率。在优化过程中,我们将冷却塔风机和冷却水泵的频率范围分别设置为: 30-50 Hz40-50 Hz。通过不断调整风机和水泵的运行频率,可以得到系统在不同状态下的系统COP,从而找到系统COP最高所对应的运行模式。最终,通过这种强化学习的算法,我们在该案例中可实现3%-7%的节能率。