当前位置：网站首页＞研究方向＞强化学习＞正文

强化学习算法介绍01

作者：时间：2023-05-31点击数：

强化学习算法则是一种模仿人类智能学习的算法，从定义来说，强化学习是一个智能体因采取某个行动改变自己的状态，从而获得奖励，不断通过重复、试错的方式最终形成丰富经验的过程。

强化学习算法的结构较为复杂，其通常可分为三个层级。为了便于大家的理解，我们将以一场篮球赛为例来阐述整个强化学习的结构。首先介绍的是强化学习的第一层结构，其中包含三个元素，第一个元素是智能体；第二个元素是环境；第三个元素是目标。这三个元素构成了强化学习的框架，所以也被称之为基本元素。在一场篮球赛中，智能体元素就是比赛中的运动员，所也就是比赛的玩家；环境元素就是我们这场篮球活动本身；而目标元素则是赢得比赛。

强化学习的第二层结构同样包含三个元素：即状态、行动、奖励。由于整个强化学习的过程，都是围绕这三个元素进行循环而完成目标，所以我们将其称为主要元素。状态元素包含的信息很广泛，指的是玩家和环境所处的状态，包括所有球员的位置、速度、球在谁手上、地板滑不滑等等；行动元素指的是玩家根据当前的状态将执行的下一步动作，可以是投篮、传球、突破、挡拆等等；奖励元素则是在一个状态之下，采取了特定的行动之后所得到的反馈。比如说如果当下执行的动作可以得分或者可以辅助得分，那么会给到玩家相对应的奖励；相反，如果该行动导致传球失误或者投篮失误，则会给到相应的惩罚。

而强化学习的第三层结构则包含了策略和价值这两个元素。这两个元素决定了整个学习过程的方向性，所以将其称为核心元素。策略元素顾名思义，指的是玩家在某一状态下应该采取什么样的行动，即哪一种方式更容易得分。价值元素指特定状态下采取某种行动所具有的价值，通常我们会在行动结束后分析所有行动的价值，从而形成价值函数。而价值函数决定了策略函数，有了策略函数，我们只用输入新的状态，就可以输出下一步的最优行动。之后又将得到第二个过程的奖励，以此循环，直至达到最接近目标的状态。

我们结合这个图再来总结一下强化学习算法的主要步骤：1是智能体和环境构成一个状态；2是针对该状态应该采取某些行动；3是根据特定行动获得相应的奖励；4是分析行动形成的价值函数；5是根据价值函数确定策略函数；6是根据策略函数和新的状态生成新的行动；最后则是往复循环以达成目标。

下面我们将通过一个案例介绍强化学习在建筑能源管理中的应用。下图则是该工厂的能源管理系统示意图。我们的目标是利用强化学习的方法提高供冷系统的能效也就是系统COP，该过程中状态元素由系统冷负荷与室外湿球温度组合而成；反馈/奖励元素则为系统的COP；行动元素为冷却水泵和冷却塔风机的频率。在优化过程中，我们将冷却塔风机和冷却水泵的频率范围分别设置为： 30-50 Hz和40-50 Hz。通过不断调整风机和水泵的运行频率，可以得到系统在不同状态下的系统COP，从而找到系统COP最高所对应的运行模式。最终，通过这种强化学习的算法，我们在该案例中可实现3%-7%的节能率。

当前位置： 网站首页 ＞ 研究方向 ＞ 强化学习 ＞ 正文

强化学习算法介绍01

作者：时间：2023-05-31点击数：_showDynClicks("wbnews", 1575813621, 1256)

上一篇：强化学习算法分类02

当前位置：网站首页＞研究方向＞强化学习＞正文

作者：时间：2023-05-31点击数：