1。 强化学习概述
这里不赘述基本概念了,只强调重点:
Barto在IJCAI2018做了名为“A History of Reinforcement Learning”的专题分享,感兴趣可以去看。
没有监督数据,只有奖励信号。
无监督学习(Unsupervised Learning) 是一个典型的寻找未标注数据中隐含结构的过程。强化学习有时候会被认为是一种无监督学习的方式,但是他们是有区别的。 强化学习的主要目的是最大化收益信号,而不是寻找数据的隐含结构。虽然无监督学习通过智能体寻找隐含结构对强化学习很有意义,但是这并不能解决最大化收益信号的问题。所以强化学习 Reinforcement Learning是在监督学习与无监督学习之外的第三种机器学习范式。奖励信号不一定是实时的,可能是延后的,可能延后很多。
序列性, 时间是一个重要因素。
当前的行为影响到后续的数据。
2. 重要概念
观测(Observation)
观测(Observation)是指观测到或能感知到的所有参数的集合,如通过摄像头采集的图像,通过传感器获取的各种信号,Ot表示t时刻的观测结果。对于空调的控制,观测数据可以是环温、制冷(热)量、COP、室内温度、设定温度、水流量、电费等。
Action
状态(state)
State分为环境State,智能体State和信息State:
环境State
环境状态Ste是对环境t时刻具体情景的完备性描述,事实上我们无法获得也没有必要获得环境状态的完备性描述,一方面是因为很多参数是不可测或无法获得的,另一方面是因为一些环境状态数据与控制无关。
是环境的私有表示
是一些环境用来挑选下一步观察和奖励的数据
环境State并不总是对智能体可见
即使可见,也可能包含一些对任务无关的信息
智能体State
智能体状态Sta则是t时刻所有环境状态中与智能体(Agent)相关的部分,或者说与设计最优智能体相关的最小状态包络,即只包含影响游戏最终结果的最简完备信息,通常Sta⊆Ste。
它是智能体的内部表示
包含一些智能体用来挑选下一步动作的信息
智能体State是我们强化学习算法需要的状态
他可以是history的任何函数:
Sat = f (Ht)
信息State
它包含历史中所有的有用的信息
也称为Markov State,马尔科夫状态
既然叫马尔科夫状态,也就是说,下一个状态只依赖于当前状态
环境State也是马尔科夫的 history也是马尔科夫的
奖励(reward):
标量。用于反映agent在t时刻的表现。根据奖励假设,深度学习问题都可以变为最大化累积奖励的问题。奖励可能且通常是延迟的。
个体和环境(agent & environment):
agent是算法和环境交换信息的接口。agent从环境接收observation和reward,并且向环境输出action。而环境则接受action,给出observation和reward。
- 完全可观测的环境(fully observable environment):个体能够直接观测到环境状态。在这种条件下,个题对环境的观测=个体状态=环境状态。这种问题是一个MDP问题。
- 部分可间接观测的环境(partially observable environment):个体间接观测环境。在这种条件下,个体状态≠环境状态,个体必须构建他自己的状态呈现形式。例如:beliefs of environment state、recurrent neural network(RNN)
About this Post
This post is written by Rui Xu, licensed under CC BY-NC 4.0.