RL1-Intro

1。 强化学习概述

这里不赘述基本概念了,只强调重点:

Barto在IJCAI2018做了名为“A History of Reinforcement Learning”的专题分享,感兴趣可以去看。

2. 重要概念

观测(Observation)

观测(Observation)是指观测到或能感知到的所有参数的集合,如通过摄像头采集的图像,通过传感器获取的各种信号,Ot表示t时刻的观测结果。对于空调的控制,观测数据可以是环温、制冷(热)量、COP、室内温度、设定温度、水流量、电费等。

Action

状态(state)

State分为环境State,智能体State和信息State:

奖励(reward):

标量。用于反映agent在t时刻的表现。根据奖励假设,深度学习问题都可以变为最大化累积奖励的问题。奖励可能且通常是延迟的。

个体和环境(agent & environment):

agent是算法和环境交换信息的接口。agent从环境接收observation和reward,并且向环境输出action。而环境则接受action,给出observation和reward。

About this Post

This post is written by Rui Xu, licensed under CC BY-NC 4.0.

#AI#Reinforcement Learning