王树森深度强化学习基础笔记

参考资料

举例一枚硬币，则有：

\mathbb{P}(X = 0) = 0.5

\mathbb{P}(X = 1) = 0.5

PDF provides a relative likelihood that value of the random variable would equal that sample.
概率密度函数表示随机变量在某个确定位置的取值点附近的可能性

Example: Gaussian distribution

\begin{align}p(x) = \frac{1}{\sqrt{2\pi\sigma^2}}exp(-\frac{(2-\mu)^2}{2\sigma^2}).\end{align}

随机抽样

随机抽三个颜色的球，概率分别为0.2，0.5，0.3

form numpy.random import choice 
samples = choice(['R','G','B'],size = 100 ,p = [0.2,0.5,0.3])
print(samples)

state： s (this frame)，某一时刻的状态

Action：动作，Action a $\in$ {left，right，up}

Agent：代理，也被指为智能体是动作执行者，机器人、智能体

policy：也叫 $\pi$ 函数，根据观测到的状态来做出决策，从而控制agent运动，在数学上是概率密度函数，数学上表示为：

\begin{align} \pi:(s,a)->[0,1]:\pi(a|s) = \mathbb{P}(A =a|S = s). \end{align}

其中a是某一个动作，s表示当前状态，函数的结果为此时的概率

强化学习就是去构建policy函数，只要有了这样一个policy函数，计算机就会根据概率密度得出的概率做随机抽样，进而控制agent做出反应

reward：用R表示，奖励，奖励定义的好坏影响强化学习的结果，奖励的定义是更具游戏中输赢的条件来设置的。强化学习的目标就是获得奖励的总和最高。

state transition：状态转移，状态转移通常具有随机性，符合马尔科夫链模型，状态转移的随机性是更具环境的变化来的，环境的变化对于强化学习是未知的，状态转移函数只有环境知道，用数学公式表示如下：

p(s'|s,a)=\mathbb{P}(S' = s' | S = s,A =a)

用游戏来举例，环境是游戏程序，agent是游戏角色。在游戏中，将当前屏幕显示的图片作为State $S_t$ ,agent会根据环境做出动作，做出动作之后，环境会更新状态。

agent做出动作之后环境会更新状态，并给agent响应的奖励 $r_t$

强化学习的两个随机性：

最终得到trajectory轨迹，包含每一步的[状态，动作，奖励]，行成一个矩阵

Return： 回报，cumulative future reward 即将连续的所有奖励reword求和，得到 $U_t$ 表述为如下公式：

\begin{align} U_t = R_t + R_{t+1} + R_{t+2}+ R_{t+3}+... \end{align}

Discounted return： 折扣回报，对于未来的奖励和现在的奖励相比，更倾向于获得当前时刻的回报，并且越久远，奖励就要打折扣，因此对于连续时间下的折扣都有系数，系数为折扣率 $\gamma$ ，表示为如下公式：

\begin{align} U_t = R_t + \gamma R_{t+1} + \gamma^{2}R_{t+2}+ \gamma^{3} R_{t+3}+... \end{align}

折扣率 $\gamma$ 是一个超参数，是我们可以根据实际情况进行调整的，对强化学习的效果有一定的影响。

回报 $U_t$ 是一个随机函数，随机性有两个来源：

执行的动作随机Action can be random
$\begin{align} \mathbb{P}[A=a | S = s] = \pi(a|s). \end{align}$
场景的新状态随机 New state can be random
$\begin{align} \mathbb{P}[S' = s' | S = s,A =a] = p(s'|s,a). \end{align}$
对于任意时刻的 $ i \ge t $，奖励$ R_i $取决于当前的场景状态$ S_i$ 和当前的动作 $A_i$

因此，对于 $U_t$ 表示为所有的R求和，即表示 $U_t$ 与未来所有的reward，即未来所有的动作和状态都有关系，这就是折扣回报的随机性来源

State-Value Function

控制AI的两种方式：

第一种，32·

OpenAI Gym