强化学习—— TD算法（Sarsa算法+Q-learning算法）

1. Sarsa算法
2. Q-learning算法
3. Saras和Q-learning的区别
4. Multi-step TD Target
- 4.1 Sarsa的Multi-step TD Target
- 4.2 Q-learning的Multi-step TD Target

在这里插入图片描述

1. Sarsa算法

1.1 TD Target

回报函数的定义为:
$U_t=R_t+gamma R_{t+1}+gamma^2 R_{t+2}+cdot cdot cdot\ U_t=R_t+gamma (R_{t+1}+gamma R_{t+2}+cdot cdot cdot)\ U_t = R_t+gamma U_{t+1}$
假设t时刻的回报依赖于t时刻的状态、动作以及t+1时刻的状态： $R_t gets (S_t,A_t,S_{t+1})$
则动作价值函数可以定义为： $Q_pi(s_t,a_t)=E[U_t|a_t,s_t]\ Q_pi(s_t,a_t)=E[R_t+gamma U_{t+1}|a_t,s_t]\Q_pi(s_t,a_t)=E[R_t|a_t,s_t]+gamma E[U_{t+1}|a_t,s_t]\ Q_pi(s_t,a_t)=E[R_t|a_t,s_t]+gamma E[Q_pi(S_{t+1},A_{t+1})|a_t,s_t]\ Q_pi(s_t,a_t) = E[R_t + gamma Q_pi(S_{t+1},A_{t+1})]$
依据蒙特卡洛近似： $y_t= r_t + gamma Q_pi(s_{t+1},a_{t+1})$
TD学习的目标： $y_t approx Q_pi(s_t,a_t)$

1.2 表格形式的Sarsa算法

学习动作价值函数 $Q_pi(s,a)$
假设动作和状态的数量有限。
则需要学习下列表格信息：

SA	$a_1$	…
$s_1$	$Q_{11}$	…
$s_2$		…
$s_3$		…
$s_4$		…
…		…

计算步骤为：

观测到一个transition，即： $s_t,a_t,r_t,s_{t+1})$
依据策略函函数对动作进行抽样： $a_{t+1}sim pi(cdot|s_{t+1})$
查表得到TD Target： $y_t = r_t+gamma Q_pi(s_{t+1},a_{t+1})$
TD error为： $delta_t=Q_pi(s_t,a_t)-y_t$
更新表格： $Q_pi(s_t,a_t)gets Q_pi(s_t,a_t) - alpha cdot delta_t$

1.3 神经网络形式的Sarsa算法

用神经网络近似动作价值函数： $Q_pi(s,a)$
神经网络作为裁判去评判动作
参数W需要学习
TD Target为： $y_t = r_t+gamma cdot q(s_{t+1},a_{t+1};W)$
TD error为： $delta_t = q(s_t,a_t;W)-y_t$
loss 为: $delta_t^2$
梯度为: $delta_t cdot frac{partial q(s_t,a_t;W)}{partial W}$
进行梯度下降： $delta_t cdot frac{partial q(s_t,a_t;W)}{partial W}$

2. Q-learning算法

Q-learning用来学习最优动作价值函数： $Q_pi^star (s,a)$

2.1 TD Target

$Q_pi(s_t,a_t) = E[R_t+gamma cdot Q_pi(S_{t+1},A_{t+1})]$
将最优策略函数计为： $pi^star$
则： $Q^star(s_t,a_t)=Q_{pi^star}(s_t,a_t)= E[R_t+gamma cdot Q_{pi^star}(S_{t+1},A_{t+1})]$
t+1时刻的动作按下式进行计算： $A_{t+1}=mathop{argmax}limits_{a} Q^star (s_{t+1},a)$
则最优动作价值函数可作如下近似： $Q^star(s_t,a_t)=E[R_t+gamma cdot mathop{max}limits_{a}Q^star(S_{t+1},a)]\ approx r_t+mathop{max}limits_{a}Q^star(s_{t+1},a)$

2.2 表格形式的Q-learning算法

SA	$a_1$	…
$s_1(找出此行最大的Q)$	$Q_{11}$	…
$s_2$		…
$s_3$		…
$s_4$		…
…		…

计算步骤为：

观测到一个transition，即： $s_t,a_t,r_t,s_{t+1})$
TD Target为： $y_t=r_t+mathop{max}limits_{a}Q^star(s_{t+1},a)$
TD error为： $delta_t=Q^star(s_t,a_t)-y_t$
更新表格： $Q^star(s_t,a_t)gets Q^star(s_t,a_t) - alpha cdot delta_t$

2.3 神经网络形式的Q-learning算法（DQN）

观测到一个transition，即： $s_t,a_t,r_t,s_{t+1})$
TD Target为： $y_t=r_t+mathop{max}limits_{a}Q(s_{t+1},a；W)$
TD error为： $delta_t=Q(s_{t},a_t；W)-y_t$
参数更新： $delta_t cdot frac{partial Q(s_t,a_t;W)}{partial W}$

3. Saras和Q-learning的区别

Sarsa学习动作价值函数： $Q_pi(s,a)$
Actor-Critic中的价值网络为用Sarsa训练的
Q-learning训练最优动作价值函数: $Q^star(s,a)$

4. Multi-step TD Target

one-step仅使用一个reward： $r_t$
multi-step 使用m个reward： $r_t,r_{t+1},...,t_{t+m-1}$

4.1 Sarsa的Multi-step TD Target

$y_t = sum_{i=0}^{m-1}lambda^i r_{t+i} + lambda^mQ_pi(s_{t+m},a_{t+m})$

4.2 Q-learning的Multi-step TD Target

$y_t = sum_{i=0}^{m-1}lambda^i r_{t+i} + lambda^mmathop{max}limits_{a}Q^star(s_{t+m},a)$
本文为参考B站学习视频书写的笔记！
by CyrusMay 2022 04 08

我们在小孩和大人的转角
盖一座城堡
——————五月天（好好）——————