强化学习—— 离散与连续动作空间（随机策略梯度与确定策略梯度）

1. 动作空间
- 1.1 离散动作空间
- 1.2 连续动作空间
2. 确定策略梯度做连续控制
3. 随机策略网络进行连续控制
4 总结

1. 动作空间

1.1 离散动作空间

比如: ${left,right,up}$
DQN可以用于离散的动作空间（策略网络）

1.2 连续动作空间

比如： $A=[0^{circ} ，180^{circ} ]*[0^{circ} ,360^{circ} ]$
连续动作空间的两种处理方式：

离散化（discretization）：比如机械臂进行二维网格划分。假设d为连续动作空间的自由度，动作离散化后的数量会随着d的增加呈现指数增长，从而造成维度灾难。
使用确定策略梯度。
使用随机策略梯度。

2. 确定策略梯度做连续控制

在这里插入图片描述

动作空间为 $R^d$ 的一个子集

2.1 确定策略梯度推导

确定策略网络： $a = π (s; θ)$
价值网络(输出为一个标量)： $q (s, a; W)$
网络学习过程为：

观测到一个transition： $s_t,a_t,r_t,s_{t+1})$
计算t时刻价值网络的函数值: $q_t = q(s_t,a_t;W)$
计算t+1时刻价值网络的函数值： $a_{t+1}^-=pi(s_{t+1};theta)\q_{t+1}=q(s_{t+1},a_{t+1}^-;W)$
TD Error为： $delta_t=q_t-(r_t+gammacdot q_{t+1})$
更新价值网络： $q(s_t,a_t;W)}{partial W}$
更新策略网络所需的策略梯度推导： $策略网络的目标为通过策略网络a=pi(s;theta)\做出的决策可以增加价值网络q=q(s,a;W)的值。\ 因此确定策略梯度（deterministic policy gradient， DPG）为：\ g=frac{partial q(s,pi(s;theta);W)}{partial theta}=frac{partial q(s.pi(s;theta);W)}{partial pi(s;theta)}cdot frac{partial pi(s;theta)}{partial theta}$
依据确定策略梯度进行策略网络参数更新： $theta}\ thetagets theta+betacdot g$

2.2 确定策略梯度网络的改进

2.2.1 使用Target网络

Bootstrapping现象：

TD Target为： $delta_t =q_t-(r_t+gammacdot q_{t-1})$
价值网络使用到了自己的估计来更新自己，因而会造成连续高估或低估
解决方案为：使用不同的神经网络来进行TD Target计算

Target网络的核心思想：

使用价值网络计算 $t$ 时刻的价值函数值: $q_t = q(s_t,a_t;W)$
使用另外两个结构与价值网络和策略网络一致的神经网络计算t+1时刻的价值函数值和动作向量： $a_{t+1}^-=pi(s_{t+1};theta^-)\q_{t+1}=q(s_{t+1},a_{t+1}^-;W^-)$

采用Target网络的具体学习步骤为：

策略网络进行决策： $a_t=pi(s_t;theta)$
采用确定策略梯度（DPG）更新策略网络: $q(s_t,pi(s_t;theta);W)}{partial pi(s_t;theta)}cdot frac{partial pi(s_t;theta)}{partial theta}$
计算t时刻的价值网络函数值： $q_t=q(s_t,a_t;W)$
使用Target网络计算t+1时刻的价值： $a_{t+1}^-=pi(s_{t+1};theta^-)\q_{t+1}=q(s_{t+1},a_{t+1}^-;W^-)$
计算TD Error： $delta_t=q_t-(r_t+gamma cdot q_{t+1})$
更新价值网络的参数： $delta_t cdot frac{partial q(s_t,a_t;W)}{partial W}$

Target 网络的参数更新步骤为：

设定超参数 $τ \in [0, 1]$
将价值网络、策略网络与Target网络的参数进行加权平均，从而实现参数更新： $theta^- = taucdottheta+(1-tau)cdot theta^-\W^-=taucdot W+(1-tau)cdot W^-$

2.2.2 其余改进

经验回放（experience replay）
Multi-step TD Target

2.3 总结

/	随机策略网络	确定性策略网络
策略函数	$π (a ∣, s; θ)$	$a = π (s; θ)$
输出	动作空间的概率分布	确定的动作 $a$
决策方式	根据动作空间的概率分布进行随机抽样	直接输出一个动作 $a$
应用场景	多用于离散控制	连续控制

3. 随机策略网络进行连续控制

3.1 基本概念

折扣回报： $U_t = R_t+gammacdot R_{t+1}+gamma^2cdot R_{t+2}+...$
动作价值函数： $Q_pi(s_t,a_t)=E[U_t|S_t=s_t,A_t=a_t]$
状态价值函数： $V_pi(s_t)=E_{A_t}[Q_pi(s_t,A_t)]$
策略梯度： $V_pi(s_t)}{partial theta}=E_{A_tsim pi}[Q_pi(s_t,A_t)cdotfrac{partial log(pi(A_t|s_t;theta))}{partial theta}]\g(A_t)=Q_pi(s_t,A_t)cdotfrac{partial log(pi(A_t|s_t;theta))}{partial theta}$
进行蒙特卡洛近似后的策略梯度为： $a_tsimpi(cdot|s_t;theta)\g(a_t)=Q_pi(s_t,a_t)cdotfrac{partial log(pi(a_t|s_t;theta))}{partial theta}$

3.2 策略网络

3.2.1 自由度为1的连续动作空间

假设 $μ$ 和 $σ$ 为状态 $s$ 的函数
假设策略函数为正态分布的概率密度函数： $pi(a|s)=frac{1}{sqrt{2pi}cdotsigma}e^{-frac{(a-mu)^2}{2sigma^2}}$

3.2.2 自由度大于1（为 $d$ ）的连续动作空间

动作空间为d维向量
$μ$ 和 $σ$ 为状态 $s$ 的函数： $R^d$
$mu_i$ 和 $sigma_i$ 为 $μ (s)$ 和 $σ (s)$ 的第 $i$ 个元素
则定义策略函数为： $pi(a|s)=Pi_{i=1}^d frac{1}{sqrt{2pi}cdotsigma_i}e^{-frac{(a-mu_i)^2}{2sigma_i^2}}$

3.2.3 函数近似

对均值的近似： $mu(s;theta^mu)$
对方差的对数进行近似： $rho_i = log(sigma_i^2) quad i = 1,2,...,d\rhogets rho(s;theta^rho)$

在这里插入图片描述

3.2.4 连续控制策略

观测到状态 $s_t$
通过神经网络计算均值和方差： $hat{mu}=mu(s_t;theta)\hat{rho}=rho(s_t;theta)\hat{sigma_i}^2=e^{rho_i} quad i = 1,2,...,d$
进行随机抽样得到动作 $a$ : $a_isim N(hat{u_i},hat{sigma_i}^2)quad i = 1,2,...,d$

3.2.5 添加辅助神经网络

在这里插入图片描述

策略网络为： $pi(a|s;theta^mu,theta^rho)=Pi_{i=1}^dfrac{1}{sqrt{2pi}cdotsigma_i}cdot e^{-frac{(a-mu_i)^2}{2sigma_i^2}} \ log(pi(a|s;theta^mu,theta^rho))=sum_{i=1}^d[-log(sigma_i)-frac{(a-mu_i)^2}{2sigma_i^2}]+const\log(pi(a|s;theta^mu,theta^rho))=sum_{i=1}^d[-frac{rho_i}{2}-frac{(a-mu_i)^2}{2cdot e^{rho_i}}]+const\log(pi(a|s;theta^mu,theta^rho))=f(s,a;theta)quad theta=(theta^mu,theta^rho)$
定义上述的 $f (s, a; θ)$ 为辅助神经网络，则得到三个神经网络： $mu(s;theta^mu)quad 正态分布的均值\rho(s;theta^rho)quad正态分布的对数方差\f(s,a;theta)quad 辅助神经网络用于训练策略神经网络$
随机策略梯度为： $Q_pi(s,a)\ f(s,a;theta)=log(pi(a|s;theta))+const\g(a )=frac{partial f(s,a;theta)}{partial theta}cdot Q_pi(s,a)$

3.2.6 状态价值函数的近似

使用reinforce算法: $u_t = r_t+gammacdot r_{t+1}+...\thetagetstheta+betacdotfrac{partial f(s,a;theta)}{partial theta}cdot u_t$
使用 A-C算法： $Q_pisim q(s,a;W)\thetagetstheta+betacdotfrac{partial f(s,a;theta)}{partial theta}cdot q(s,a;W)$

4 总结

连续动作空间有无穷多种动作数量
解决方案包括：

离散动作空间，使用标准DQN或者策略网络进行学习，但是容易引起维度灾难
使用确定策略网络进行学习（但没有随机性）
随即策略网络（ $mu与sigma^2$ ）

训练过程的技巧：

构造辅助神经网络 $f (s, a; θ)$ 计算策略梯度
策略梯度近似算法包括：reinforce、Actor-Critic算法
可以改进reinforce算法，使用带有baseline的reinforce算法
可以改进Actor-Critic算法，使用A2C算法

本文内容为参考B站学习视频书写的笔记！

时间是贼
偷走一切
————五月天（如烟）————

by CyrusMay 2022 04 13

强化学习—— 离散与连续动作空间（随机策略梯度与确定策略梯度）

1. 动作空间

1.1 离散动作空间

1.2 连续动作空间

2. 确定策略梯度做连续控制

2.1 确定策略梯度推导

2.2 确定策略梯度网络的改进

2.2.1 使用Target网络

2.2.2 其余改进

2.3 总结

3. 随机策略网络进行连续控制

3.1 基本概念

3.2 策略网络

3.2.1 自由度为1的连续动作空间

3.2.2 自由度大于1（为 d d d）的连续动作空间

3.2.3 函数近似

3.2.4 连续控制策略

3.2.5 添加辅助神经网络

3.2.6 状态价值函数的近似

4 总结

3.2.2 自由度大于1（为 $d$ ）的连续动作空间