高斯过程

养生的控制人

发布时间 2022.03.03阅读数 3701 评论数 0

é«æ¯è¿ç¨

高斯过程将有限维高斯分布推广到了无限维，它是关于函数的分布。

Bayesian probabilistic approaches have many virtues, including their ability to incorporate prior knowledge and their ability to link related sources of information.

高斯过程由它的均值函数 $m(x):=E[f(x)]$ 和协方差函数

$C(x,x'):=E[(f(x)-m(x))(f(x')-m(x'))]$

所决定，一个过程 $f(x)$ 是高斯过程可以记作 $f\sim\mathcal{GP}(m(x),C(x,x'))$ 。

marginalization property：新来的点不会影响到已有点的分布，这一性质可以让我们只关注观测点的分布，对于其他未观测点可以看作被边缘化(be marginalized out)了。

协方差函数（核函数）

在高斯过程中，协方差函数决定了采样的连续（光滑）性，协方差函数一般也被称为正（半）定核或者Mercel核。通常有两类核函数：平稳和非平稳。

平稳核函数具有平移不变性，两点之间的协方差只取决于它们之间的相对位置。比如Squared exponential (SE)，它对应无限个高斯型基函数的和

$f(x):=\lim_{n\rightarrow\infty}\frac{s}{n}\sum_i \gamma_i exp(-((x-x_i)/2l^2)), \gamma_i \sim \mathcal{N}(0,1)$

SE核函数的形式为

$C(x,x')=s^2exp(\frac{1}{2l^2}||x-x'||_2^2).$

其中 $s^2,l$ 是超参数分别代表信号的方差和length scale。

the longer the characteristic length scale, the more slowly varying the typical sample function is. The signal variance defines the vertical scale of variations of a sample function.

其他典型的核函数还有

高斯过程回归

在回归问题中，我们通常希望从 $\{(x_i,y_i)\}_{i=1}^N$ 中学习潜在的映射关系 $y_i=f(x_i)+\epsilon_i$ ，其中 $y_i \in \mathbb{R}$ 是输入 $x_i \in \mathbb{R}^d$ 对应的有噪观测。

在贝叶斯线性回归中，通常利用 $H$ 个固定的基函数 $\{\phi_h(x)\}_{h=1}^H$ 来参数化潜在函数 $f$

$f(x):=<\phi(x),w>,w\in \mathbb{R}^H$

同时对于 $w$ 我们可以赋予一定的先验，根据贝叶斯定理就可以得到参数的后验分布。

在高斯过程回归中（有时候也叫kriging），我们不需要参数化潜在的函数关系，而是直接将先验施加到函数空间上。

假设噪声项服从 $\epsilon_i \sim\mathcal{N}(0,\sigma_{noise}^2)$ ，则似然模型可以表示为

$Y|f,X \sim \mathcal{N}(f_X,\sigma_{noise}^2I)$

也就是说数据似然服从一个高斯分布，均值是训练输入对应的函数值，方差为噪声方差。

假设函数 $f$ 的先验为一个零均值的高斯过程

$f\sim \mathcal{GP}(0,k(x,x')).$

我们可以得到高斯过程的后验为

$f|X,Y\sim \mathcal{GP}(k(x,X)[K+\sigma_{noise}^2I]^{-1}Y,k(x,x')-k(x,X)[K+\sigma_{noise}^2I]^{-1}k(x',X)).$

其中 $K$ 代表Gram矩阵 $K_{ij}=k(x_i,x_j)$ ， $k(x,x')$ 为核函数， $k(x,X)$ 代表一个输入固定为训练样本点的核函数。

回归的最终目标是要做预测，即给定 $x_*$ 要预测 $y_*$

接下来我们来看看预测分布。根据边缘化性质，我们知道训练输入的边缘分布为

$f_X \sim \mathcal{N}(0,K)$

输出关于输入的条件分布为

$p(Y|X)=\mathcal{N}(0,K+\sigma_{noise}^2I).$

训练输出 $Y$ 和我们想要预测的 $y_*$ 的联合分布为

$p(Y,y_*|X,x_*)=\mathcal{N}(0,C)$

其中

$C=\left[\begin{array}{cc} K+\sigma_{\text {noise}}^{2} I & k_{X, x_{*}} \\ k_{X, x_{*}}^{\top} & k\left(x_{*}, x_{*}\right)+\sigma_{\text {noise}}^{2} \end{array}\right]$

已知联合分布，我们可以求得条件分布，即预测分布为

$p(y_*|x_*,X,Y)=\mathcal{N}(\mu_*,\sigma_*^2)$

其中

$\begin{array}{l} \mu_{*}=k_{X, x_{*}}^{\top}\left(K+\sigma_{\text {noise }}^{2} I\right)^{-1} Y \\ \sigma_{*}^{2}=k\left(x_{*}, x_{*}\right)-k_{X, x_{*}}^{\top}\left(K+\sigma_{\text {noise }}^{2} I\right)^{-1} k_{X, x_{*}}+\sigma_{\text {noise }}^{2} \end{array}$

超参数优化

在实际使用中，通常核函数需要选择，同时和函数中涉及的超参数需要优化。

假设超参数 $\theta$ 的先验为 $p(\theta)$ ，它的后验分布为

$p(\theta|X,Y) \propto p(Y|X,\theta)p(\theta)$

第一项称为超参数的边际思染或者evidence，其对数形式为

$\log p(Y|X,\theta) =\frac{1}{2}Y^T\bar{K}^{-1}Y-\frac{1}{2}\log |K|-\frac{N}{2}\log (2\pi)$

其中 $\bar{K}:=K+\sigma_{noise}^2I$ ，通过最大化边际似然函数即可得到超参数的估计值。如果采用梯度法进行优化，还需要求得对数边际似然函数的偏导数

$\frac{\partial}{\partial_{\theta_{j}}} \log p(Y \mid X, \theta)=\frac{1}{2} Y^{\top} \bar{K}^{-1} \frac{\partial \bar{K}}{\partial_{\theta_{j}}} \bar{K}^{-1} Y-\frac{1}{2} \operatorname{tr}\left(\bar{K}^{-1} \frac{\partial \bar{K}}{\partial_{\theta_{j}}}\right)$

剩下的事情就交给求解器吧

稀疏近似

高斯过程模型的一个缺陷在于求你Gram矩阵的计算量大，因此许多研究稀疏近似的办法来减小计算负担，大部分方法的思路都是仅使用 $M<N$ 个潜在函数值，其他函数值用近似的方法替代。

通常引入一组潜在变量 $f_U \in \mathbb{R}^M$ ，它们对应输入 $X_U\in \mathbb{R}^{M\times d}$ 的潜在函数值，输入的选择不局限于训练或测试数据。潜在函数的联合分布可以进一步表示为

$\begin{array}{l} p\left(f_{X}, f_{*} \mid X, x_{*}\right) \\ =\int p\left(f_{X}, f_{*}, f_{U} \mid X, x_{*}\right) d f_{U} \\ =\int p\left(f_{X}, f_{*} \mid X, x_{*}, f_{U}\right) p\left(f_{U}\right) d f_{U} \end{array}$

其中 $p(f_U)=\mathcal{N}(0,K_{u,u})$ 。

为了近似引入假设：给定 $f_U$ ， $f_*$ 和 $f_X$ 相互独立

$f_*\perp f_X | f_U$

因此可以得到近似表达式

$p\left(f_{X}, f_{*} \mid X, x_{*}\right) \approx \int p\left(f_{*} \mid x_{*}, f_{U}\right) p\left(f_{X} \mid X, f_{U}\right) p\left(f_{U}\right) d f_{U}$

其中 $p(f_*|x_*,f_U),p(f_X|X,f_U)$ 的形式和先前推导的预测分布一致（无噪声项）。

其他的近似算法不同在于假设不同，以及对条件分布的假设不同。

通过稀疏近似，计算复杂度从 $\mathcal{O}(N^3)$ 降低至 $\mathcal{O}(NM^2)$ 。

控制系统建模仿真高斯过程

转载原出处：https://zhuanlan.zhihu.com/p/158720213

打赏 0

上一篇：数值优化（Numerical Optimization）(1)

下一篇：卡尔曼滤波器（估计器）1

高斯过程

养生的控制人

协方差函数（核函数）

高斯过程回归

超参数优化

稀疏近似

为你推荐

自适应阈值（adaptiveThreshold）分割原理及实现

【ROS Gazebo专题】二、Gazebo的使用上

Simulink永磁同步电机控制仿真系列八：使用自抗扰控制(adrc)实现速度闭环以及扰动估计

多传感器融合定位理论基础（十五）：第二阶段总结

Ardupilot固件之Flightgear模拟仿真

ros 机器人系统设计、urdf机器人建模

关于作者

养生的控制人

14

0

0

1

数值优化（Numerical Optimization）(5)约束优化（二）

用核函数来构造模型

数值优化（Numerical Optimization）(4)最小二乘问题

相关推荐

鲁棒控制理论（十）计算系统H2范数和H∞范数

论文阅读笔记《DPOD: 6D pose object detector and refiner》

【自动驾驶】运动规划丨轨迹规划丨基于改进Dijkstra算法的轨迹平滑方法

PMAC应用六-前瞻

Gazebo仿真小例程三（八自由度机器人——白泽）

ORBSLAM -- LocalMap构建细节

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

高斯过程

养生的控制人

协方差函数（核函数）

高斯过程回归

超参数优化

稀疏近似

为你推荐

自适应阈值（adaptiveThreshold）分割原理及实现

【ROS Gazebo专题】二、Gazebo的使用上

Simulink永磁同步电机控制仿真系列八：使用自抗扰控制(adrc)实现速度闭环以及扰动估计

多传感器融合定位理论基础（十五）：第二阶段总结

Ardupilot固件之Flightgear模拟仿真

ros 机器人系统设计、urdf机器人建模

评论（0）

关于作者

养生的控制人

14

0

0

1

数值优化（Numerical Optimization）(5)约束优化（二）

用核函数来构造模型

数值优化（Numerical Optimization）(4)最小二乘问题

相关推荐

鲁棒控制理论（十）计算系统H2范数和H∞范数

论文阅读笔记《DPOD: 6D pose object detector and refiner》

【自动驾驶】运动规划丨轨迹规划丨基于改进Dijkstra算法的轨迹平滑方法

PMAC应用六-前瞻

Gazebo仿真小例程三（八自由度机器人——白泽）

ORBSLAM -- LocalMap构建细节

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板