核方法总结（四）——高斯过程回归学习笔记

核方法总结（四）——高斯过程回归学习笔记

news/2024/12/23 22:44:52/文章来源:https://blog.csdn.net/reept/article/details/140060829

一、定义

基于核方法的线性回归模型和传统线性回归一样，可以用未知数据进行预测，但不能确定

预测的可信度。在参考书第二章中可知，基于贝叶斯方法可以实现对未知数据依概率预测，进而可得到预测的可信度。这一方法中，通过对模型参数w引入先验概率p(w),通过学习可得到该参数的后验概率p(w|D),并以此对x进行依概率预测，形式化如下：

$p(t_{*}\mid x_{*}) = \int p(t_{*}\mid x_{*};w)p(w\mid D)dw$ 1---(1)

其中 $p(t_{*}\mid x_{*};w)$ 是生成模型，可以是任何已知或设定的某种分布形式的模型，每个模型由w唯一确定，p(w|D)是基于训练数据D得到的对w的后验估计，计算如下：

$p(w|D) \propto p(D|w)p(w)$ 1---(2)

上式通过w的先验概率p(w)来实现对每个具体模型 $p(t_{*}\mid x_{*};w)$ 赋予先验概率。在核方法中，由于不存在一个显式的w,因此通过引入先验的方法无法适用。从而这里引入了高斯过程回归，而高斯过程回归就是基于核方法并引入随机性为高斯分布的一种统计回归方法，回归的结果就是高斯随机预测函数，并且可以得到预测的信度。

二、高斯过程回归的推导

2.1 高斯过程

高斯过程是随机过程的一种。随机过程和随机变量相对，是反映一系列变量或一组变量的分布特性，即各个组成变量以某种随机规律或分布取值。假设集合Ｘ有x1、x2.....xｎ个变量，如对每个变量进行一次采样，这些采样值就构成了一个定义在Ｘ上的函数f,这一函数显然是随机函数，而且f的形式显然就定义了具体的随机过程，所以也可以认为随机过程是以随机函数为自变量的概率分布，这个”概率分布“由f变量随机生成采样值生成。

　　任何一个变量集合Ｘ（进行采样）所蕴含的有限维函数分布族满足一致性和对称性就能保证Ｘ为一随机过程，且这一有限维函数分布族恰好就是该随机过程的有限维分布函数。这称之为 Kolmogorov定理。

　　所谓一致性就是，是指从Ｘ中任选一个子集，得到的概率分布形式是一致的。更严格地说，如果存在两个子集Ｘ1和Ｘ２，且 $X1\bigcap X2 \neq 0$ ,则由Ｘ１或Ｘ２通过边缘化其他变量导出的 $P(X1\bigcap X2 )$ 应一致，即：

　　1---(3)

对称性，是指Ｘ中任选一个子集，当对子集的变量交换位置时，其分布函数不变。

Kolmogorov定理表明，集合Ｘ确定的随机过程可以由其任意自己的子集的分布形式描述（Finite-Dimensional Distribution,f.f.d）

2.2 高斯过程回归推导

　高斯过程是f.f.d为高斯分布的一种随机过程，即任取一个有限点集组成的矩阵Ｘ＝[x1,x2,...xn],其目标变量取值组成的向量y=[y1,y2,...yn]满足高斯分布Ｎ(y; $\mu$ (X),K(x) )。设

$\mu$ (X) =0，则该高斯过程由协方差矩阵K(x)确定，其中K(X)ij = k(xi,xj), k(.,.)为任意核函数。

已知一个集合的分布形式，则任意一个子集也具有同样的分布，这一性质可以用来采样一个高斯过程，假设当前已经完成采样的函数点集为X，对一个新采样点 $X_{*}$ ,有 $X\hat{}$ = $X \bigcup \{X_{*}\}$ 对应的采样值 $y\hat{}$ 同样符合高斯分布。

即：1----(4)

其中：

$K\hat{} = \begin{pmatrix} K & k_{}\\ k^{T}_{} & \nu \end{pmatrix}$ 1---(5)

其中，K是训练集X的Gram矩阵， $k_{}$ =k( $x_{*}$ , $x_{n}$ ), v = k( $x_{*},x_{*}$ )。由高斯分布的性质，可知其条件分布也是高斯的，即：

1--(6) 1---(7) 1---(8)

下面用高斯过程完成回归任务，设有训练集{ $(x_{i},t_{i})$ },定义如下回归模型：

$t = y + \varepsilon$ 1---(9)

其中y是一个高斯过程， $\varepsilon \sim N(0,\beta ^{-1}I)$ 是观测噪音，则有：

$p(t) = \int p(t|y)p(y)dy$ 1---（10）

由于p(t|y)和p(y)都是高斯的，有积分p(t)：

p(t) = N(t;0,C) 1---（11）

其中：C= K + $\beta ^{-1}I$ 1----（12）

1-----（11）式实际上就完成了一次高斯回归。

因此 t 也是一个高斯过程，基于式类似1---（6）的推导过程，可知对于增量 $x_{*}$ ,可得类似的条件高斯回归模型，进而得到回归结果：

1----（13）、1----（14）、1----（15）

回顾上述推导过程，可以发现并没有定义一个类似线性回归的显示预测函数，而是通过定义数据间的相关性来描述整体分布属性，从而隐式定义了从x-->y的随机预测函数y(x),即高斯过程。

和参考书5.1节中基于核方法的正则化线性回归模型相比，高斯过程不仅引入了数据间的距离，而且通过该距离定义了一个联合概率分布，从而引入了预测模型的随机性。

引入这一随机性事实上给出了预测过程的可信度。比较参考书5.9式:

和 1---（14）可知基于高斯过程预测的期望值和传统核方法得到的预测值是一致的（ $C = K +\beta ^{-1}I$ 和 $K+ \lambda I$ 形式一致）。但高斯分布给出了1---（15）式的估计方差。

因此高斯过程回归可以认为是传统核方法的随机版本。

三、总结

本文是学习《机器学习导论》（清华大学出版社，中文版，王东，2021年）的摘录总结或笔记。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/364387.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

深度解析：机器学习如何助力GPT-5实现语言理解的飞跃

深度解析：机器学习如何助力GPT-5实现语言理解的飞跃

文章目录文章前言机器学习在GPT-5中的具体应用模型训练与优化机器翻译与跨语言交流：情感分析与问答系统：集成机器学习功能：文本生成语言理解任务适应机器学习对GPT-5性能的影响存在的挑战及解决方案技术细节与示例文章前言 GPT-5是OpenAI公…

阅读更多...

Kotlin中对空的很多处理

Kotlin中对空的很多处理

代码图片直观效果逐行解释Kotlin中对空的各种情况的使用 private fun testNull() {val flag 1var name: String? nullvar user: User? // 有警告, 因为下面的赋值可以和这一行定义合并var zhangUser: User? User()var wangUser: User User() // 提示Explicitly given t…

阅读更多...

【Linux】使用ntp同步时间

【Linux】使用ntp同步时间

ntp介绍 NTP（Network Time Protocol，网络时间协议）是一种用于同步计算机时间的协议，工作在UDP的123端口上。它是一种客户端-服务器协议，用于同步计算机的时钟。通过连接到网络上的时间服务器，计算机可以获…

阅读更多...

在开发板上抓包的方法

在开发板上抓包的方法

1.tcpdump tcpdump -i lo -s0 -w /user/lo.pcap tcpdump: 启动 tcpdump 工具，用于捕获网络数据包。-i lo: 指定监听的网络接口为 lo，这里的 lo 是本地回环接口（loopback interface），用于本机内部通信。-s0: 设置抓取…

阅读更多...

SpringBoot使用滑动窗口限流防止用户重复提交(自定义注解实现)

SpringBoot使用滑动窗口限流防止用户重复提交(自定义注解实现)

在你的项目中，有没有遇到用户重复提交的场景，即当用户因为网络延迟等情况把已经提交过一次的东西再次进行了提价，本篇文章将向各位介绍使用滑动窗口限流的方式来防止用户重复提交，并通过我们的自定义注解来进行封装功能。首先&a…

阅读更多...

[数据集][目标检测]电力场景下电柜箱门把手检测数据集VOC+YOLO格式1167张1类别

[数据集][目标检测]电力场景下电柜箱门把手检测数据集VOC+YOLO格式1167张1类别

数据集格式：Pascal VOC格式YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)：1167 标注数量(xml文件个数)：1167 标注数量(txt文件个数)：1167 标注…

阅读更多...

操作系统（OS）

操作系统（OS）

1.1.1操作系统的概念（定义） 操作系统（Operation System，OS）是指控制和管理整个计算机系统的硬件和软件资源，并合理地组织调度计算机的工作和资源的分配；（操作系统是系统资源的管理者…

阅读更多...

苹果电脑插上移动硬盘没反应怎么回事苹果笔记本移动硬盘无法写入苹果电脑读取不到移动硬盘数据怎么办移动硬盘连接苹果电脑无法读取的解决方案

苹果电脑插上移动硬盘没反应怎么回事苹果笔记本移动硬盘无法写入苹果电脑读取不到移动硬盘数据怎么办移动硬盘连接苹果电脑无法读取的解决方案

通常情况下，当我们把硬盘接到苹果电脑上，我们是可以读取它的。但也有用户遇到过这种情况，就是苹果电脑无法正常读取硬盘，这是怎么造成的呢？ 一、硬盘在苹果电脑上读取不出来的原因是什么？ 硬盘在苹果电脑上…

阅读更多...

Golang | Leetcode Golang题解之第198题打家劫舍

Golang | Leetcode Golang题解之第198题打家劫舍

题目： 题解： func rob(nums []int) int {if len(nums) 0 {return 0}if len(nums) 1 {return nums[0]}first : nums[0]second : max(nums[0], nums[1])for i : 2; i < len(nums); i {first, second second, max(first nums[i], second)}return se…

阅读更多...

FPGA SATA高速存储设计

FPGA SATA高速存储设计

今天来讲一篇如何在fpga上实现sata ip，然后利用sata ip实现读写sata 盘的目的，如果需要再速度和容量上增加，那么仅仅需要增加sata ip个数就能够实现增加sata盘，如果仅仅实现data的读写整体来说sata ip设计比较简单，下面…

阅读更多...

T4打卡学习笔记

T4打卡学习笔记

所用环境 ● 语言环境：Python3.11 ● 编译器：jupyter notebook ● 深度学习框架：TensorFlow2.16.1 ● 显卡（GPU）：NVIDIA GeForce RTX 2070 设置GPU from tensorflow import keras from tensorflow.keras…

阅读更多...

使用Vercel 搭建自己的Dashy导航页

使用Vercel 搭建自己的Dashy导航页

背景 Dashy 是一个开源的自托管导航页面配置服务，它具有易于使用的可视化编辑器、状态检查、小工具和主题等功能。用户可以利用 Dashy 将自己常用的一些网站聚合起来，形成一个个性化的导航页面。同类的竞品还有Heimdall, Flare 等。可以通过Docker 等…

阅读更多...

selenium4如何指定chrome和firefox的驱动（driver）路径

selenium4如何指定chrome和firefox的驱动（driver）路径

pythonpytestselenium框架的自动化测试脚本。原本用的chrome，很久没用了，今天执行，发现chrome偷偷升级，我的chromedriver版本不对了。。。鉴于访问chrome相关网站太艰难，决定弃用chrome，改用firefox。因为…

阅读更多...

用易查分制作《假期安全承诺书》支持在线手写签名，一键导出打印

用易查分制作《假期安全承诺书》支持在线手写签名，一键导出打印

暑假将至，学校通常会下发假期安全承诺书让家长签署。易查分可以实现网上下发安全承诺书通知，让学生家长进行签名确认，还可以导出PDF文件，方便打印一人一张的纸质版承诺书，下面就来教给大家如何使用吧！ 暑假…

阅读更多...

【语言模型】Xinference的部署过程

【语言模型】Xinference的部署过程

一、引言 Xinference，也称为Xorbits Inference，是一个性能强大且功能全面的分布式推理框架，专为各种模型的推理而设计。无论是研究者、开发者还是数据科学家，都可以通过Xinference轻松部署自己的模型或内置的前沿开源模型。Xinfe…

阅读更多...

第三十七篇——麦克斯韦的妖：为什么要保持系统的开放性？

第三十七篇——麦克斯韦的妖：为什么要保持系统的开放性？

目录一、背景介绍二、思路&方案三、过程1.思维导图2.文章中经典的句子理解3.学习之后对于投资市场的理解4.通过这篇文章结合我知道的东西我能想到什么？ 四、总结五、升华一、背景介绍如果没有详细的学习这篇文章，我觉得我就是被麦克斯韦妖摆弄的…

阅读更多...

[OtterCTF 2018]Graphic‘s For The Weak

[OtterCTF 2018]Graphic‘s For The Weak

恶意软件的图形中有些可疑之处。软件图形 ？？？这里的恶意文件都是 vmware-tray.ex使用procdump转存进程的可执行文件 （可执行的）导出了 ，看文件里面是否存在图片 volatility.exe -f .\OtterCTF.vmem --pro…

阅读更多...

长鑫存储母公司斥资24亿美元发展国产HBM

长鑫存储母公司斥资24亿美元发展国产HBM

国产DRAM厂商长鑫存储母公司睿力集成计划投资24亿美元在上海建一座高端封装工厂。据报道，该工厂将专注于高带宽存储器（HBM）芯片的封装，预计到2026年中开始投入生产。长鑫存储将利用来自多方投资者的资金进行建设，其中包…

阅读更多...

CXL：拯救NVMe SSD缓存不足设计难题-2

CXL：拯救NVMe SSD缓存不足设计难题-2

LMB提出了基于CXL协议的内存扩展框架和内核模块。该方案利用CXL内存扩展器作为物理DRAM源，旨在提供一个统一的内存分配接口，使PCIe和CXL设备都能方便地访问扩展的内存资源。通过这个接口，NVMe驱动和CUDA的统一内存内核驱动可以直接高效地访问…

阅读更多...

1-爬虫基础知识（6节课学会爬虫）

1-爬虫基础知识（6节课学会爬虫）

1-爬虫基础知识（6节课学会爬虫） 1.什么是爬虫2.爬取的数据去哪了3.需要的软件和环境4.浏览器的请求（1）Url（2）浏览器请求url地址（3）url地址对应的响应 5.认识HTTP/HTTPS5.1 http协议之…

阅读更多...

最新文章

推荐文章