机器学习 - 线性回归(最大后验估计)

最大似然估计的一个缺点是当训练数据比较少时会发生过拟合,估计的参数可能不准确.为了避免过拟合,我们可以给参数加上一些先验知识.

一、先从最大似然估计的一个缺点入手

最大似然估计(MLE)在处理小样本数据时,容易发生过拟合,导致估计的参数可能不准确。这是因为MLE旨在找到使观测数据概率最大的参数值,当训练数据较少时,模型可能会过度拟合这些有限的数据点,导致模型在新数据上的泛化能力下降。

原因分析:

  1. 数据代表性不足: 小样本数据可能无法充分代表总体数据的分布特征。MLE在这种情况下可能会过度拟合训练数据中的噪声和偶然性,导致模型对训练数据拟合得很好,但在处理新数据时表现不佳。

  2. 模型复杂度与数据量不匹配: 当模型的参数数量较多,而训练数据较少时,模型可能会过度拟合训练数据,捕捉到数据中的随机噪声,而不是潜在的真实模式。

解决方法:

为了解决MLE在小样本情况下的过拟合问题,可以考虑以下方法:

  1. 引入正则化: 在目标函数中添加正则化项(如L1或L2正则化),可以限制模型的复杂度,防止过拟合。

  2. 使用先验信息: 采用最大后验估计(MAP)或贝叶斯估计,将先验知识融入模型,有助于在数据不足时获得更稳健的参数估计。

  3. 数据扩充: 通过数据增强技术或收集更多的数据,增加训练样本的数量,降低过拟合的风险。

通过上述方法,可以缓解MLE在小样本情况下的过拟合问题,提高模型的泛化能力。

二、这里我们还需要回顾一下贝叶斯公式

贝叶斯公式描述了在已知某事件发生的情况下,另一个事件发生的概率如何调整。其数学形式为:

其中:

  • P(A∣B):事件 B 发生的情况下,事件 A 发生的后验概率

  • P(B∣A):事件 A 发生的情况下,事件 B 发生的条件概率

  • P(A):事件 A 的先验概率,即在未考虑事件 B 时,A 发生的概率。

  • P(B):事件 B 的边缘概率,即 B 发生的总体概率。

三、最大后验估计

(一)最大后验估计(MAP)的原理

在贝叶斯统计中,我们不仅关注数据本身(似然函数),还结合对参数的先验知识(先验分布)来进行估计。假设 θ 是我们需要估计的参数,D 表示观测数据,根据贝叶斯公式,参数的后验分布

其中:

  • p(D∣θ) 是似然函数,表示在参数 θ 下,数据 D 出现的概率;
  • p(θ) 是先验分布,表示在看到数据之前对参数 θ 的先验信念;
  • p(D) 是数据的边缘似然(或称证据),与 θ 无关。

这个过程反映了:MAP估计不仅要考虑数据如何支持参数(似然),还要考虑先验知识对参数的影响

(二)推导过程

假设我们的数据

来自于某个分布,参数为 θ,且这些数据相互独立,那么似然函数为

先验分布 p(θ)表达了我们对参数在观测数据之前的信念。于是后验分布为

MAP估计就是选择使得 p(D∣θ)p(θ)最大的 θ:

为了便于求解,通常取对数,得到对数后验(注意对数是单调递增函数,最大化对数后验等价于最大化后验):

接下来,我们对这个表达式关于 θ 求导,令其等于零,从而得到最优参数的条件。

(三)一个简单的例子:抛硬币实验

问题描述:
假设我们希望估计一枚硬币正面朝上的概率 θ,现从硬币中抛出 n 次,观察到 k 次正面。

模型设定:

  • 每次抛掷可以看作一次伯努利试验,结果为1(正面)或0(反面)。

  • 似然函数为:

先验选择:
假设我们对 θ 先验信念服从Beta分布:

其中,α和 β 是先验参数。

后验分布:
根据贝叶斯公式,后验分布为

MAP估计:
Beta分布的众数(在 α,β>1 的条件下)为

这就是在观测到 k 次正面、n 次抛掷,且先验参数为 α 和 β 时,得到的最大后验估计。

理解:

  • 当先验参数为 α=1 和 β=1(即均匀先验)时,MAP估计退化为最大似然估计,即

  • 当数据较少时,先验起到重要作用;当数据较多时,似然部分主导估计,MAP估计趋向于MLE结果。

  • 原理:MAP估计结合了数据的似然和参数的先验分布,通过最大化后验概率来估计参数。
  • 过程:构建似然函数、选择先验、计算后验、取对数、对参数求导、令导数为零求解最优参数。
  • 例子:在抛硬币实验中,通过选择Beta先验和伯努利似然函数,可以得到参数 θ\thetaθ 的后验分布,并由此推导出MAP估计公式。

四、MAP如何应用于线性回归?

线性回归中,应用**最大后验估计(MAP)**可以有效地结合数据和先验知识,对模型参数进行估计,从而增强模型的稳健性,特别是在数据量较少或存在多重共线性的情况下。

1. 线性回归模型概述

线性回归模型试图拟合输入变量 X 与输出变量 y 之间的线性关系,模型形式为:

其中,X 是 n×d 的设计矩阵,包含 n 个样本的 d 个特征;w 是 d 维的参数向量;ϵ 是误差项,通常假设其服从均值为零、方差为 σ2 的正态分布。

2. 最大后验估计(MAP)在线性回归中的应用

在传统的最小二乘法中,参数估计仅基于观测数据,可能导致在数据稀少或噪声较大时模型的过拟合。MAP估计通过引入先验分布,结合观测数据,提供对参数的更稳健估计。

步骤如下:

其中,σ2/τ2​ 是正则化参数,控制先验对估计的影响。当 τ2 较小时,先验影响较大;反之,先验影响较小。

3. 与岭回归的关系

值得注意的是,MAP估计与岭回归(L2正则化)密切相关。在岭回归中,通过在损失函数中添加 λ∥w∥2 项来防止过拟合。这种方法等价于对参数 w 施加零均值、方差为 τ2 的高斯先验。因此,MAP估计提供了岭回归的贝叶斯解释。

五、对于最大后验估计,为什么选择使得后验概率最大的参数值,即是最优参数?

在最大后验估计(MAP)中,我们通过最大化后验概率来选择模型参数。根据贝叶斯定理,后验概率 P(θ∣D) 与似然函数 P(D∣θ) 和先验概率 P(θ) 的乘积成正比,即:

其中,θ表示模型参数,D 表示观测数据。最大化后验概率等价于最大化上述乘积。因此,选择使后验概率最大的参数值,意味着我们在考虑了观测数据(通过似然函数)和先验知识(通过先验概率)的情况下,找到最符合两者的参数估计。这使得所选参数既符合当前数据,又融入了先验信息,从而提高估计的可靠性和稳健性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16293.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025.2.8——二、Confusion1 SSTI模板注入|Jinja2模板

题目来源:攻防世界 Confusion1 目录 一、打开靶机,整理信息 二、解题思路 step 1:查看网页源码信息 step 2:模板注入 step 3:构造payload,验证漏洞 step 4:已确认为SSTI漏洞中的Jinjia2…

Moretl 增量文件采集工具

永久免费: <下载> <使用说明> 用途 定时全量或增量采集工控机,电脑文件或日志. 优势 开箱即用: 解压直接运行.不需额外下载.管理设备: 后台统一管理客户端.无人值守: 客户端自启动,自更新.稳定安全: 架构简单,兼容性好,通过授权控制访问. 架构 技术架构: Asp…

基于STM32的ADS1230驱动例程

自己在练手项目中用到了ADS1230&#xff0c;根据芯片手册自写的驱动代码&#xff0c;已测可用&#xff0c;希望对将要用到ADS1230芯片的人有所帮助。 芯片&#xff1a;STM32系列任意芯片、ADS1230 环境&#xff1a;使用STM32CubeMX配置引脚、KEIL 部分电路&#xff1a; 代码…

HarmonyOS 5.0应用开发——NodeContainer自定义占位节点

【高心星出品】 文章目录 NodeContainer自定义占位节点案例开发步骤全部代码 NodeContainer自定义占位节点 NodeContainer是用来占位的系统组件&#xff0c;主要用于自定义节点以及自定义节点树的显示&#xff0c;支持组件的通用属性&#xff0c;对通用属性的处理请参考默认左…

26~31.ppt

目录 26.北京主要的景点 题目 解析 27.创新产品展示及说明会 题目​ 解析 28.《小企业会计准则》 题目​ 解析 29.学习型社会的学习理念 题目​ 解析 30.小王-产品展示信息 题目​ 解析 31.小王-办公理念-信息工作者的每一天 题目​ 解析 26.北京主要的景点…

单张照片可生成写实3D头部模型!Adobe提出FaceLift,从单一的人脸图像中重建出360度的头部模型。

FaceLift是Adobe和加州大学默塞德分校推出的单图像到3D头部模型的转换技术,能从单一的人脸图像中重建出360度的头部模型。FaceLift基于两阶段的流程实现:基于扩散的多视图生成模型从单张人脸图像生成一致的侧面和背面视图;生成的视图被输入到GS-LRM重建器中,产出详细的3D高斯表…

在Uniapp中使用阿里云OSS插件实现文件上传

在开发小程序时&#xff0c;文件上传是一个常见的需求。阿里云OSS&#xff08;Object Storage Service&#xff09;是一个强大的云存储服务&#xff0c;可以帮助我们高效地存储和管理文件。本文将介绍如何在Uniapp小程序中使用阿里云OSS插件实现文件上传功能。 1. 准备工作 首…

Tomcat添加到Windows系统服务中,服务名称带空格

要将Tomcat添加到Windows系统服务中&#xff0c;可以通过Tomcat安装目录中“\bin\service.bat”来完成&#xff0c;如果目录中没有service.bat&#xff0c;则需要使用其它方法。 打到CMD命令行窗口&#xff0c;通过cd命令跳转到Tomcat安装目录的“\bin\”目录&#xff0c;然后执…

Android Studio集成讯飞SDK过程中在配置Project的时候有感

在配置讯飞的语音识别SDK&#xff08;流式版&#xff09;时候&#xff0c;跟着写了两个Demo&#xff0c;一个是YuYinTestDemo01&#xff0c;另一个是02&#xff0c;demo01比较简单&#xff0c;实现功能图象也比较简陋&#xff0c;没用讯飞SDK提供的图片&#xff0c;也就是没用到…

DeepSeek 助力 Vue 开发:打造丝滑的进度条

前言&#xff1a;哈喽&#xff0c;大家好&#xff0c;今天给大家分享一篇文章&#xff01;并提供具体代码帮助大家深入理解&#xff0c;彻底掌握&#xff01;创作不易&#xff0c;如果能帮助到大家或者给大家一些灵感和启发&#xff0c;欢迎收藏关注哦 &#x1f495; 目录 Deep…

NLP Word Embeddings

Word representation One-hot形式 在上一周介绍RNN类模型时&#xff0c;使用了One-hot向量来表示单词的方式。它的缺点是将每个单词视为独立的&#xff0c;算法很难学习到单词之间的关系。 比如下面的例子&#xff0c;即使语言模型已经知道orange juice是常用组合词&#xf…

CNN卷积神经网络多变量多步预测,光伏功率预测(Matlab完整源码和数据)

代码地址&#xff1a;CNN卷积神经网络多变量多步预测&#xff0c;光伏功率预测&#xff08;Matlab完整源码和数据) 标题&#xff1a;CNN卷积神经网络多变量多步预测&#xff0c;光伏功率预测 一、引言 1.1 研究背景及意义 随着全球能源危机的加剧和环保意识的提升&#xff…

本地部署DeepSeek Nodejs版

目录 1.下载 Ollama 2.下载DeepSeek模型 3.下载 ollama.js 1.下载 Ollama https://ollama.com/ 下载之后点击安装&#xff0c;等待安装成功后&#xff0c;打开cmd窗口&#xff0c;输入以下指令&#xff1a; ollama -v 如果显示了版本号&#xff0c;则代表已经下载成功了。…

【Vue中BUG解决】npm error path git

报错内容如下&#xff1a; 从错误信息可知&#xff0c;这是一个 ENOENT&#xff08;No Entry&#xff0c;即找不到文件或目录&#xff09;错误&#xff0c;并且与 git 相关。具体来说&#xff0c;npm 在尝试调用 git 时&#xff0c;无法找到 git 可执行文件&#xff0c;下面为…

Jenkins+gitee 搭建自动化部署

Jenkinsgitee 搭建自动化部署 环境说明&#xff1a; 软件版本备注CentOS8.5.2111JDK1.8.0_211Maven3.8.8git2.27.0Jenkins2.319最好选稳定版本&#xff0c;不然安装插件有点麻烦 一、安装Jenkins程序 1、到官网下载相应的版本war或者直接使用yum安装 Jenkins官网下载 直接…

插入排序和希尔排序

目录 插入排序 插入排序代码实现&#xff1a; 插入排序思路&#xff1a; 希尔排序&#xff1a; 什么是希尔排序&#xff1a; 希尔排序代码实现&#xff1a; 希尔排序思路&#xff1a; 插入排序&#xff08;稳定&#xff09; 假设有这样一个数组&#xff0c;想要从小到大进行排…

elasticsearch

1、什么是elasticsearch elasticsearch被广泛用于日志分析、实时监控领域 elastic stack &#xff08;ELK&#xff09; ①kibana 数据可视化 ②elasticsearch存储、计算、搜索数据 ③Longstash、Beats 数据抓取 操作ES的语句称之为DSL语句 2、ES倒排索引 3、ES单节点安装…

【AcWing】蓝桥杯辅导课-数学与简单DP

目录 数学 买不到的数目 蚂蚁感冒 饮料换购 DP 01背包问题 摘花生 最长上升子序列 地宫取宝 波动数列 数学 买不到的数目 1205. 买不到的数目 - AcWing题库 这道题的意思就是给定两个正整数p和q&#xff0c;求xpyq这一个组合不能凑出来的最大正整数是多少 首先我们…

PyQt学习记录01——加法计算器

0. 安装配置 0.1 安装相关库 首先打开你的PyCharm程序&#xff0c;然后新建一个目录用于学习&#xff0c;其次在terminal中输入 pip install pyqt5如果你不具有科学上网能力&#xff0c;请改为国内源 pip install pyqt5 -i https://pypi.douban.com/simple然后安装pyqt相关…

[Linux] 信号(singal)详解(二):信号管理的三张表、如何使用coredump文件、OS的用户态和内核态、如何理解系统调用?

标题&#xff1a;[Linux] 信号管理的三张表、如何使用coredump文件、OS的用户态和内核态、如何理解系统调用&#xff1f; 水墨不写bug &#xff08;图片来源&#xff1a;文心一言&#xff09; 正文开始&#xff1a; 目录 一、信号管理的三张表 &#xff08;1&#xff09;三张表…