回归模型的变量筛选与预测

                                                               我眼中的回归变量筛选

       变量筛选是回归建模过程关键的一步,由于变量间的相关性,必然会导致不同的筛选方法得到不同的模型。

       在所有变量筛选方法中,向前法、向后法以及逐步回归法的使用频率较高,因为这类方法操作简单、运算速度快,非常实用,这种方法选出的变量 在入模后模型比较接近最优

       然而经向前法、向后法与逐步回归法筛选出的变量构建的模型并不是最优模型,若想构建最优模型,可以通过构建每个X的组合去获取最优变量组合,即全子集法。但全子集法因运算速度等限制,会有使用上的局限性,一般全子集法只会用在小量样本和少变量的情况。

       还有其他方法可以和回归结合达到筛选变量的目的,例如Lasso算法。Lasso处理的是稀疏系数回归,例如如果自变量共200个,因大量自变量间相关性过强,其中显著的自变量仅有10个,即变量的显著情况十分稀疏,这种情况可以尝试用Lasso去筛选变量。

       其实没有一种方法可以在建模阶段直接获得最高效的变量组合。实际场景中,我会先对样本进行小额抽样或变量粗筛,在减少变量个数后使用全子集法进行变量选择,最后会用逐步法进行变量的进一步筛选,从而获得若干个备选模型,然后在模型验证阶段确定出最有效的模型。

                                                                  我眼中的回归预测

       回归模型的预测功能指根据自变量X的取值去 估计或预测 因变量Y的取值,一般,预测或估计的类型主要有两种,即:

1、点估计

  • Y的平均值的点估计

  • Y的个别值的点估计

2、区间估计

  • Y的平均值的置信区间估计

  • Y的个别值的预测区间估计

       需要注意,用回归模型进行预测时,模型中自变量的取值离均值越远则预测的结果就会越不可靠即进行预测时,X的取值不可以超过建模样本中X的值域,如果预测时X的值超过了建模样本中X的值域,那么预测出来的结果是不可靠的。例如,构建收入消费模型,自变量之一为收入水平,且收入水平的取值为5万-50万,那么该模型是不能够预测收入500万的人群的。

       如果预测时严格的遵守X的取值在建模样本X的值域范围内,那么这种预测即为predict内插预测。但是有些时候无法保证预测的X值一定就在建模样本X的值域范围内,这种情况即需要用到外推预测forecast回归模型无法实现外推预测,一般外推预测forecast会存在于时间序列中。

        如下为实现线性回归的SAS代码,其中加入了p参数以实现对原始数据的预测:

                                                                 什么是点估计与区间估计

      点估计是用数据函数给出未知参数估计量,一般这个估计函数被称为估计统计量。

      然而,由于数据具有随机性的特点,随机数据带入该估计函数时会得到不同的估计值,所以需在点估计的基础上包裹出一个邻域区间,即区间估计

       例如替别人买饭,对方只喜欢一种口味的菜,但具体喜欢哪道菜你并不知道。那么可以有两种购买方式,随机只买一道菜,这种方法可以理解为点估计;多买几道菜,这种方法可以理解为区间估计。很显然,区间估计的方法买错的风险被降低了、买到对方喜欢的菜的概率会更高,当然你也要付出多付钱的代价

我的公众号:Data Analyst

个人网站:https://www.datanalyst.net/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/39749.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

回归模型中的哑变量

在构建回归模型时,如果自变量X为连续性变量,回归系数β可以解释为:在其他自变量不变的条件下,X每改变一个单位,所引起的因变量Y的平均变化量;如果自变量X为二分类变量,例如是否饮酒(…

简单线性回归模型

简单线性回归模型 研究经济变量之间相互数量关系最基本的方法之一是回归分析。在回归分析中,只有一个解释变量的线性回归模型是最简单的,称为简单线性回归模型或一元线性回归模型。本文主要从最简单的一元线性回归模型入手,讨论在基本假定满…

多元线性回归模型

多元线性回归模型 由于实际问题的复杂性,一个经济变量可能会同多个变量相联系。例如,消费者对某种商品的需求量不仅取决于该种商品价格的影响,而且可能受消费者的收入水平、其他代用商品的价格等因素的影响。因此,有必要将只要有…

快讯 | 机器人加班也会“猝死”,连续工作 20 小时倒地不起;马斯克暗示或起诉 OpenAI

一分钟速览新闻点 滴滴自动驾驶卡车 KargoBot 亮相上海车展 华为战略研究院院长周红:AI发展还面临三个重要挑战 路特斯发布全球首款量产“闪充机器人” 马斯克暗示或起诉 OpenAI 业内最新报告:ChatGPT 或会暴露企业机密信息 机器人加班也会“猝死”…

【科研资讯】嵌入织物的纤维泵和液体压电材料首现,全钙钛矿叠层太阳电池和高温超导电动悬浮取得新进展...

点击蓝字 关注我们 新的一天从研究资讯开始 DAILY NEWS 聚焦国内外 今日研究资讯 DAY BY DAY 2023年 4月6日 前言 在这里, 为你提供最新的科研资讯, 实验与热点你缺一不可! 1、首个嵌入织物的纤维泵制成 美国工程师设计了一种新型纳米颗粒&am…

国家数据局成立将带来大数据的五个发展趋势

大家好,我是独孤风。10年的时间我通过自学从港口工人转型成为了国企的大数据负责人。并注册大数据流动公众号,持续的进行文章创作,很高兴能在这里与大家相识~ 昨天的朋友圈相信大家都被这条振奋人心的消息刷屏了。 组建国家数据局&#xff01…

【技术简史】人类技术史:概念,本质,演化史,影响,未来挑战与发展前景

人类技术史:概念,本质,演化史,影响,未来挑战与发展前景 文章目录 人类技术史:概念,本质,演化史,影响,未来挑战与发展前景人类技术史:概念与本质人类技术史:演化史原始时期古代时期中世纪时期工业革命时期现代时期人类技术史:影响生产力水平社会结构生态环境人类技…

正向代理反向代理,清晰直观

大前提是什么?网络啊!局域网,公网啊! 表现是什么?请求 响应啊! 为什么代理?互通啊,隐藏啊 正向代理:代理客户端 多余的解释:你在局域网内(dddd&…

【网络】正向代理和反向代理

关于网络的基本知识: 为什么百度查到的ip和ipconfig查到的不一样;详解公网Ip和私网ip;详解网络分类ABC; 内网访问外网和外网访问内网的原理 代理 什么是代理?代理其实就相当于交易…

Traefik 一个反向代理的新工具

由于工作需要最近试用了几个反向路由的开源项目,Traefik就是其中之一。 一,Traefik 是干什么用的 简单来说它就是用来作反向代理和负载均衡的,比较适用于微服务化的场景,支持多种分布式的Key-Value存储系统,支持容器技…

Invalid block tag on line 16: 'endblock', expected 'endblock' or 'endblock topfiles'. Did you forget

Invalid block tag on line 16: ‘endblock’, expected ‘endblock’ or ‘endblock topfiles’. Did you forget to register or load this tag? 报错是因为代码没有注意空格问题。 改成缩进一格就行。

Your Bitbucket account has been locked. To unlock it and log in again you must solve a CAPTCHA.

Your Bitbucket account has been locked. To unlock it and log in again you must solve a CAPTCHA. 使用sourceTree拉取代码是出现这个错误,原因是账号对应的密码不对,需要修改window保存的账号名与密码 解决办法: 1,打开控…

启用或禁用更改块跟踪 (Changed Block Tracking, CBT)的两种方式

启用或禁用更改块跟踪 (Changed Block Tracking, CBT) 的两种方式 由于VMware提供了方便的数据块修改追踪(Changed Block Tracking,CBT)技术,为虚拟机增量备份提供了基础,除第一次备份必须完整备份与传输整个VM数据外&…

通过命令行关闭Bitlocker

cmd中输入以下命令关闭 manage-bde -off C: 但是有时候出现如下提示: 此时需要先执行如下命令:(系统分区不是C的话更改下面的盘符) manage-bde -autounlock -ClearAllKeys c: 然后再执行即可 manage-bde -off C: 提示解密进行…

vlock -- 锁定你的终端

原贴:http://www.linuxgem.org/2008/9/18/vlcok.5457.html vlock -- 锁定你的终端 galeki posted 2008年9月18日 01:01 in 实用软件 with tags vlock 终端 , 844 阅读 Vifm -- 支持 Vi 快捷键的文件管理器 基本上每个桌面环境下,都有方便的锁屏功能&am…

BlockChain-Account_TakeOver

题目描述 ECDSA 签名 假设我们的私钥为 d A d_A dA​而公钥为 Q A Q_A QA​, Q A d A ⋅ G Q_Ad_A\cdot G QA​dA​⋅G,接下来就是签名的过程,要签名的消息为 m m m 取 e H A S H ( m ) e HASH(m) eHASH(m)取 e e e的左边的 L n L_n L…

02_Lock锁

首先看一下JUC的重磅武器——锁(Lock) 相比同步锁,JUC包中的Lock锁的功能更加强大,它提供了各种各样的锁(公平锁,非公平锁,共享锁,独占锁……),所以使用起来…

block()/blockFirst()/blockLast() 解决办法

定位到BlockingLoadBalancerClient.java 155行 出问题的点代码如下&#xff1a; Response<ServiceInstance> loadBalancerResponse Mono.from(loadBalancer.choose(request)).block();将这段修改为异步解决&#xff1a; 新建一个新的类 import org.springframework.c…

对Openai Chat API的一些理解

目录 偷懒的编写一个API 如何让ChatGPT理解我们都在聊什么 付费和一些注意事项 Create chat completion 最近ChatGPT这么火&#xff0c;那必须来凑个热闹啊。 申请账户我就不多说了&#xff0c;懂得都懂。 偷懒的编写一个API 从ChatGPT的Chat演示看&#xff0c;他需要一…

借AI之势,打破创意与想象的边界

IMMENSE、36氪&#xff5c;作者 01 “未来是属于AI的” 3月2日&#xff0c;内容创作圈大地震。 就在3月2日凌晨&#xff0c;OpenAI宣布开放ChatGPT本体模型API&#xff0c;其价格为1k tokens/$0.002。也就是说&#xff0c;从这一天开始&#xff0c;任何企业都能让ChatGPT为自…