聊聊量化分析

当你能够量化讨论的事物,并且可以用数字描述它,你就对它有了深入了解。但如果你不能用数字描述,那你的头脑根本没有跃迁到科学思考的状态。

——英国物理学家 开尔文勋爵

1、两个量化case

测试地球周长:按照相似三角形的比例关系,已知两地之间的距离,便能测出地球的圆周长。埃拉托色尼测出夹角约为7度,是地球圆周角(360度)的五十分之一,由此推算地球的周长大约为4万公里,这与实际地球周长(40076公里)相差无几。他还算出太阳与地球间距离为1.47亿公里,和实际距离1.49亿公里也惊人地相近。

af2549024f36a500a4e5f364a9184e5f.png

费米估计:一个你不知道的数、拆成几个你知道或者容易推测的数。这句话听起来简单,实际上做的时候,80%的错误解法就是把一个不知道的数拆解成一堆不知道的数。结果拆来拆去还是一脸懵逼。

先回顾下网上著名的北京每年的咖啡厅市场规模? 我们管这类问题叫整体市场规模类。

097de872a88cced0dc1d50cab77e6af2.png

乍看这个问题很专业,实际是个小学数学问题:

“我家五口人,只有我一个人喝咖啡,每天一杯,每杯30块钱。那我家一年花多少钱买咖啡?”

转化成专业点儿的公式就是:

市场规模 = 用户基数(5口人) x 渗透率(1/5) x 消费频次(365杯/年) x 单价(30块)。

接下来就是按照公式进行拆解了:

北京按照记忆估算一下2200万人口。

单价按照常识估为30元/杯。

渗透率和消费频次可以根据自己和朋友的经验进行假设。根据人群细分,分别估算不同人群的渗透率和消费频次。

最终可以得出:

183822502058a57a75b6aab363292901.png

量化的概念是减少不确定性,并且也没必要消除不确定性。

2、量化没你想的那么难

下面提出一些有建设性的假设:

70f19de4cb9763d0474bb424fbb03933.png

你的难题并没你想的那么独特

无论是某个待量化问题看上去多么独特,应该假设或许在另一个领域,它早就被人量化过了。如果这个假设不对,那就愉快的幻想你可以得"诺贝尔奖"吧。每个专业都有一个趋势,"和其它行业不同,我们行业里的每个问题都是独特的……有太多的因素需要在量化中被考虑"。实际上,他们说的任何一个难题都可以被转化为和其它领域没什么不同的量化问题。(保险行业就是量化的典范,将一系列不确定的因素转化为概率模型,从而估算保额)

你拥有的数据比你想象的多

讲真,把手头的数据用好,你就牛逼了。

你需要的数据比你认为的要少

到底需要多少数据可以将不确定性减少到足以评估问题的程度?可以通过一种特定类型的计算获得这些数据。当我们弄明白一组数据到底减少了多少不确定性时,我发现管理者经常能从如此少的数据中得到如此多的信息,尤其从极不确定的情况起步时。

3、量化与决策的关系

先看量化的五大步骤:

  • 定义需要决策的问题和相关的不确定因素。

  • 确定你现在知道什么

  • 计算附加信息的价值

  • 将有关量化方法用于高价值量化中

  • 做出决策并采取行动

如果一项工作至关重要,那是因为它会对决策和行为产生一些可感知的效果,如果一项量化工作不能影响或改变决策,那它就没有价值。

不确定性和风险的区别:不确定性是个中性词,风险则带有负面色彩。

4、如何衡量不确定性

如何衡量不确定性:统计学中的置信区间和概率就是对不确定性的描述。生活中,我们常说"我有80%的把握认为这件事能成",置信区间和我们嘴中的80%都是对不确定性的估计,区别在于置信区间根据数据统计得出,80%则依靠个人主观经验。

研究发现,赔率制定者和博彩公司在评估事情的不确定性上表现更好,物理学家在评估他们不知道的事情上表现糟糕。因此,对于不确定性的概率估计是一项可以学习的技巧。但也要清晰认识到,估值范围取决于你的认知程度。

提高概率校准水平的方法:

dfd7e71d76ba879e83bd834f195ff7a6.png
  • 重复和反馈。连续做几个实验,每做完一个看结果如何,然后在下一个测试中尽量提高水平。

  • 等价赌博。对每个评估,设置等价赌博测试,看看你设置的范围或概率是否真的反应你的不确定程度。网上有个段子,"如果你有1亿元,你愿意捐出来吗?很多人会回答,我愿意。你继续问他,如果你有一辆车,你愿意捐出来吗?不愿意"。这就说明,将选择与你选择的物等价,可以提高估计准确度。

  • 考虑赞成与反对双方意见。至少找出2点支持意见,同时找出至少2点反对意见。

  • 避免锚定。在考虑范围问题时,将上下限问题分为两个独立的是非题,”真实值超过上限或低于下限,对此你有95%的把握吗“。

  • 逆向锚定。先设置极大的范围,然后用荒谬测试逐渐缩小范围。研究人员发现,人们容易在脑子中形成一个锚,然后加减一个值作为他的区间,这很容易犯错。例如,开一家工厂需要多少钱你不知道,可以估算一个范围1w-1000w,然后逐步缩小范围,一台设备50w,从而增加下限,厂子最大容纳10台设备,从而缩小上限。

5、量化方法

5.1 贝叶斯

模型是量化的基石,量化方法在网上有很多,我这里着重介绍贝叶斯,这是因为,贝叶斯原理与其他统计学推断方法截然不同,它是建立在主观判断的基础上:在我们不了解所有客观事实的情况下,同样可以先估计一个值,然后根据实际结果不断进行修正。

贝叶斯原理

贝叶斯为了解决一个叫“逆向概率”问题写了一篇文章,尝试解答在没有太多可靠证据的情况下,怎样做出更符合数学逻辑的推测。

什么是“逆向概率”呢?

所谓“逆向概率”是相对“正向概率”而言。正向概率的问题很容易理解,比如我们已经知道袋子里面有 N 个球,不是黑球就是白球,其中 M 个是黑球,那么把手伸进去摸一个球,就能知道摸出黑球的概率是多少。但这种情况往往是上帝视角,即了解了事情的全貌再做判断。

在现实生活中,我们很难知道事情的全貌。贝叶斯则从实际场景出发,提了一个问题:如果我们事先不知道袋子里面黑球和白球的比例,而是通过我们摸出来的球的颜色,能判断出袋子里面黑白球的比例么?

假设有一种病叫做“贝叶死”,它的发病率是万分之一,现有一种测试可以检验一个人是否得病的准确率是 99.9%,它的误报率是 0.1%,那么现在的问题是,如果一个人被查出来患有“叶贝死”,实际上患有的可能性有多大?

问题分析:随机拉一个人进行检查,误报率是0.1%。那么如果一个人被检查患病,实际上患有的概率。也就是说,检查出患病准确率是99.9%,那么实际患病的概率是不是99.9%?

先验概率:通过经验来判断事情发生的概率,比如说“贝叶死”的发病率是万分之一,就是先验概率。

后验概率:后验概率就是发生结果之后,推测原因的概率。比如说某人查出来了患有“贝叶死”,那么患病的原因可能是 A、B 或 C。患有“贝叶死”是因为原因 A 的概率就是后验概率。它是属于条件概率的一种。

条件概率:事件 A 在另外一个事件 B 已经发生条件下的发生概率,表示为 P(A|B)。比如原因 A 的条件下,患有“贝叶死”的概率,就是条件概率。

似然函数(likelihood function):你可以把概率模型的训练过程理解为求参数估计的过程。似然在这里就是可能性的意思,它是关于统计参数的函数。

介绍完贝叶斯原理中的这几个概念,我们再来看下贝叶斯原理,实际上贝叶斯原理就是求解后验概率,我们假设:A 表示事件 “测出为阳性”, 用 B1 表示“患有贝叶死”, B2 表示“没有患贝叶死”。

患有贝叶死的情况下,测出为阳性的概率为 P(A|B1)=99.9%,没有患贝叶死,但测出为阳性的概率为 P(A|B2)=0.1%。对万分之一的解读:。患有贝叶死的概率为 P(B1)=0.01%,没有患贝叶死的概率 P(B2)=99.99%。

那么我们检测出来为阳性,而且是贝叶死的概率 P(B1,A)--联合概率分布

402 Payment Required

402 Payment Required

然后我们想求得是检查为阳性的情况下,患有贝叶死的概率,也即是 P(B1|A)

402 Payment Required

总结下来:后验概率= 条件概率/全概率

朴素贝叶斯,它是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。这个假设很硬,现实生活中根本不满足,但是这项技术对于绝大部分的复杂问题仍然非常有效。

朴素贝叶斯模型由两种类型的概率组成:

1、每个类别的概率P(Cj);

2、每个属性的条件概率P(Ai|Cj)。

贝叶斯应用举例

我以下面的数据为例,这些是根据你之前的经验所获得的数据。然后给你一个新的数据:身高“高”、体重“中”,鞋码“中”,请问这个人是男还是女?

6387f3c38bca4f8b97bc86d0556015d8.png

男女就是类型,男C1,女C2;

属性条件:身高A1,体重A2,鞋码A3

那么我们想求在 A1、A2、A3 属性下,Cj 的概率,用条件概率表示就是 P(Cj|A1A2A3)。根据上面讲的贝叶斯的公式,我们可以得出:

228a8c05ab795e72423e75d9aed8e310.png

因为一共有 2 个类别,所以我们只需要求得 P(C1|A1A2A3) 和P(C2|A1A2A3) 的概率即可,然后比较下哪个分类的可能性大,就是哪个分类结果。等价于求 P(A1A2A3|Cj)P(Cj) 最大值

我们假定 Ai 之间是相互独立的,那么:

54a6e33393d31f96058e16bd357a62d9.png

思考题

如果你的女朋友,在你的手机里发现了和别的女人的暧昧短信,于是她开始思考了 3 个概率问题,你来判断下下面的 3 个概率分别属于哪种概率:

1、你在没有任何情况下,出轨的概率;(先验概率)

2、在你的手机里发现了暧昧短信,认为你出轨的概率。(条件概率)

3、如果你出轨了,那么你的手机里有暧昧短信的概率;(后验概率)

对应到贝叶斯案例

1、假设有一种病叫做“贝叶死”,它的发病率是万分之一,

2、现有一种测试可以检验一个人是否得病的准确率是 99.9%,它的误报率是 0.1%

3、那么现在的问题是,如果一个人被查出来患有“叶贝死”,实际上患有的可能性有多大?

5.2 异动量化分析

短期诊断,就是分析推断业务核心指标近期涨跌的具体原因。业务在「短期诊断」上的诉求比「长期规划」要频繁甚至着急很多,因此对分析师做这件事情的效率有很高的要求。短期诊断本质上就是回答一个或多个「最近大盘指标 x 为什么跌了」的过程。

  • 举例来说,全国的服装销量环比上个月上涨了20%,那北上广深等城市各贡献了多少的成长?

  • 电商平台成交额同比去年下降了10%,服装服饰、家电等各行业各产生了多大的影响?

  • 航旅业务环比上个月上涨了15%,新用户、老用户各起到了怎样的作用?

我们以 GMV=曝光人数X入店转化率X下单转化率X客单价X人均购买单量(默认1) ,来量化曝光人数,入店转化率,下单转化率,客单价对GMV的贡献。

a4ab4f6ede3081b0c0282192e15c03c7.png

以江西为例,GMV环比降低 6.8%,曝光人数贡献了-16.85%,入店转化率贡献了7.81%,下单转化率贡献了3.4%,客单价贡献了1.1% 。那么策略就很明显了,增加江西地区美团渠道的曝光人数,方向就是保证自然流量不掉的前提下,做好付费流量增长,从而拉高GMV。

60b68773cdf6ec2f72b89070d21544f2.gif

 
●如何打造一篇分析报告?
●品牌知名度分析

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/9375.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【CHATGPT】登不上去,报错429,怎么办

节点更换了,浏览器缓存也清除了,还是不行

我,ChatGPT,站在谷歌的肩膀上,让谷歌紧张

ChatGPT的最大意义,在于它向在技术短缺状态中停留了大半个世纪的AI研发者们,传达了这样的信号:是时候走出实验室,拥抱人类,与人类开展有效互动的时候了。 在谷歌加持的类ChatGPT产品Bard回答问题出错后,它的…

ChatGPT:为什么它对所有行业都如此重要,它会杀死谷歌吗?

ChatGPT:为什么它对所有行业都如此重要,它会杀死谷歌吗? 想象一下,如果您与之交互的系统能够真正理解您并回答您提出的任何问题。该系统可以为您进行复杂的分析,像开发人员一样编写代码,甚至提供心理健康支持。2022年不再是幻想,而是现实,这个系统叫做ChatGPT。 ChatG…

“三箭齐发”,诸葛智能三大产品全新升级,助力企业迈向数字化经营 | 爱分析调研

调研:文鸿伟 撰写:文鸿伟 诸葛智能,是容联云旗下敏捷开放的场景化数据智能服务商,累积服务全国1000企业,覆盖泛互联网、泛电商、金融、汽车、产业科技、企服等数十个垂直领域。 自2015年成立至今,诸葛智…

@NotBlank 、@NotEmpty 没有提示具体message错误信息

使用下面统一异常处理的处理方法就可以提示 import com.butler.lib.common.base.BaseResponse; import lombok.extern.slf4j.Slf4j; import org.springframework.http.HttpStatus; import org.springframework.validation.BindingResult; import org.springframework.validati…

MQTT接收消息到发送消息全配置

一、配置线程池 二、MQTT订阅生产消息 三、接收处理消息 四、接收消息处理接口 五、消费消息内容 六、MQTT数据处理基础类 七、MQTT的连接类 八、消息回调,一般是失败以后,进行重连接等处理 九、生产消息回调 十、线程异常情况下,处理MQTT自动…

AI之下没有秘密:网友诱骗ChatGPT激活 Windows 11,ChatGPT落入陷阱!

1/ChatGPT 和 Bard 向用户共享 Windows 产品密钥 要放心踏实地使用 Windows 系统,首先得获取独一无二的密钥。长期以来,购买能用的密钥一直是操作系统安装流程中的重要环节。大家当然可以直接掏钱,技术社区在这几十年间也想尽办法“解决”…

中文情感分析之TextCNN

中文情感分析之TextCNN 综述情感分析方法基于情感词典的情感分析基于机器学习算法的情感分析 文本分类模型TextCNN中文情感分析实践数据预处理文本数值化模型构建结果分析 总结 ​最近接了个业务需求,需要对论坛发帖进行情感分析,以便于对恶意发帖的行为…

利用Sentiwordnet进行文本情感分析(简)

利用Sentiwordnet进行文本情感分析(简) 1. 简介2. 下载NLTK包和它内部的词典3. 全过程代码详解1. 导入所需包,函数2. 分词3. 计数,给予词性标签4. 计算单词得分 4. 完整代码(函数形式) 1. 简介 利用python…

最新微信小程序抓包方法

一、安装 fiddler 官网下载:https://www.telerik.com/download/fiddler 二、配置 打开fiddler tools-> options,genneral: 全选 https: connections: 配置代理地址 gateway: 三、打开电脑端小程序 退出微信,登录微信时设置代理 打开小程序…

抓包微信小程序openid的教程

一.所需设备 windows 电脑 二、步骤 1、下载安装Charles,官网版有30天试用。地址:https://www.charlesproxy.com/download/ 或者自行找方法安装该软件即可。 2、打开Charles软件,同时打开微信电脑版并登录。 3、设置 Charles 开启https抓…

微信小程序中英文国际版

1.在main.js中引入vue-i18n //引入中英文 import VueI18n from vue-i18n Vue.use(VueI18n); const i18n new VueI18n({locale: zh, // 默认选择的语言silentFallbackWarn: true, //在初始化VueI18n实例时禁止设置这些警告(同时保留那些警告给定键完全没有翻译的警…

微信聊天小程序——(二、账号的注册与登录)

具体效果: 目录 二、账号的注册与登录 步骤一、获取用户信息 步骤二、用户输入账号密码(在注册页面中) 步骤三、将获取到的值放到我们的数据库中(在注册页面中) 步骤四、登录的页面逻辑 步骤五、登录页面的实现 …

weixin小程序和公众号抓包方法分享

文章目录 前言一、工具准备及相关设置二、burp抓包演示三、扩展操作四、小结 前言 由于在工作中涉及了微信小程序的渗透测试,参考了一些文章,感觉代理的设置大都太麻烦,甚至还有人用模拟器或者手机登陆微信再抓内网IP的数据包,按…

微信小程序流量主被封和暂停搜索?

9月26号毫无征兆的收到微信广告助手的通知: 然后进入小程序后台,提示如下: 小程序广告组件关闭原因: 流量主通过违法违规等不正常手段获取流量,包括但不限于通过头像、名称、简介混淆正常搜索结果,影响用…

微信小程序功能被封禁怎么办(附上解决方案)

1.首先要明确是被封禁还是警告,警告的话在规定时间内整改就可以恢复,走的是警告申诉通道,封禁的话走的是封禁申诉通道 如果封禁了之后走警告申诉通过了申诉也是不给解封的,只能封禁走封禁申诉,警告走警告申诉。 2.在修…

chatgpt赋能python:Python中归一化处理——实现数据预处理的重要手段

Python中归一化处理 —— 实现数据预处理的重要手段 随着大数据时代的到来,越来越多的公司和机构开始注重数据的价值。不过,数据的价值是在经过处理后才会显现出来的。因此,数据预处理成为了数据分析过程中极为关键的一环。而在数据预处理中…

chatgpt赋能python:Python中数据清洗:让数据更优秀

Python中数据清洗:让数据更优秀 数据清洗(Data Cleaning)是数据分析过程中不可或缺的一个环节,它指的是通过一系列技术和方法,对数据中的不正确、不完整、不一致等各种问题进行处理和修正,使数据更加规范、…

chatgpt赋能python:Python数据建模:从数据预处理到机器学习建模

Python数据建模:从数据预处理到机器学习建模 Python已经成为了数据建模与分析的主要工具之一,因为它的语法简单易懂,有许多数据科学库可以使用,支持各种各样的数据预处理和建模技术。在本文中,我们将重点介绍使用Pyth…

chatgpt赋能python:Python数据预处理:优化数据分析的重要步骤

Python数据预处理:优化数据分析的重要步骤 在数据分析过程中,数据预处理是非常重要的步骤。在这个阶段,我们可以清洗、转换和整理数据,以便更好地进行数据分析和建模。Python是一个强大的工具,可以帮助我们优化数据预…