保险行业数据分析

相关代码下载:SPSS保险数据分析.rar_运用spss对银行客户进行分类-互联网文档类资源

数据分析完整流程:保险行业数据分析

一、业务背景

1.业务环境

  • 宏观
    中国是世界第二大保险市场,但在保险密度上与世界平均水平仍有明显差距。

  • 业界
    保险行业2018年保费规模为38万亿,同比增长不足4%,过去“短平快“的发展模式已经不能适应新 时代的行业发展需求,行业及用户长期存在难以解决的痛点,限制了行业发展。

  • 社会
    互联网经济的发展,为保险行业带来了增量市场,同时随着网民规模的扩大,用户的行为习惯已发生转变,这些都需要互联网的方式进行触达。

  • 保险科技:当前沿科技不断应用于保险行业,互联网保险的概念将会与保险科技概念高度融合。
    在这里插入图片描述
    中国保险市场持续高速增长。 根据保监会数据, 2011~2018年,全国保费收入从1.4万亿增长至3.8万亿,年复合增长率17.2%。 2014年,中国保费收入突破2万亿,成为全球仅次于美国、日本的第三大新兴保险市场市场; 2016年,中国整体保费收入突破3万亿,超过日本,成为全球第二大保险市场; 2019年,中国保费收⼊有望突破4万亿。

2. 发展现状

  • 概览
    受保险行业结构转型时期影响,互联网保险整体发展受阻, 2018年行业保费收入为1889亿元, 较去年基本持平,不同险种发展呈现分化格局,其中健康险增长迅猛, 2018年同比增长108%,主要由短期医疗险驱动。
  • 格局
    供给端专业互联网保险公司增长迅速,但过高的固定成本及渠道费用使得其盈利问题凸显,加上发展现状强,经营渠道建设及科技输出是未来的破局方法, 渠道端形成第三方平台为主,官网为辅的格局,第三方平台逐渐发展出B2C、 B2A、B2B2C等多种创新业务模式。
  • 模式
    互联网保险不仅仅局限于渠道创新,其核心优势同样体现在产品设计的创新和服务体验的提升。

3. 发展趋势

  • 竞合格局
    随着入局企业增多,流量争夺更加激烈,最终保险公司与第三方平台深度合作将成为常态。
  • 保险科技
    当前沿科技不断应用于保险行业,互联网保险的概念将会与保险科技概念高度融合。

4. 衡量指标

5. 业务目标

针对保险公司的健康险产品的用户,制作用户画像,然后进行精准保险营销。

二、案例数据

1. 数据来源

美国某保险公司,和本公司合作多年。现在该公司有一款新的医疗险产品准备上市。

2. 产品介绍

这一款新的医疗产品主要是针对65岁以上的人群推出的医疗附加险,销售渠道是直邮。

3. 商业目的

为保险公司某种健康险产品做用户画像,找出最具有购买倾向的人群以进行保险营销。

4. 数据介绍

本次案例数据共有76个字段,字段繁多,在处理数据时,需要先将数据按照类别进行归类,方便理解查看。

4.1 基本信息

在这里插入图片描述

4.2 基本情况

在这里插入图片描述

4.3 家庭成员

在这里插入图片描述

4.4 家庭成员情况

在这里插入图片描述

4.5 疾病史

在这里插入图片描述

4.6 金融信息

在这里插入图片描述

4.7 个人习惯

在这里插入图片描述

4.8 家庭状况

在这里插入图片描述

4.9 居住城市

在这里插入图片描述

5. 分析思路

  • 根据经验,我们可以大概判别哪些特征很可能和用户是否购买保险会有相关关系。
  • 结合我们的业务经验,以及数据可视化,特征工程方法,先行探索这些特征中哪些特征更重要。
  • 建模之后,再回顾我们这里认为比较重要或不重要的特征,看一下判断是否准确。

三、Python代码实现

  • 了解数据样本和特征个数、数据类型、基本信息等
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')
df=pd.read_csv(r'D:\liwork\a\data\ma_resp_data_temp.csv')
pd.set_option('max_columns',100)  #显示100列数据
df.head()
df.shape
df.info()
  • 统计数据基本信息、统计空值数量
#将id转化为object
df['KBM_INDV_ID']=df['KBM_INDV_ID'].astype('object')
df.dtypes
df.describe().T
describe = df.describe().T
describe.to_excel('output/describe_var.xlsx')
#统计空值
len(df.columns)
#空值的列
len(df.columns)-df.dropna(axis=1).shape[1]
NA=df.isnull().sum() # 统计各个列空值的数量
NA
#重置索引
NA=NA.reset_index()
NA
`#修改列名
NA.columns=['Var','NA_count']
NA``
#过滤出有缺失的数据,过滤出大于0的数据
NA=NA[NA.NA_count>0].reset_index(drop=True)
NA
#统计空值比例
NA.NA_count/df.shape[0]
  • 数据可视化分析
import matplotlib.pyplot as plt
import seaborn as snsplt.style.use('seaborn')#支持中文输出
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False# plt.rcParams['font.family']='Arial Unicode MS' # OS系统
  • 探索样本分类是否平衡
df.resp_flag.value_counts()plt.figure(figsize=(10,3))
sns.countplot(y='resp_flag',data=df)
plt.show()#比例关系
df.resp_flag.sum()/df.resp_flag.shape[0]
  • 绘制年龄的分布情况
#直方图+密度曲线
sns.distplot(df['age'],bins=20)df['age'].min()   #查看年龄
df['age'].max()
  • 分别绘制两类样本的年龄分布
x = np.random.randn(100)
sns.kdeplot(x)#填充颜色
sns.kdeplot(x,shade=True,color='y')sns.kdeplot(df.age[df.resp_flag==0],label='0',shade=True)
sns.kdeplot(df.age[df.resp_flag==1],label='1',shade=True)
plt.xlabel('Age')
plt.ylabel('Density')
  • 查看不同学历之间购买保险的数量
#学历的分布
plt.figure(figsize=(10,3))
sns.countplot(y='c210mys',data=df)
plt.show()sns.countplot(x='c210mys',hue='resp_flag',data=df)
  • 不同县的大小对应的购买数量
sns.countplot(x='N2NCY',hue='resp_flag',data=df)

含空值的列,每一列的数据类型统计出来,并加在NA的表中

temp=[]
for i in NA.Var:temp.append(df[i].dtypes)NA['数据类型']=tempNA
  • 空值填充
NA[NA.Var!='age']df.AASN.mode()[0]#用众数填充
for i in NA[NA.Var!='age'].Var:df[i].fillna(df[i].mode()[0],inplace=True)#对年龄用均值进行填充
df.age.fillna(df.age.mean(),inplace=True)#验证结果 全是0就代表都已填充完毕
df.isnull().sum()

变量编码

df.head()#删除ID
del df['KBM_INDV_ID']#筛选object
df_object=df.select_dtypes('object')df_object.shapefrom sklearn.preprocessing import OrdinalEncoderdf_object=OrdinalEncoder().fit_transform(df_object)
df_object#字符转数值
for i in df.columns:if df[i].dtypes=='object':df[i]=OrdinalEncoder().fit_transform(df[[i]])
df.head()

建模

from sklearn import tree
from sklearn.model_selection import train_test_split#切分数据集
X=df.iloc[:,1:]
y=df['resp_flag']Xtrain,Xtest,Ytrain,Ytest=train_test_split(X,y,test_size=0.3,random_state=420)#建模
clf = tree.DecisionTreeClassifier().fit(Xtrain,Ytrain)
clf.score(Xtest,Ytest)

模型优化

from sklearn.model_selection import GridSearchCV#网格搜索
param_grid={'max_depth':range(3,8),'min_samples_leaf':range(1000,3000,100)}
GR = GridSearchCV(tree.DecisionTreeClassifier(),param_grid,n_jobs=-1,cv=5)GR.fit(Xtrain,Ytrain)#求出tree.DecisionTreeClassifier里面参数的值
GR.best_params_GR.best_score_clf=tree.DecisionTreeClassifier(max_depth=7,min_samples_leaf=1000).fit(Xtrain,Ytrain)
clf.score(Xtest,Ytest)

画决策树

features=list(df.columns[1:])import graphviz  #要提前安装哦dot_data = tree.export_graphviz(clf,feature_names=features,class_names=['No Purchase','Purchase'],filled=True,rounded=True)graph = graphviz.Source(dot_data)
graph#输出图片
graph.render('model1')

四、输出结果

我们来看一下购买比例最高的两类客户的特征是什么:

第一类

  • 处于医疗险覆盖率比例较低区域
  • 居住年限小于7年
  • 65-72岁群体
  • 那么我们对业务人员进行建议的时候就是,建议他们在医疗险覆盖率比例较低的区域进行宣传推广,然后重点关注那些刚到该区域且年龄65岁以上的老人,向这些人群进行保险营销,成功率应该会更高。

第二类

  • 处于医疗险覆盖率比例较低区域
  • 居住年限大于7年
  • 居住房屋价值较高
  • 这一类人群,是区域内常住的高端小区的用户。这些人群也同样是我们需要重点进行保险营销的对象。

保险行业数据分析(案例)_Kimber_z的博客-CSDN博客_保险 数据分析

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/65223.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【自然语言处理】【大模型】CodeGeeX:用于代码生成的多语言预训练模型

CodeGeeX:用于代码生成的多语言预训练模型 《CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Evaluations on HumanEval-X》 论文地址:https://arxiv.org/pdf/2303.17568.pdf 相关博客 【自然语言处理】【大模型】CodeGen&#x…

微信备份聊天记录,显示网络复杂(PC)

问题: 有时使用微信备份聊天记录,会显示当前网络复杂。尝试换了各种网络都不行。 原因 当你的电脑配置了虚拟网卡(安装了Vmware等虚拟化软件)时,会使得微信无法正常工作。 解决方法 禁用虚拟出来的网卡即可

浅谈金融场景的风控策略

随着互联网垂直电商、消费金融等领域的快速崛起,用户及互联网、金融平台受到欺诈的风险也急剧增加。网络黑灰产已形成完整的、成熟的产业链,每年千亿级别的投入规模,超过1000万的“从业者”,其专业度也高于大多数技术人员&#xf…

风控系统设计

一、思路 要实现一个简单的业务风控组件,要做什么工作呢? 1.风控规则的实现 a.需要实现的规则: 自然日计数 自然小时计数 自然日自然小时计数 自然日自然小时计数 这里并不能单纯地串联两个判断,因为如果自然日的判定通过,而自然小时的判定不通过的时候,需要回退,自然日…

软件测试-互联网金融风控测试知识都有哪些呢?

大家好,今天我们一起来聊聊,在我们测试互联网金融项目中的风控系统都需要怎么进行测试,测试工作中都有哪些内容需要进行测试,重点测试需要关注什么呢? 风控主要的测试节点: 1、用户预筛模型需要针对设计用…

将PPT中的文本提取到word文档

1、打开想要提取的PPT文件 2、按住 Altf11进入Microsoft Visual Basic for Applications 3、在左边的工程窗口空白处右键,选择 “插入”---“模块” 然后中间会出现一个代码编辑区 4、在最上方菜单栏找到“工具”点击选择“引用”,然后会弹出下面这个框…

TestGPT对研发和测试人员的变革

一、背景 上次我们我们聊到ChatGPT给测试工程师带来的机会和威胁 这次我们聊聊TestGPT对测试人员的影响。 TestGPT 模型旨在协助开发人员测试他们的代码,为开发人员提供自动生成的软件测试套件建议,从而加快编码和错误扫描。 一句话总结:…

2022年执法资格交通执法考试单选题专项训练题及答案

题库来源:优题宝公众号 2022年执法资格交通执法考试单选题专项训练题及答案,由优题宝公众号根据最新执法资格交通执法考试大纲与历年执法资格交通执法考试真题汇总编写,包含执法资格交通执法考试常考重点题型与知识点,有助于考生…

考试系统软件是怎么保障考试公平公正的?

通过考试系统软件组织在线考试,从出题、组卷、考试、阅卷、判分等一系统操作都可以在线上轻松实现。考试可以自主安排时间,不需要集中去考场,给考试组织方和考生都省去了不少麻烦。 就算考试系统软件智能好用,但还是有很多人担心作弊问题,在线上没有老师监考,考生在手机上…

2022年茶艺师(中级)培训试题及在线模拟考试

题库来源:安全生产模拟考试一点通公众号小程序 2022茶艺师(中级)操作考试题是茶艺师(中级)练习题考前押题!2022年茶艺师(中级)培训试题及在线模拟考试根据茶艺师(中级&a…

2022年最新浙江机动车签字授权人考试模拟题库及答案

百分百题库提供机动车签字授权人考试试题、机动车签字授权人考试真题、机动车签字授权人证考试题库等,提供在线做题刷题,在线模拟考试,助你考试轻松过关。 判断题 102、汽车帮助驾驶员在所有的交通状况下尽可能安全避免事故的一种性能,称为被…

2022年自考专业考试(英语)外贸函电练习题

1、Because the voyage is in warm weather and the goods are liable to go mouldy, we think it advisable to have the shipment( ) the risk of mould. A.covered insurance B.taken out insured C.covered against D.insured for 2、 Our customers said that your…

2022年执法资格交通执法考试多选题专项训练题及答案

题库来源:优题宝公众号,2022年执法资格交通执法考试多选题专项训练题及答案,根据最新执法资格交通执法考试大纲与历年执法资格交通执法考试真题汇总编写,包含执法资格交通执法考试常考重点题型与知识点,有助于考生复习…

2020年茶艺师(高级)复审模拟考试及茶艺师(高级)模拟考试软件

题库来源:安全生产模拟考试一点通公众号小程序 2020年茶艺师(高级)复审模拟考试及茶艺师(高级)模拟考试软件,包含茶艺师(高级)复审模拟考试答案和解析及茶艺师(高级&…

2022年执法资格刑侦执法考试多选题专项训练题及答案

题库来源:优题宝公众号 2022年执法资格刑侦执法考试多选题专项训练题及答案,由优题宝公众号根据最新执法资格刑侦执法考试大纲与历年执法资格刑侦执法考试真题汇总编写,包含执法资格刑侦执法考试常考重点题型与知识点,有助于考生…

2022年最新江西机动车签字授权人考试模拟题及答案

百分百题库提供机动车签字授权人考试试题、机动车签字授权人考试真题、机动车签字授权人证考试题库等,提供在线做题刷题,在线模拟考试,助你考试轻松过关。 249、对称设置、功能相同灯具的()不应有明显差异。 A、光色 B、光源类型 C、亮度 …

2021年劳务员-通用基础(劳务员)模拟考试题及劳务员-通用基础(劳务员)模拟考试题库

题库来源:安全生产模拟考试一点通公众号小程序 2021年劳务员-通用基础(劳务员)模拟考试题及劳务员-通用基础(劳务员)模拟考试题库,包含劳务员-通用基础(劳务员)模拟考试题答案和解析及劳务员-通用基础(劳务员)模拟考试题库练习。由安全生产模拟考试一点…

2022年企业法律顾问法律顾问实务考试模拟试题卷及答案

题库来源:优题宝公众号 2022年企业法律顾问法律顾问实务考试模拟试题卷及答案,由优题宝公众号根据最新企业法律顾问法律顾问实务考试大纲与历年企业法律顾问法律顾问实务考试真题汇总编写,包含企业法律顾问法律顾问实务考试常考重点题型与知…

2022年茶艺师(中级)上岗证题目及在线模拟考试

题库来源:安全生产模拟考试一点通公众号小程序 2022年茶艺师(中级)上岗证题库系茶艺师(中级)操作考试题精选题库!2022年茶艺师(中级)上岗证题目及在线模拟考试根据茶艺师&#xff0…

PostgreSQL认证考试科目,PG考试说明及报名

PostgreSQL考试认证中心 (简称:PGCCC) 关于PostgreSQL数据库认证 经中国PostgreSQL考试认证中心(简称:PGCCC)研究决定,现下发2023年度中国PostgreSQL考试认证全年计划,具体内容如下: 2023年中国PostgreSQ…