【机器学习】《机器学习算法竞赛实战》第7章用户画像

文章目录

  • 第7章 用户画像
    • 7.1 什么是用户画像
    • 7.2 标签系统
      • 7.2.1 标签分类方式
      • 7.2.2 多渠道获取标签
      • 7.2.3 标签体系框架
    • 7.3 用户画像数据特征
      • 7.3.1 常见的数据形式
      • 7.3.2 文本挖掘算法
      • 7.3.3 神奇的嵌入表示
      • 7.3.4 相似度计算方法
    • 7.4 用户画像的应用
      • 7.4.1 用户分析
      • 7.4.2 精准营销
      • 7.4.3 风控领域
    • 7.5 思考练习

这本书写的挺好,干货满满。除了课后题,有必要对内容做一下总结。
与文章框架保持一致,基本在抄书……学渣的我……

第7章 用户画像

7.1 什么是用户画像

机器学习中提到的用户画像,通常是基于给定的数据对用户属性、行为进行描述,然后提取个性化指标,再以此分析可能存在的群体共性,并落地应用到各种业务场景中。
在这里插入图片描述

7.2 标签系统

用户画像核心:“打标签”,即标签化用户的行为特征。
企业通过标签,分析用户(社会属性、生活习惯、消费行为)===>商业应用

7.2.1 标签分类方式

直接拍了张照片,因为我觉得我画的不如人家的好看,而且还浪费时间。凑合看下,了解即可:
在这里插入图片描述

7.2.2 多渠道获取标签

获取标签的渠道主要有三种:事实类标签、规则类标签、模型类标签。

  • 事实类标签
    来源于:①原始数据:性别、年龄、会员等级。
    ②统计数据:用户行为次数、消费总额。
  • 规则类标签
    依据是设置的规则。
    举例:地域所属、家庭类型、年龄层
    比如,所在地在山东,业务规则可以划分为“华北”,也可以是”东部“,也可以是“北方”。根据具体的业务规则会有不同的结 果标签,这就是规则类标签。
    规则类标签用到的主要技能是数理统计类知识:基础统计、数值分层、概率分布、均值分析、方差分析等。
    在这里插入图片描述
  • 模型类标签
    模型类标签是经过机器学习和深度学习等模型处理后,二次加工生成的洞察性标签。
    举例:预测用户状态、预测用户信用分、划分兴趣人群和对评论文本进行分类等。 在这里插入图片描述
    【总结】我的理解
    规则类标签,是基于用户历史行为,对用户的行为、偏好、价值做出判断,可以看作依然属于历史范畴。
    模型类标签,主要是对用户进行预测,或者文本分类。可以认为是对未来、或者深层次的信息进行加工。===>两个方向:未来、深度。

7.2.3 标签体系框架

包含四个部分:数据源、标签管理、标签层级分类、标签服务赋能。
在这里插入图片描述

  • 数据源:离线、实时、第三方
  • 标签管理
  • 标签层级分类:上面提到的三种标签,事实类、规则类、模型类。
  • 标签服务赋能:画像分析、选人选品、个性化推荐、风控建模、精准营销===>商业落地

7.3 用户画像数据特征

用户画像的数据来源主要有三种:用户数据、商品数据、渠道数据。
可以通过统计、编码、降维提取有效特征===>构造标签

7.3.1 常见的数据形式

四种:数值型变量、类别型变量、多值型变量、文本型变量。

  • 数值型变量:年龄、身高、体重、消费金额、流量累计。
  • 类别型变量:性别、籍贯、所在城市===>一个用户对应一个结果,结果非数值
  • 多值型变量:兴趣爱好、穿衣风格、看过的电影===>一个用户对应多个结果
  • 文本型变量:购物评论

7.3.2 文本挖掘算法

对原始数据出现的用户标签集合、购物评价,做基于文本的特征提取,同时预处理、清洗。
用到的文本挖掘算法:LSA、PLSA、LDA。===>无监督学习

  • LSA(潜在语义分析)
    非概率主题模型
    与词向量有关
    主要用于文本的话题分析
    核心:通过矩阵分解,发现文档与词之间基于话题的语义关系。
  • PLSA(概率潜在语义分析)
    为克服LSA潜在缺点而提出,通过一个生成模型为LSA赋予概率意义上的解释。
    有个假设。
  • LDA(潜在狄利克雷分布)
    概率主题模型
    与词向量无关
    典型的词袋模型

7.3.3 神奇的嵌入表示

嵌入表示可以将高维系数特征向量转换成低维稠密特征向量来表示。

  • 词嵌入Word2Vec
    原理:Word2Vec根据上下文之间的关系训练词向量。
    有两种训练模式:Skip-Gram(跳字模型)和CBOW(连续词袋模型)。区别:输入层、输出层不同。
    Skip-Gram(跳字模型):输入一个词,预测上下文。
    CBOW(连续词袋模型):用一个词的上下文作为输入,预测这个词语本身。
  • 图嵌入DeepWalk
    包括三个部分:①根据某种序列,把商品关联起来(商品是点,关联是线),
    ②然后随机游走(random wal),生成商品序列,
    ③将序列输入到Skip-Gram进行词向量训练。
    【总结】我的理解
    是否可以理解为,Word2Vec只能做一层Skip-Gram词向量训练,而DeepWalk可以做多层词向量训练。或者说,Word2Vec只能基于一个词,而DeepWalk可以做多个词?
    总之它的作用大概就是去掉一些没有用的信息,理解为降维或者浓缩信息。

7.3.4 相似度计算方法

获取用户和商品的嵌入表示、文本的分词表示即各类稀疏表示后,就可以对这些向量表示进行相似度计算了。
基于相似度计算的特征提取方法有:欧氏距离、余弦相似度、Jaccard相似度等===>提取用户、商品、文本的相似度。
广泛应用场景:用户分层聚类、个性化推荐或广告投放。

  • 欧氏距离
  • 余弦相似度
    衡量样本之间的差异。夹角越小,余弦值越接近于1,反之则趋近于-1.
  • Jaccard相似度
    度量两个集合之间的差异大小。
    思想:共有元素越多越相似。

7.4 用户画像的应用

在这里插入图片描述

7.4.1 用户分析

产品上线之初对目标用户群已有一些定位,但上线之后情况与预期或历史或许存在偏差,需要对拉新、促活、留存、新增用户特征、核心用户属性做分析研究,提炼人群特征,然后不断优化产品性能、UI交互。
在这里插入图片描述【总结】
在用户生命周期的各个阶段,对用户行为属性、群体特点进行研究===>提升产品,压榨用户价值

7.4.2 精准营销

范畴内:推荐系统、广告投放
基于用户历史消费行为,为电商找到种子用户。

7.4.3 风控领域

风控领域的特点:
①解释性高,时效性
②业务关联度高
③负样本占比极少,是均衡学习算法的主战场之一。

【题外话】
金融信贷领域,客户的风险主要来自两方面:还款能力和还款意愿。
还款能力主要考察客户是否有足够的资金,并且按时还款,这就涉及到客户的工资日,工作、学历什么的。
还款意愿,一个是突发因素还不了了,比如失业了,另外一个就是本来贷款的时候就没想过要还,这就涉及到金融领域的反欺诈。
本来之前看了一本书是关于金融风控的,但是那个作者比较缺德的是,没有数据集,书里面只有代码,直接就导入了不知道什么数据集,这怎么搞啊。过分。

7.5 思考练习

见【机器学习】《机器学习算法竞赛实战》思考练习(更新中……)

以上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/304827.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何从0到1出海掘金俄罗斯?一文讲透俄罗斯市场、买量、发行、变现最新实用洞察 | TopOn变现干货

中国企业加速出海已经成为一个常态化趋势,出海掘金,从东南亚到北美,欧洲,再到近些年潜力巨大的拉美和中东,中国企业的身影遍布海外市场,出海竞争也随之由蓝海进入红海,那么,全球市场…

【贪玩巴斯】Mac的M芯片(M1/2...)下载homebrew方法(24年最新且已验证可行)

1. 按照目前广为流传的方法(M1会出现一些问题): 终端输入: /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)" 使用国内镜像下载。 2. 输入后按照要求步骤执行即可&#xff…

【JavaEE初阶系列】——文件操作 IO 之 文件系统操作

目录 📝认识文件 🚩树型结构组织 和 目录 🎈绝对路径和相对路径 🚩文件类型 📝文件系统操作 🎈File 概述 🎈File类的使用 1. 绝对路径 vs 相对路径 2. 路径分隔符 3. 静态成员变量 4…

ELFK (Filebeat+ELK)日志分析系统

一. 相关介绍 Filebeat:轻量级的开源日志文件数据搜集器。通常在需要采集数据的客户端安装 Filebeat,并指定目录与日志格式,Filebeat 就能快速收集数据,并发送给 logstash 进或是直接发给 Elasticsearch 存储,性能上相…

Vue前端框架

1.vue基本使用1 1.vue环境搭建 一般创建vue项目是在cmd命令中用:vue ui 命令,采用ui图形界面的方式直观创建项目。 2.vue基本使用方式:vue组件 3.文本插值 4.属性绑定 5.事件绑定 6.双向绑定 7.条件渲染 2.vue基本使用2 1.axios 安装axios命令…

Linux查看系统配置信息的命令【lscpu】【free】【df】【uname】【lsblk】【top】

目录 1.查看CPU信息【lscpu】 2.查看内存信息【free】 3.查看文件系统信息【df】 4.查看系统信息【uname】 知识扩展:Red Hat Enterprise Linux 和 Debian GNU/Linux 两者的发展介绍 知识扩展:Centos 和 ubuntu的区别 知识扩展:更多 …

vue实现从本地上传头像功能

上传头像&#xff1a; <template><div><el-card class"box-card"><div slot"header" class"clearfix"><span>更换头像</span></div><div><!-- 图片、用来展示用户选择的头像 --><img…

async+await——用法——基础积累

对于asyncawait&#xff0c;我一直都不太会用。。。。 今天记录一下asyncawait的实际用法&#xff1a; 下面是一个实际的使用场景&#xff1a; 上面的代码如下&#xff1a; async fnConfirmCR(){let type this.crType;let crId this.crId;if(typeof crId object){let ne…

《从零开始学架构》读书笔记(一)

目录 软件架构设计产生的历史背景 软件架构设计的目的 系统复杂度来源 追求高性能 一、单机高性能 二、集群的高性能 追求高可用 一、计算高可用 二、存储高可用 追求可扩展性 一、预测变化 二、应对变化 追求安全、低成本、规模 一、安全 二、低成本 三、规模…

1. VirtualBox安装CentOS

安装 VirtualBox 地址:https://www.virtualbox.org/wiki/Downloads 版本: 6.1和7.0+版本都可以 安装: windows上安装需要admin权限,右键菜单选中 “Run as administrator” 安装 CentOS 6.10 地址:https://vault.centos.org/6.10/isos/x86_64/ 版本: 如果不需要GUI,选择…

LeetCode——622设计循环队列

. - 力扣&#xff08;LeetCode&#xff09;. - 备战技术面试&#xff1f;力扣提供海量技术面试资源&#xff0c;帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/design-circular-queue/ 1.题目 设计你的循环队列实现。 循环队列是一…

银行渠道整合平台应用架构

渠道整合平台将 功能微服务化&#xff0c;将服务流程标准化。微服务 化的功能能够进行各种组合使用。而标准化的流程可同时作用于所有渠道&#xff0c;保证体验一致。未来在进行流程变更的时候可有效避免各渠道的重复开发。 • 渠道整合平台避免了各个渠道对于同一个业务的差异…

【HTML】简单制作一个动态3D正方体

目录 前言 开始 HTML部分 JS部分 CSS部分 效果图 总结 前言 无需多言&#xff0c;本文将详细介绍一段代码&#xff0c;具体内容如下&#xff1a; 开始 首先新建文件夹&#xff0c;创建两个文本文档&#xff0c;其中HTML的文件名改为[index.html]&#xff0c;JS的文件名改…

FreeRTOS学习 -- 移植

一、添加FreeRTOS源码 在基础工程中新建一个名为FreeRTOS的文件夹&#xff0c;创建FreeRTOS文件夹以后将FreeRTOS的源码添加到这个文件夹中。 portable 文件夹&#xff0c;只需要保留keil、MemMang 和 RVDS这三个文件夹&#xff0c;其他的都可以删除掉。 移植FreeRTOSConfig…

vue3新手笔记

setup&#xff08;&#xff09;{}函数&#xff0c;是启动页面后&#xff0c;自动执行的一个函数。所有数据&#xff08;常量、变量&#xff09;、函数等等&#xff0c;都要return 出去。 ref函数(可用于基本数据类型&#xff0c;也可以用于复杂数据类型)&#xff1a;让页面上的…

Swagger转换成Excel文件

1、添加swagger解析依赖包&#xff1a; <dependency><groupId>io.swagger.parser.v3</groupId><artifactId>swagger-parser</artifactId><version>2.1.12</version></dependency>2、示例代码&#xff1a; package com.rlclou…

TCP/IP 协议栈在 Linux 内核中的 运行时序分析

1、Linux内核概述 1.1 Linux内核结构 一个完整的Linux内核一般由5部分组成&#xff0c;它们分别是内存管理、进程管理、进程间通信、bai虚拟文件系统和网络接口。 1、内存管理 内存管理主要完成的是如何合理有效地管理整个系统的物理内存&#xff0c;同时快速响应内核各个子…

[蓝桥杯 2018 国 C] 迷宫与陷阱

题目&#xff1a; 思路&#xff1a; 代码&#xff1a; #include <bits/stdc.h> using namespace std; const int N1e310; char g[N][N];//输入&#xff1a;图的数组 int vis[N][N]; /* 剪枝&#xff1a;记录magic的个数&#xff08;一个点经过两次&#xff0c;magic越大…

创建真实项目vue2项目

1. 创建 vue create 项目名 2. 选择自定义 3. 勾选以下必备选项 4.选择使用vue2 5. 选择哈希模式&#xff08;n&#xff09;; css选择Less 6. ESLint校验 选择 7. 保存&#xff08;按照默认&#xff09; 8. 在哪里添加ESLint文件 9. 要不要把这个改成将来的预设&am…

4.Spring IoCDI

文章目录 1.Ioc - 控制反转(解耦)1.1传统开发1.2批量生产车轮(修改代码) - 传统方式&#xff0c;繁琐1.3解耦1.3.1使用Ioc方法后1.3.2添加变量颜色 只需要修改Tire即可 1.4Bean的存储1.4.1Controller(控制器存储)1.4.2Service(服务存储)1.4.2.1根据context来获取bean1.4.2.2根据…