2024.1.16 用户画像day01 - 项目介绍

目录

一. 项目介绍

整体流程:

项目建设目的:

学习安排:

技术选型:

技术架构:

项目架构:

二 . 名词解释


一. 项目介绍

整体流程:

        项目介绍-elasticSearch-业务数据源导入-离线指标开发-Flume实时采集-Nginx日志埋点数据-

        结构化流实时指标 - 制作报表 

数仓开发用户画像实时开发
hive-spark数据挖掘结构化流-Flume-Kafka-Flink

标签开发,挖掘类,统计类

规则类,标签可视化平台,

用户画像系统构建

项目建设目的:

     用户画像项目,用户画像:为用户提供标签系统,更进一步了解用户需求,在大数据时代下,人们产生、获取、处理和存储的数据量呈指数级增长,过去基于统计模型的决策 无法满足人们的个性化要求。逐步演变为 基于数据驱动的决策 ,即如何 使用算法模型实现用户画像中的 用户行为预测,如何利用大数据技术从海量的数据中为客户提取有价值的信息,已经成为各行各业产品经理及公司企业的运营管理人员的关注重点,因此我们为此提供了画像系统这样的解决方案。

        项目建设的目的是:
因此

          1- 从公司角度出发:

                1- 对客户进行分群,进行精准营销 

                2- 对用户分群和统计,私域流量

                3- 找到用户和商品之间的连接,对用户打标签并量化表示

                4- 减少公司的获客成本

        2- 从用户角度出发:

                1- 从海量的产品和数据中,为客户推荐感兴趣的内容

学习安排:

        白天: 电商行业的用户画像

         晚上:保险行业的用户画像

技术选型:

Elasticsearch是一个分布式的全文搜索引擎,具有高性能、可扩展性和数据可靠性等特点。它使用Lucene作为底层引擎,支持快速地存储、搜索和分析大量的数据。

1- ElasticSearch是专门用来做搜索引擎的,一般用在JAVAEE的,它具有几个优点:

                1- 分布式

                2- 单条数据快速的CRUD

                CRUD操作(create 添加数据read读取数据 update 修改数据delete删除数据)

                3- 海量数据存储 

        1.为什么画像数据接入选择ES?

                es支持海量数据插入与更新 es支持与hadoop、hive、spark集成,方案成熟 es-hadoop可直接解决,

                通过sql方式把数据从hive数仓中导入es中

        2.为什么画像结果数据写入ES?

                1. 结果数据写入es,es扩展性强,广泛支持hadoop生态圈技术,

                2. es-sql支持sql化方式操作es索引数据,可视化非常方便,后期开发标签体系的搜索引擎或知识图谱系统是es可以直接作为数据源与其他组件集成。

                3. es支持upsert语法,数据插入和更新可以使用upsert操作,根据主键或文档id判断该文档是否存在,存在就更新,

否则就插入,对于画像业务逻辑中新的标签和旧的标签数据合并非常实用。 

2- 为啥选择Spark SQL的DSL方案呢?

                计算组件如 HIVE presto flink 都可以计算

                1- Spark SQL是基于内存进行计算, 相对于HIVE来说, 计算效率更高
                2- Spark 可以更好的和其他的组件进行集成工作, 比如和MySQL. hive, es ...
                3- 在画像标签中, 有挖掘性标签, 此部分标签需要使用MLlib机器学习库, 采用相关的算法,

                        而Hive并不支持, Flink相对成熟度没有Spark高
                4- 在开发标签的过程中, 需要进行大量的规则匹配处理, 涉及到需要通过代码方式来处理, 此时DSL方案会更加的合适

3- 为什么不用Hive做标签计算

                完成挖掘类标签的时候使用Hive无法完成,标签调度不方便

                Hive计算完画像结果存储在其他介质不方便

                Hive 来计算标签不方便管理和维护

因此可以使用 Spark Job 的方式来计算.

                Spark Job 的方式来计算.

                每一个 Job 计算一个指标, 最终合并进一张画像表。

                能够利用SparkMllib完成挖掘类标签的构建(SparkSQL+SparkMllib)

                技术选型: 使用Spark完成指标计算,每个指标一个Job,合并画像表

技术架构:

    主要采用Apache原生版本方案构建整个画像项目, 整个项目主要涉及组件有: Hadoop HIVE Spark oozie persto ES等相关的大数据组件
    其中基于HDFS完成基础数据的存储,通过ES来存储业务数据以及存储标签结果数据
    通过Spark实现标签计算和实时用户行为统计分析工作, 并将相关结果导入到ES和MySQL中
    最终基于FineBI实现报表展示工作, 整个项目是基于Oozie完成定时调度

项目架构:

        mysql业务数据表->datax ->数仓ods -> 确定业务场景 -> Sparksql开发 ->建立标签 ->  使用ES标签搜索 -mysql标签规则 -> 提交定时任务 -> 作业提交 

数据流转:

    整个画像的数据来源有二个方向, 一个是数仓平台的ODS层基础业务数据 一个是Nginx日志数据和埋点数据集

        首先对于ODS层业务数据,主要是基于ES-HADOOP的方式将HIVE中数据导入到ES中, 对于Nginx日志数据和埋点数据集主要是基于Flume将数据采集到Kafka中,

        完成基础数据存储后, 接着基于Spark进行标签统计和用户行为分析的工作这里面主要采用Spark SQL、SparkMLlib 和 structured Steaming实现的, 其中Spark SQL负责标签统计计算,SparkMLlib主要负责完成挖掘类标签计算,  structured Streaming负责用户行为指标统计计算, 将整个结果结果导入到ES和MySQL中, 其中ES导入的标签结果数据, MySQL导入的是用户行为指标结果数据集,

        完成整个统计计算后, 后续基于FINEBI进行画像报表展示, 由于数据源有多个, 引入了persto完成多源统一访问, 最终形成画像报表. 整个项目是基于标签管理平台, 进行标签管理, 对标签进行增删改查以及定时调度, 其底层调度采用Oozie处理的


二 . 名词解释

埋点数据:

        前端埋点: JavaEE/安卓/ios后端

        后端埋点: Flume+Kafka

CRM:客户关系管理系统

ERP: 企业资源管理计划系统

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/241595.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】基本指令

🔥博客主页: 小羊失眠啦. 🎥系列专栏:《C语言》 《数据结构》 《Linux》《Cpolar》 ❤️感谢大家点赞👍收藏⭐评论✍️ 文章目录 一、认识操作系统二、Linux基本指令📖2.1 ls指令📖2.2 pwd指令&…

利用浏览器开发者工具进行网页性能优化

目录 学习目标: 学习内容: 学习时间: 学习产出: 网页性能优化的基本概念和指标: 浏览器开发者工具的基本功能和使用方法: 使用网络面板进行网页加载性能分析: 使用性能面板进行网页渲染性能分析…

SQL Povit函数使用及实例

PIVOT函数常用于数据的行转列&#xff0c;同时也可以用此函数实现类似于Excel中的数据透视表的效果。 PIVOT函数 PIVOT 函数的基本语法如下&#xff1a; -- PIVOT 语法 SELECT <非透视的列>,[第一个透视的列] AS <列名称>,[第二个透视的列] AS <列名称>,.…

表的增删改查 进阶(二)

&#x1f3a5; 个人主页&#xff1a;Dikz12&#x1f525;个人专栏&#xff1a;MySql&#x1f4d5;格言&#xff1a;那些在暗处执拗生长的花&#xff0c;终有一日会馥郁传香欢迎大家&#x1f44d;点赞✍评论⭐收藏 目录 3.新增 4.查询 聚合查询 聚合函数 GROUP BY子句 HA…

[论文阅读]DeepFusion

DeepFusion Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection 用于多模态 3D 物体检测的激光雷达相机深度融合 论文网址&#xff1a;DeepFusion 论文代码&#xff1a;DeepFusion 摘要 激光雷达和摄像头是关键传感器&#xff0c;可为自动驾驶中的 3D 检测提供补…

嵌入式linux_C应用学习之API函数

1.文件IO 1.1 open打开文件 #include <sys/types.h> #include <sys/stat.h> #include <fcntl.h> int open(const char *pathname, int flags); int open(const char *pathname, int flags, mode_t mode);pathname&#xff1a;字符串类型&#xff0c;用于标…

Node.js基础知识点(五)- http

一.request 请求事件处理函数 var http require(http)var server http.createServer() request 请求事件处理函数&#xff0c;需要接收两个参数&#xff1a; Request 请求对象 请求对象可以用来获取客户端的一些请求信息&#xff0c;例如请求路径 Response 响应对象 响应对…

泥石流识别摄像机

泥石流是一种自然灾害&#xff0c;经常给人们的生命和财产带来严重威胁。因此&#xff0c;研发泥石流识别摄像机成为一种急迫需求。这类摄像机的主要功能是实时监测泥石流的形成和运动&#xff0c;及早发现泥石流的迹象&#xff0c;从而及时采取应急措施。 泥石流识别摄像机的设…

lenovo联想笔记本电脑拯救者Legion Y7000 2019 PG0(81T0)原装出厂Windows10系统

链接&#xff1a;https://pan.baidu.com/s/1fn0aStc4sfAfgyOKtMiCCA?pwdas1l 提取码&#xff1a;as1l 联想拯救者原厂Win10系统自带所有驱动、出厂主题壁纸、系统属性联机支持标志、系统属性专属LOGO标志、Office办公软件、联想电脑管家等预装程序 所需要工具&#xff1a;…

Linux上新部署的项目jar包没有生效

今天公司新安排了一个项目&#xff0c;这里简称项目A&#xff0c;需要新增两个功能&#xff0c;我这边完成之后&#xff0c;跟前端对接好了&#xff0c;调试也没有问题。 然后把项目打包上传到测试服务器上&#xff0c;重新启动项目&#xff0c;发现项目A新增的接口没有生效&a…

【办公类-21-01】20240117育婴员操作题word合并1.0

背景需求&#xff1a; 最近学校组织老师们学习“育婴员”高级&#xff0c;每周学习2题操作&#xff0c;所以我是把每个学习内容单独做在一个word文件里 上周8套保健操作学完了&#xff0c;需要整理&#xff0c;并将8份Word文件合并 第一步&#xff1a;doc装docx 合并时程序报…

QT上位机开发(MFC vs QT)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing @163.com】 在qt之前,上位机开发的主要方法就是mfc。后来出现了c#语言之后,上位机的开发就有一部分人转成了c#。这些开发都是在windows平台完成的,而linux上面的界面,则都是通过各种小众库…

深度学习中Numpy的一些注意点(多维数组;数据类型转换、数组扁平化、np.where()、np.argmax()、图像拼接、生成同shape的图片)

文章目录 1多维数组压缩维度扩充维度 2numpy类型转换深度学习常见的float32类型。 3数组扁平化4np.where()的用法5np.argmax()6图像拼接7生成同shape的图片&#xff0c;指定数据类型 1多维数组 a.shape(3,2);既数组h3&#xff0c;w2 a.shape(2,3,2);这里第一个2表示axis0维度上…

C++后端笔记

C后端笔记 资源整理一、高级语言程序设计1.1 进制1.2 程序结构基本知识1.3 数据类型ASCII码命名规则变量间的赋值浮点型变量的作用字符变量常变量 const运算符 二、高级语言程序设计&#xff08;荣&#xff09; 资源整理 C后端开发学习路线及推荐学习时间 C基础知识大全 C那…

SPI 动态服务发现机制

SPI&#xff08;Service Provier Interface&#xff09;是一种服务发现机制&#xff0c;通过ClassPath下的META—INF/services文件查找文件&#xff0c;自动加载文件中定义的类&#xff0c;再调用forName加载&#xff1b; spi可以很灵活的让接口和实现分离&#xff0c; 让API提…

『MySQL快速上手』-⑩-索引特性

文章目录 1.索引的作用2.索引的理解建立测试表插入多条记录查看结果 2.1 MySQL与磁盘交互的基本单位2.1 为何IO交互要是 Page2.3 理解单个Page2.4 理解多个Page2.5 页目录2.6 单页情况2.7 多页情况2.8 B vs B2.9 聚簇索引 vs 非聚簇索引非聚簇索引聚簇索引 3.索引操作3.1 创建主…

冻结Prompt微调LM: T5 PET (a)

T5 paper: 2019.10 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Task: Everything Prompt: 前缀式人工prompt Model: Encoder-Decoder Take Away: 加入前缀Prompt&#xff0c;所有NLP任务都可以转化为文本生成任务 T5论文的初衷如…

macOS安装VMware Fusion 13试用版本

1.下载: Download VMware Fusion | VMware 保存到桌面 下载成功: 双击dmg文件运行安装 安装成功 <

选择安全数据交换系统时 要考虑哪些因素?

安全数据交换系统是一种专门设计用于在不同的网络环境&#xff08;如内部不同网络&#xff0c;内部网络和外部网络&#xff09;之间安全传输数据的解决方案。它通常包括一系列的技术和流程&#xff0c;旨在确保数据在传输过程中的完整性、机密性和可用性。 安全数据交换系统可以…

3d模型未响应打不开怎么办---模大狮模型网

在进行3D建模和设计工作时&#xff0c;有时可能会遇到3D模型无法打开的情况&#xff0c;这给工作流程带来了困扰。本文将为您介绍一些常见的原因以及解决3D模型未响应无法打开问题的方法。 一、文件格式检查 首先&#xff0c;确保您使用的文件格式与所使用的软件兼容。不同的3…