BPPISE数据科学案例框架

919b4ea03087fc92ace6d3c54b5bbd49.gif

本专题共10篇内容,包含淘宝APP基础链路过去一年在用户体验数据科学领域(包括商详、物流、性能、消息、客服、旅程等)一些探索和实践经验。

在商详页基于用户动线和VOC挖掘用户决策因子带来浏览体验提升;在物流侧洞察用户求助时间与实际物流停滞时长的关系制订表达策略带来物流产品满意度提升;在性能优化域构建主客观关联模型找到启动时长与负向反馈指标的魔法数字以明确优化目标;构建多源VOC标签体系综合运用用户行为和用户VOC洞察、落地体验优化策略,并总结出一套用户体验分析方法论。

本文为此系列第四篇文章,前三篇见——

第一篇:淘宝用户体验分析方法论

第二篇:VOC数据洞察在淘宝详情页的应用与实践

第三篇:物流产品体验诊断与优化

cae30cec3d965111971558a661153242.png

前言

经常有同学会问“如何评价数据科学工作做得好不好呢”,算法同学可以看算法模型准召效果、数据研发可以看数据模型覆盖和利用率,数科考察什么?笔者认为数科需考察案例产出。

主要基于以下几点思考:

  1. 成功案例需具备显著业务结果:数据科学岗定位是为业务提供高质量的数据解决方案让业务成功,成功的案例才是可学习、可参考的,没有显著业务结果的案例较难证明其可行性,参考价值较低。

  2. 案例是对过程的详细复盘:在有显著业务结果的前提下,数科需要证明其在项目中参与度、贡献度,使用到了什么新思路、新方法助力业务达成目标,案例是可推敲、可复盘的材料之一。

  3. 案例能体现出作者的能力水平:数科是一门强调个人能力的学科,案例不仅仅是陈述做了什么,字里行间透出的认知和思考能体现出作者能力水平。特别地,写作是可以有思考缓冲期的,表达欠佳的同学可以通过写作来弥补体现自身能力欠缺。

因此,一篇高质量的数据科学案例是能证明成果的核心依据,笔者基于大量数科案例经验谈谈看法和思考。

1c8645b28eb651a928f65d062c7599d8.png

BPPISE框架简介

一个好的框架能突出案例描述重点,降低结构化思考成本,聚焦于内容表述。业内常用的数据挖掘标准框架有两种:CRISP-DMSEMMA,简介如下:

  1. CRISP-DM:

  • 业务理解 (business understanding)

  • 数据理解 (data understanding)

  • 数据准备 (data preparation)

  • 建模 (modeling)

  • 评估 (evaluation)

  • 部署 (deployment)

SEMMA:

  • 抽样( S ample )

  • 探索( E xplore )

  • 修订( M odify )

  • 建模( M odel )

  • 评估( A ssess )

两套框架均是偏针对确定性的、算法建模类的问题,而数据科学是一门针对定义与解决不确定性问题的学科,需要拥有一套面向不确定性的、分析洞察类的问题案例框架。基于大量数科案例中思考和总结,形成了一套针对产品数据科学的案例框架-BPPISE

BPPISE:

    • 业务理解(Business understanding)

    • 问题定义(Problem definition)

    • 数据准备(data Preparation)

    • 分析洞察(Insight)

    • 策略落地(Strategy)

    • 效果评估(Evaluation)

BPPISECRISP-DMSEMMA不同点在于:由于尚未形成确定性的数据问题,强调业务问题->数据问题的定义阶段、分析洞察阶段和策略落地阶段;后两者过于侧重对算法模型的建立与评估,BPPISE侧重数据对业务的机会发现和推进落地。

c24f12ff6f97c6230ebeb347d2bffabb.png

BPPISE过程描述

▐  业务理解(Business understanding)

该阶段数科同学需从商业角度了解背景,业务需求和具体要解决的问题。理解C端业务的快速有效的方法是做用户旅程梳理,站在用户视角梳理某一产品、服务的主要场景及旅程。理解业务的同时,可以做定性的假设和判断,梳理业务环节的痛点和机会点,为后续的问题定义做准备。

阶段核心是阐述业务现状和问题。例如:在详情案例中,一句话描述业务现状和问题:详情关键决策因子的供给核心依靠行业小二经验产出,部分行业依靠用研但范围有限、粒度较粗,无法细化到类目、人群维度进行精细化运营。

▐  问题定义(Problem definition)

该阶段需基于业务存在问题准确地定义出数据可解的问题。数据科学是一门将“现实业务问题”转换为“数据世界中的问题”,再采用数科的理论、技术和工具等将数据转化为知识,为解决业务问题提供直接指导的学科。核心是数据本身,我们需要注意几点:

  1. 判断数据是否可获取

    假设解决业务问题所需的数据根本无法获取,那么数科将无用武之地。

  2. 精准地选择目标数据

    精准地选择目标数据会让数科在项目中保持方向和专注。例如:项目需要从用户反馈(VOC)中提炼用户标签,而VOC是多源、多模态的,多源意味着VOC发生场景不同(购前、购后),多模态意味着处理难度不同;因此,需要基于业务问题精准地作出选择,案例中需讲解数据选择的Why。

在详情案例中,数据问题定义为:如何基于用户动线及商家客服咨询VOC数据,分析归纳影响用户在详情决策的关键因素,洞察不同行业不同人群决策因子差异以指导详情结构化表达,提升浏览转化效率。

在性能案例中,数据问题定义为:如何找到一个与满意度强相关的客观指标,设定合理的目标,能兼顾技术投入ROI,且有效提升用户主观性能满意度。

▐  数据准备(data Preparation)

该阶段主要是指数据的收集、加工和预处理,是数据科学的重要环节。由于通常是一些ETL的常规手段,很多同学在案例编写时不知道如何下笔。建议在这里突出案例的特别之处。

例如:详情案例中涉及到用户动线数据准备,重点阐述了有别于常规的页面级数据获取,是如何定义页面内模块级埋点规范和数据获取流程的;涉及到VOC文本标签的加工获取,重点阐述了在业务参与度有限的背景下如何通过引入VOC聚类能力提升数据加工效率的。

整体上,围绕通过什么样的思路和方法,确保后续的干净、一致、可靠、可用数据产出,以帮助项目获得更准确的结果。

▐  分析洞察(Insight)

分析洞察阶段是数科案例的核心,整体框架可细分为:

  • 分析议题

不同的分析分析对象阐述分析议题的方式不同:

008e262fc1239dcb4210d424ac529806.png

  • 分析思路

逻辑树(议题树/假设树)

d7a22ae27d0a596a43ef307167974536.png

  • 分析维度

阐述维度选择的思考,如何精准地选择分析维度以提升分析效率,而不是无谓地浪费分析资源做大量多维下钻。

  • 分析指标

阐述指标名称、指标口径、指标代表的业务含义等。

  • 分析结论

分析结论有以下几点注意事项:

论点明确

分析结论要注意具有明确的核心论点,行文过程中要把与论点相关的内容写进来,无关的内容要舍弃掉。建议一个议题只围绕一个核心论点展开,避免“失焦”。

图、表、文字相结合

分析结论要做到有论点、有论据,而数据分析图表是最好的客观事实论据。一般在描述业务整体趋势变化、维度倾向的大小关系、子级与父级间的构成关系等情况时使用,而在进行分析结果的详细描述时使用表。此外,数科同学还需对图表内容进行文字性总结、推导及解释。

减少不必要的主观推测

分析结论中不可能全部由可客观事实结果构成,其中必然会包含作者的推测、判断等内容。数科同学在撰写分析结论时,应尽量减少不必要的主观推测,做出的主观推断也应尽量从客观事实出发,不要仅凭经验就草率判断。

  • 策略产出

策略产出是对整个分析洞察阶段的收尾,数科应围绕各个分析结论,结合自身对业务的理解给出产品优化建议。特别地,策略的产出应当跟进业务的采纳情况和落地节奏,以便在过程中可进一步深入分析和调整策略。可以通过如下一个表格来进行整理:

86a8b4692b425d45e13b7478ac4f42e0.png

▐  策略落地(Strategy)

策略落地是证明数科案例贡献度的关键阶段,产品的改造是否引用到上述分析结论以及引用程度需阐述清楚,同时介绍下数科是如何基于上述策略让业务有节奏的落地的。

可以通过产品demo图+策略建议方式简洁明了地阐述策略落地手段。

afeb2bc228e39a3ff169dc93b0ee9cbf.png

▐  效果评估(Evaluation)

产品优化策略通常是通过AB实验、低响应实验(PSM等)等方式验证效果。以AB实验为例,案例中应尽可能给出实验设计和具体效果数字。包括:实验分层设计、实验放量节奏、实验指标设计及实验对比效果。特别地,当指标对比结果出现异常波动时,需给出实验科学性的验证结果,如AA桶对比、显著性检验等。

d9e74d2f658261acde796962e22e0706.png

团队介绍

我们是大淘宝技术交易履约数据科学团队,负责面向淘宝交易履约链路(下单、支付、购物车、物流、逆向等)海量数据挖掘DAU、DAC及用户体验增长机会。团队致力于围绕用户行为路径、用户VOC洞察用户需求,基于人货场匹配落地交易链路触达、转化、复购和体验策略,提升消费者购物体验。
目前团队招聘中,欢迎拥有消费者、商品、交易、营销等相关领域数据分析/数据科学背景的优秀人才加入,有兴趣可将简历发送至zhuqi.zq@taobao.com 。

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/126573.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Kafka3.0.0版本——增加副本因子

目录 一、服务器信息二、启动zookeeper和kafka集群2.1、先启动zookeeper集群2.2、再启动kafka集群 三、增加副本因子3.1、增加副本因子的概述3.2、增加副本因子的示例3.2.1、创建topic(主题)3.2.2、手动增加副本存储 一、服务器信息 四台服务器 原始服务器名称原始服务器ip节点…

被问到: http 协议和 https 协议的区别怎么办?别慌,这篇文章给你答案

前言 作为软件测试师,大家都知道一些常用的网络协议是我们必须要了解和掌握的,比如 HTTP 协议,HTTPS 协议就是两个使用非常广泛的协议,所以也是面试官问的面试的时候问的比较多的两个协议;因为这两个协议有相似和关联的…

为什么说网络安全是风口行业?是it行业最后的红利?

前言 “没有网络安全就没有国家安全”。当前,网络安全已被提升到国家战略的高度,成为影响国家安全、社会稳定至关重要的因素之一。 网络安全行业特点 1、就业薪资非常高,涨薪快 2021年猎聘网发布网络安全行业就业薪资行业最高人均33.77万&…

移除链表元素_每日一题

“路虽远,行则将至” ❤️主页:小赛毛 ☕今日份刷题:移除链表元素 题目描述: 给你一个链表的头节点 head 和一个整数 val ,请你删除链表中所有满足 Node.val val 的节点,并返回 新的头节点 。 示例1&…

初步了解android如何锁键

百年三万六千日,光阴只有瞬息间。 手机下面的三个图形,正方形,园形,三角形分别的什么建?都起到什么功能? 三角形的那个叫返回键,就是可以返回你的上一个操作; 圆形是HOME键,按一下可…

使用IntelliJ IDEA本地启动调试Flink流计算工程的2个异常解决

记录:471 场景:使用IntelliJ IDEA本地启动调试Flink流计算时,报错一:加载DataStream报错java.lang.ClassNotFoundException。报错二:No ExecutorFactory found to execute the application。 版本:JDK 1.…

实现在一张图片中寻找另一张图片的目标

OpenCV库中的SIFT特征检测算法和FLANN(快速最近邻搜索库)匹配算法来找到一个图片中的元素在另一个图片中的位置,并在源图片中标出它们的位置。 以下是一个简单的例子,使用OpenCV库,利用SIFT特征检测算法,在…

无涯教程-JavaScript - IMABS函数

描述 IMABS函数以x yi或x yj文本格式返回复数的绝对值(模)。 Excel中的复数 复数简单地以文本形式存储在Excel中。 当将格式为" a bi"或" a bj"的文本字符串提供给Excel的内置复数函数之一时,这被解释为复数。 复数函数可以接受简单数值,因为它等效…

PostgreSQL 数据库使用 psql 导入 SQL

最近我们有一个 SQL 需要导入到 PostgreSQL ,但数据格式使用的是用: -- -- TOC entry 7877 (class 0 OID 21961) -- Dependencies: 904 -- Data for Name: upload_references; Type: TABLE DATA; Schema: public; Owner: - --COPY public.upload_refere…

持续集成/技术交付全流程流水线工具的设计与落地

文章目录 持续集成/技术交付全流程流水线工具的设计与落地概述工具架构设计主要功能模块代码库Jenkins 流水线代码构建自动化测试产品部署监控报警 使用方法步骤一:安装 Jenkins步骤二:创建 Jenkins 流水线步骤三:配置监控报警步骤四&#xf…

【2023集创赛】加速科技杯二等奖作品:基于ATE的电源芯片测试设计与性能分析

本文为2023年第七届全国大学生集成电路创新创业大赛(“集创赛”)加速科技杯二等奖作品分享,参加极术社区的【有奖征集】分享你的2023集创赛作品,秀出作品风采,分享2023集创赛作品扩大影响力,更有丰富电子礼…

Linux文件操作

目录 复制文件、目录 cp 移动 重命名文件或目录 mv 创建删除文件 touch rm(remove) 创建删除目录 mkdir(make directory) rmdir(remove directory) 复制文件、目录 cp cp(copy) 同一个目录下复制,所以重命名了一下;把它复制到linuxcast.net/目录下可以…

方案:TSINGSEE青犀AI智能分析网关森林防火智慧监管平台方案

一、方案背景 森林是地球上最重要的生态系统之一,对环境、气候、水循环和空气质量具有重要影响。森林火灾会造成巨大的经济损失,具有发生面广、突发性强、破坏性大、危险性高、处置扑救特别困难等特点,严重危及人民生命财产和森林资源安全&a…

69、配置AWS服务,接收来自RTSP流的推送

基本思想:在上一篇的基础和视频教程之后,进行简单的aws服务,进行RTSP流的接收 第一步: 第二步:配置video_stream,记得选择香港节点 同时记录这个信息,后面的策略需要填充 第三步:进行策略设置 第四步:策略设置,选中右上角的创建策略 第五步、进行json填充 第六步:填…

骨传导耳机十大品牌有哪个,骨传导耳机十大品牌排行榜分享

在这个信息爆炸的时代,确实很容易在市场上找到各种各样的骨传导耳机品牌和型号,对于没有相关经验的消费者来说,他们很难判断哪些产品是真正值得信赖的,哪些可能有质量问题或者不适合自己的需求,现如今骨传导耳机的市场…

通过starrocks jdbc外表查询sqlserver

1.sqlserver环境准备,使用docker环境,可以参考使用flink sqlserver cdc 同步数据到StarRocks_gongxiucheng的博客-CSDN博客 部署获得sqlserver环境; 2.获取starrocks环境,也可以通过docker部署,参考:使用…

【VSCode】文件模板创建及使用.md

背景 最近使用VSCode学习Vue项目比较频繁,每次创建Vue文件都要手动写重复代码,特别麻烦,就上网查找自动生成代码的说明,结果发现VSCode有代码模板,怪怪,感觉发现新大陆了(low!)。 配置 打开配置 方式一&a…

基于SSM的物流管理系统

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用JSP技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…

ansible 使用roles简单部署LAMP平台

目录 一、了解roles目录 二、基于构建LAMP平台创建roles目录 1、在192.168.115.148创建目录 2、书写php的测试页面 3、编写httpd角色的main.yml文件 4、编写mysql角色的main.yml文件 6、编写lamp的playbook 7、启动剧本 8、访问 一、了解roles目录 在Ansible中&#…

第 2 章 线性表 (设立尾指针的单循环链表(链式存储结构)实现)

1. 背景说明 循环链表(circular linked list),是另一种形式的链式存储结构。它的特点是表中最后一个结点的指针域指向头结点, 整个链表形成一个环。由此,从表中任一结点出发均可找到表中其他结点 。 2. 示例代码 1) status.h /* DataStruct…