数据中台、标签、数据资产相关的15个名词解释(文末赠书)

公众号后台回复“图书“,了解更多号主新书内容

导读:本文将对数据中台、数据、标签相关的关键名词术语进行定义和解释。


作者:任寅姿 季乐乐

来源:大数据DT(ID:hzdashuju)

01 数据

数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态及相互关系等进行记载的物理符号或这些物理符号的组合。数据可以是连续的,比如声音、图像,称为模拟数据;也可以是离散的,如符号、文字,称为数字数据。在计算机系统中,数据以二进制信息单元0和1的形式表示。

在《标签类目体系》一书所论述的方法论中,“数据类目体系”概念中的“数据”是狭义的定义,单指企业原始拥有的、未经整理的信息载体。

02 数据资产

在传统概念中,企业认为其所拥有的所有数据资源都是数据资产,例如存放了好几十年的纸质文件、光盘、视频、音频等。这些资源还停留在原始数据阶段,必须从中整理和提炼出可用的信息项,才能真正为企业产生价值。

因此当前对数据资产主要关注其精准定义(狭义):由企业拥有或控制的,能够直接为企业带来经济利益的数据资源。通常需要有较好的组织形式,数据资产才可以被编目、被管理、被高效使用。

03 数据中台

数据中台是一套可持续“让企业数据用起来”的机制。数据中台是依据企业特有的业务模式和组织架构,以有形的产品和实施方法论为支撑,构建的一套持续不断把数据变成资产并服务于业务的机制。

04 标签

标签指从原数据加工而来,能够直接为业务所用并产生业务价值的数据载体。从本质上讲,标签本身也是一种数据(或映射指向数据),它是对物理层数据信息项的业务化封装,是数据资产的一种良好组织形式,是一种概念、逻辑定义,因此标签必须是可阅读、易理解的。

从粒度上来讲,标签往往映射为某一对象的属性,包括固有属性和动态属性,一般都需要结构化到字段粒度,保障可被后续数据服务便捷使用。它面向数据应用的业务端,核心解答的是数据怎么用、资产价值在哪里的问题。根据加工方式的不同,标签可以分成基础类标签、统计类标签和算法类标签。

05 元标签

元标签是标签的标签,即对标签的属性信息(特别是业务化属性信息)梳理。通过元标签,业务人员可以快速理解标签定义,获取标签设计、加工、管理、使用等相关信息。

06 类目体系

类目体系指的是对某一类item(事物)的分类、架构、组织方法。类目体系结构可以用树状结构来类比,第一级分支称为一级类目,从第一级分支中长出的第二级分支称为二级类目,从第二级分支中长出的第三级分支称为三级类目,以此类推。

没有上一级类目的叫一级类目,没有下一级分类的类目叫叶子类目,挂在叶子类目上的具体叶子就是item。有下级细分类目的类目是下一级类目的父类目,有上级类目的类目是上一级类目的子类目。图2-17所示为标签体系类目。

▲图2-17 标签体系类目

类目体系设计好之后,可以将item分入合适的类目中。例如对商品的组织梳理可以形成商品类目体系,对标签的组织梳理可以形成标签类目体系。

07 数据类目体系

数据类目体系是将企业原始拥有的数据字段,采用类目体系的方式进行梳理所形成的目录结构。

08 标签类目体系

标签类目体系是将企业业务上所需的标签,采用类目体系的方式进行梳理所形成的目录结构。

09 对象

标签类目体系方法论中的对象指现实世界中所需要研究的目标。结合数据库理论,实体(Entity)和关系(Relationship)在标签类目体系方法论中都属于对象,因此从对象类型上可以分为实体对象和关系对象,其中实体对象还可以细分为“人”和“物”。

数据世界中的对象可以和现实世界中的事物相映射,“人”“物”“关系”是对现实世界所有事物的数据抽象。

10 人

标签类目体系方法论中的“人”指会主动发起行为动作的对象。人包括自然人、自然人群体、法人、法人群体等,例如消费者、消费者协会、电商企业、电商企业联合会等。

11 物

标签类目体系方法论中的“物”指行为动作中的被动对象。物包括物品、物体、物品集合等,例如商品、仓库等。

12 关系

标签类目体系方法论中的“关系”指人和物、人和人、物和物等两个对象间发生的某种连接。关系包括行为关系、归属关系、社交关系、同好关系等各种强、弱关系。

13 场景

标签类目体系方法论中的场景指某环境下,具体对象(人、物、关系)在时空中的表现。在某场景内,对象可能是某个人或某群人,可能是某个物或某群物,也有可能是发生着的某种关系或某系列关系集合。

因此任何一个事件,无论简单还是复杂,都可以用场景来表达。例如,“午后我在发呆”“机器设备异常运行”“消费记录源源不断产生”等都是场景。

前台标签类目体系中的场景往往指的是前台业务使用数据资产服务解决自身业务问题、提升业务效率的数据应用场景。

14 后台类目体系

标签类目体系在企业实际应用过程中可以拆分为后台类目体系和前台类目体系。后台类目体系面向数据资产管理人员,是企业数据资产的全集,较为稳定,按照统一的分类方式进行标签的挂载、查看、管理。

资产设计师或管理员可以创建、维护后台类目体系,业务人员只能查看使用,无法修改后台类目体系的类目格式。只有拥有一定权限的数据资产管理员才可以在经过审批的情况下低频修改后台类目体系。

15 前台类目体系

业务人员通过后台类目体系选择并获得标签使用权后,可以根据场景需要,将标签按照前台场景组织新类目,形成前台类目体系。

例如在后台类目体系中,“性别”属于【基本属性】分类,“消费力”属于【能力价值】分类,但前台业务想通过“性别”“消费力”等维度对会员进行客户洞察分析,那么可以在前台创建一个【客户洞察】的分类,将“性别”“消费力”等标签挂入这个前台分类中。

前台类目与后台类目仅存在映射关联,并不直接挪动标签的物理位置,因而前后台是相互隔离的。因此前台类目可以灵活多变,并不影响后台类目的稳定统一。

关于作者:任寅姿(花名:影姿),资深产品总监、数澜研究院院长拥有超过10年的数据产品经验,原阿里巴巴集团数据产品专家,曾负责集团消费者标签类目体系、DMP精准营销等系统的数据资产设计与实施。2016年加入数澜科技,负责管理公司产品团队,系统提升团队数据思维、数据资产设计能力及数据服务应用经验,是数据中台理论定义及体系构建的核心参与者。

季乐乐(花名:寒泉),政法行业资深专家、产品专家拥有超过6年的政法行业产品经验,原南京通达海区域负责人,专注于研究数字检务、智慧法院等领域。

本文摘编自《标签类目体系:面向业务的数据资产设计方法论》,经出版方授权发布。

文末彩蛋

感谢机械工业出版社为数据森麟公众号的读者提供了3本新书作为奖品,想要获得新书《标签类目体系》的朋友,可以点击下方链接参与活动,三位幸运读者可获得此书!

想要一睹为快的朋友也可以点击阅读全文购买这本新书~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/50525.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

详解数据资产的8大重要特征

导读:原始数据加工成标签,即可认为是简单意义上的数据资产化过程。 数据不再是业务、信息系统的记录或存储,而是转化成带有商业价值的标签,标签是具有业务含义或对业务有指导意义的数据定义,可以说,完成了标…

什么是标签?跟数据中台有什么关系?终于有人讲明白了

导读:本文带你了解标签在数据中台中的位置。 作者:任寅姿 季乐乐 来源:大数据DT(ID:hzdashuju) 01 什么是标签 标签指从原数据加工而来,能够直接为业务所用并产生业务价值的数据载体。从本质上讲…

数据中台:前台调用能快速响应、数据口径一致

标签类目体系方法有什么用处? 标签类目体系方法有什么用处?对企业来说究竟有什么好处?企业数据部门人员经常会对标签类目体系存在的意义产生疑问。如果不建设标签类目体系,用传统的数仓建模是否也可以?数据部门负责人在…

数据中台、标签、数据资产相关的15个名词解释

导读:本文将对数据中台、数据、标签相关的关键名词术语进行定义和解释。 作者:任寅姿 季乐乐 来源:大数据DT(ID:hzdashuju) 01 数据 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的…

关于XML解析报错问题(LF、CRLF)

报错内容的主要部分: UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x80 in position 123: illegal multibyte sequence 问题产生 在做目标检测时,使用的数据集来自网络,在将xml和图片转换到特定格式时,有些xml文件解析…

《扬帆优配》新增21亿订单,海风龙头获多路资金抢筹!

今天仅三个职业获主力资金净流入。 证券时报数据宝计算,今天沪深两市主力资金净流出295.18亿元,其间创业板净流出76.61亿元,沪深300成份股净流出92.15亿元。 申万一级职业中,今天传媒、电子、有色金属等6个职业上涨。25个跌落职业…

通达海深交所上市:市值51亿 2022年净利降8%

雷递网 雷建平 3月20日 南京通达海科技股份有限公司(简称:“通达海”,证券代码:301378)今日在深交所创业板上市。 通达海本次发行1150万股,发行价为95元,募集资金10.93亿元。 通达海开盘价为110…

通达海:一直推进人工智能在法院具体业务场景应用方面的研究

导读:通达海近期接受投资者调研时称,公司也一直在推进人工智能在法院具体业务场景应用方面的研究,包括立案风险预警、要素信息抓… 通达海近期接受投资者调研时称,公司也一直在推进人工智能在法院具体业务场景应用方面的研究&…

马斯克“翻车”现场:“甩”不掉的推特

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 自上周五宣布终止对推特的收购以来,马斯克再次成为科技网站的首页“常驻嘉宾”。 面对马斯克意欲违约并想把责任推得干干净净后,推特显然也不是“吃素的”:仍将致力…

用nltk模仿海子写中文现代诗

文章目录 前言开始编程寻找素材处理语料一些类似的步骤 运行结果 前言 仅仅写英文诗还不够,我们又把主意打到了中文诗头上。不过要写古体诗还有一些困难,我们先尝试一下现代诗。 写中文现代诗的代码与英文诗类似,区别主要在语料的处理上&am…

OpenAI的ChatGPT、微软的New Bing、百度的文心一言、Google的Bard、阿里云的通义千问

随着 ChatGPT 热潮卷起来,微软发布New Bing、百度发布了文心一言、Google 发布了 Bard,阿里云官方终于也宣布了,旗下的 AI 大模型“通义千问”也正式开启测试! ChatGPT ChatGPT是一种由OpenAI训练的大型语言模型。它的原理是基于…

ControlNet仅靠一张照片完成“旧房改造” | GitHub热榜第一

Alex 发自 凹非寺量子位 | 公众号 QbitAI 这是同一个房间改装前后的样子: 一下子质感Up,从凌乱过时变成了有腔有调的现代风。 至于设计费嘛,其实是…一分钱都没花! 因为这并不是专业设计师做的方案,而全靠一只AI完成。…

chatgpt赋能python:Python怎么抢优惠券?优惠不再是梦想!

Python怎么抢优惠券?优惠不再是梦想! 在如今的消费社会,优惠券已成为人们购物时追逐的目标。而优惠券的数量有限且抢手,往往仅能在短时间内领取,因此初次抢到心仪的优惠券可谓令人欣喜不已。而对于程序员们而言&#…

第十八届全国大学生智能汽车竞赛-竞速比赛完全模型组规则

01 完全模型组 一、比赛构成 百度完全模型竞速赛分为线上资格赛、线下分区赛和全国总决赛三个阶段,组委会将综合考虑线上资格赛和线下分区赛成绩来进行全国总决赛名额的选拔,其中线上成绩占10%,线下成绩占90%。组委会将从报名参加线上资格赛的…

国赛来咯!第十八届全国大学生智能汽车竞赛百度竞速赛正式开启

「第十八届全国大学生智能汽车竞赛—百度完全模型组竞速赛」将于1月7日(本周六19:00)全面启航!大赛组委会秘书长、清华大学卓晴教授届时将亲临百度飞桨B站直播间,和同学们一起聊备赛,话今年。 竞赛介绍 「全国大学生智…

【智能汽车竞赛】极速越野组参赛总结

目录 第一章 引 言 第二章 机械结构的调整与优化 2.1 主板和驱动板板的固定及连接 2.2 模型车机械部分安装及改造 2.2.1 优化车身强度 2.2.2 前轮定位 2.3 传感器的设计安装 2.3.1 ICM-20602 安装 2.3.2 gps 传感器的安装 第三章:硬件电路设计 3.1 主控板模块 3.…

史上最强模型 GPT-4 上线:一张手绘草图能生一个网站、60 秒搞定一个游戏开发!...

整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 平地一声雷,GPT-4 重磅来袭。 3 月 14 日,OpenAI 正式上线新一代人工智能大模型 GPT-4,它是一个大型多模态模型,可以接受图像和文本输入,同时…

【12亿】微信月活11.12亿,抖音年赚200亿?中国最受欢迎五大社交平台

在互联网行业,社交一直都是巨头们的兵家必争之地。从QQ到微信,从微博到抖音,新的社交平台在不断出现和崛起,用户也从90后延伸到了00后,而社交时代的风云变幻,也映射了互联网发展趋势以及网友社交方式的变化…

让OpenAI GPT3替我写数据竞赛代码!

★★★ 本文源自AlStudio社区精品项目,【点击此处】查看更多精品内容 >>> 让OpenAI GPT3替我写数据竞赛代码! OpenAI与ChatGPT OpenAI是在美国成立的人工智能研究公司,核心宗旨在于实现安全的通用人工智能(AGI)。他们开发的ChatGP…

Github Copilot Chat申请,安装,及常见问题解决

文章目录 实际使用效果:申请使用常见问题 参考 Copilot Chat 是Copilot X 引入的预览功能,不但可以像Chatgpt一样聊天,也可以解释代码,bug 修复,也可以生成单元测试。是一个非常有吸引力的功能。 实际使用效果&#xf…