DAP数据集成与算法模型如何结合使用

企业信息化建设会越来越完善,越来越体系化,当今数据时代背景下更加强调、重视数据的价值,以数据说话,通过数据为企业提升渠道转化率、改善企业产品、实现精准运营,为企业打造自助模式的数据分析成果,以数据驱动决策。

在实际项目中,要使用DAP数据分析平台将企业业务数据进行数据的清洗和汇聚,同时基于DAP平台的展现配置,可以根据业务主题构建相应的展现大屏,从而实现数据的可视化展现,为企业领导层的数据把控和运营决策分析提供支持,本篇文档主要介绍数据采集部分是如何进行使用。

1整体介绍

DAP数据分析平台就是采集各个业务系统的数据,进行数据筛选(表和字段、数据)、质量校验等步骤建立数仓,保证数据标准性、完整性、准确性,从而实现企业业务数据的统一,通过数据可视化展现、数据服务来展现DAP数据分析平台的价值。

1.1产品方案

首先介绍一下数通的产品体系:

数通的所有产品都是通过K8S云平台进行部署搭建产品环境,通过不同的产品组合方案来解决企业面临的不同信息化困境,帮助企业完善信息化发展。

上图所示通过DAP数据分析平台+MDM基础数据平台+ESB企业服务总线组成了数据中台方案,本次介绍的DAP数据分析平台就是此方案的核心,基础数据进行主数据治理,DAP数据分析平台进行业务数据治理,通过ESB进行数据的集成,帮助整合企业数据,统一管理,提升企业的数据价值。

1.2功能架构

数据分析平台全生命周期是通过采集各个业务系统数据构建数仓,从而进行有效分析的过程,能够真实、准确、有效地将企事业内部及行业外部相关数据进行可视化展现,帮助企事业提升行业洞察力,加强决策力,从而提升整体竞争力。

数据分析平台功能有:

1.数据来源(应用系统定义、数据源头配置、ODS数据定义)。

2.数仓模型(业务主题、指标管理、维度配置、事实配置、模型配置)。

3.数据调度(规则校验、调度资源、调度任务、日志管理)。

4.分析模型(数据集配置、立方体配置、业务类报表、多维度分析)。

5.算法模型(算法原型、算法开发、算法调用、算法日志)。

6.展现配置(导航管理、组件管理、展现主题、装饰管理)。

7.数据服务(接收服务、查询服务、算法数据、统计服务、指标服务、业务服务)。

8.统计分析(数据地图、质量分析、影响分析、血缘分析)。

9.系统管理(资源配置、组织机构、角色管理、人员管理、功能管理、系统日志)。

1.3算法说明

DAP的算法模型需要结合数据集来进行使用,数据通过数据治理的三步流程之后(数据从业务系统采集抽取到ODS,ODS清洗转换到数据仓库,数据仓库的数据进行加工汇总)构建的数据仓库,从而通过配置构建数据集,通过数据集的历史数据结合算法原型构建算法开发,将数据训练后生成模型对象,结合算法调用对未来数据进行预测,算法在使用时,还要符合业务逻辑,所以接下来对数据集成如何结合算法模型使用进行说明。

2数据说明

本次数据说明以销售数据进行说明,通过各项指标来对于销售额,利润额等数据来进行预测。

2.1 背景说明

本次预测的数据背景为对咖啡门店的销售额进行预测,通过营销费用的增多与减少,对应的就是店内的折扣力度,也就会影响店内订单数、客单价等指标,从而影响销售额的高低,而在使用材料中,使用品质好的材料,成本就会增高,利润降低,反之则是成本降低,利润增高。

使用历史数据中的订单数、客单价、假期天数等特征值去训练模型,将训练好的模型结合当前数据或未来数据中的假期天数等特征指标去预测销售额以及对于门店级别进行分类。

2.2 模型设计

1.构建门店表作为维度表,表字段中添加门店名称、门店等级,门店等级字段作为分类模型的预测字段。

2.构建销售表,表字段中添加当月假期天数、线上订单、线下订单、营销费用、材料费用、人工费用字段作为特征字段,添加时间(年月)作为维度信息,添加实际销售额字段作为度量字段,添加预测销售额字段作为预测值字段。

2.3 数据构建

1.采集同步:

(1)首先在ODS定义中使用参考表创建的方式将在业务系统中添加的门店表以及门店销售表采集抽取到ODS中间库,在编辑页面定义唯一字段与比较字段,确保数据同步时的唯一性以及准确性。

(2)编辑好ODS表之后,对于ODS表进行创建,结合ESB创建消息流程,进行数据同步。

2.清洗转换

清洗转换的作用是将ODS中的数据清洗转换到数据仓库,也就是对字段进行选取以及配置规则校验,接下来对具体实现进行说明。

(1)维度表:

维表是属于枚举类的信息,所以使用门店表作为维表,在创建维表时,来源表选择ODS中的门店表。

在字段信息中,除了导入原有字段外,需要手动新增预测等级字段,在进行分类时,对于预测等级字段进行回写。

同时在字段信息中,要对于字段配置唯一字段以及规则校验,目的同样是确保数据的唯一性以及准确性。

编辑好维表之后,对于维表进行创建,结合ESB创建消息流程,进行数据同步,同样在ESB设计器中的MF服务中创建消息流程,选择HTTP请求中的ODS转换到EDW。

(2)基础事实表:

基础事实表创建的为门店销售表,在来源表中选取ODS的门店销售表进行创建。

在字段信息中,导入需要的字段,并对字段配置唯一字段以及规则校验,操作与维表一致。字段编辑好之后,进行表的创建,同时结合ESB生成调度流程。

3.加工汇总:

(1)汇总事实表的创建分为两种方式:横向汇总与纵向汇总,横向汇总是对于字段配置表达式的方式进行字段间的汇总,纵向汇总是对于字段配置聚合类别的方式进行汇总,本次是基于上述所创建的门店销售基础事实表进行创建,通过销售额/(线上订单+线下订单)得出客单价,所以在创建时,来源表选取门店基础事实表,创建方式选择横向汇总。

(2)在字段信息中先进行数据导入,接下来手动新增客单价字段预计预测销售额字段。

(3)在汇总配置中新增表达式对于客单价字段进行汇总加工。

以上配置好之后,对于汇总事实表进行创建,结合ESB创建消息流程,进行数据同步。

3模型构建

数据仓库构建好之后,要对于数仓模型以及分析模型进行构建,接下来对于操作步骤进行说明。

3.1数仓模型

1.数据仓库中的数据构建好之后可以基于维度表与事实表创建数仓模型,数仓模型通过配置表之间的关联关系,将多表组合在一起进行数据展现,数仓模型也是创建分析模型的基础

2.创建门店销售统计模型,添加门店表以及门店销售汇总事实表。

3.在关联关系中配置两表之间的关联。

3.2分析模型

上述的数仓模型构建好之后就可以对于分析模型进行创建,因为后续算法模型需要使用的数据来源是数据集,所以本次在分析模型中,创建数据集即可。

首先在基本信息页面选取创建好的数仓模型。

在字段选择页面中选取使用的字段,保存后数据集就创建完成。

3.3数据展现

以上数据配置好之后,点击数据预览,就可以对于门店销售数据进行查看。

4算法模型

算法模型分为算法原型、算法开发、算法调用、算法日志,算法原型是在系统中预置好的算法,供算法开发使用,算法开发是针对开发人员使用,通过对算法开发进行数据、条件、属性以及对算法模型的调优之后,生成算法调用,供使用人员进行调用,调用后会生成对应的日志,查看调用详情信息。

由于算法原型是预置在产品中,所以接下来对于算法开发以及算法调用功能使用进行说明。

4.1算法开发

本次算法开发说明使用回归模型进行说明,回归模型属于有监督的模型,主要是针对连续性的数据进行预测,本次说明的回归模型是基于公司下多个门店历史年月中的假期天数、线上订单数、线下订单数与销售额之间的关系从而对于未来时间段的销售额进行预测。

1.首先在新增页面选取数据集以及算法原型。

2.在字段选择中选取特征值以及预测值,本次的销售预测是使用假期天数、线上、线下订单以及客单价来预测销售额。

3.因为是预测,所以需要使用一些大批量的历史数据来进行预测,这可以确保预测的准确性,所以需要在条件配置中配置时间条件。

4.算法开发会生成算法调用,算法调用的作用是对于数据进行预测后,将数据回写到数据库中,最终可以通过配置进行数据的可视化展现,所以需要对于数据的回写策略进行配置,回写分为表回写以及字段回写,本次使用的是字段回写,目标字段配置的是需要回写的字段,条件字段作为唯一值,确保数据的一致性。

5.以上配置好之后,对数据生成CSV文件,接下来对算法进行开发。

6.点击算法开发后打开在Jupyter NoteBook生成的算法开发代码,该代码是通过算法原型生成,接下来要对代码进行开发以及调优,下面对下图中的三段代码进行说明:

(1)在第一段代码中,首先是读取生成的csv文件,接下来对文件中的特征值和预测值拆分X和y,并将X和y中的数据拆分为8比2的占比作为各自的训练集以及测试集。

(2)在第二段代码中,通过传递的模型集合以及数据,求出不同模型的均方差值,均方差值是衡量预测值与真实值之间差异的指标,差值越小,说明模型的预测值与真实值之间的差异越小,模型的性能就越好,根据循环对比,找出最优模型。

(3)在第三段代码中,创建回归模型集合,调用第二段代码,找出最优模型。

7.接下来对之后的代码进行说明:

(1)在下图第一段代码中,根据寻找出的最优模型,进行参数调优,参数调优采取的方法是交叉验证,通过给出一个区间的参数,使用交叉验证后,会返回一个使用最佳参数的模型。

(2)第二段代码就是使用最优模型对数据进行打图,进行数据的可视化,可以直观地看出模型的效果好坏,下图的蓝色散点图为预测值散点图的分布,虚线是真实值最小值到最大值的直线分布,可以看出两个图形之间基本吻合,所以可以得出当前模型的效果很好。

8.算法开发好后进行解析代码,将代码存储至数据库中,最后再生成py文件,py文件是算法进行训练时需要调用的文件。

9.接下来点击执行,执行成功后生成模型对象,模型对象可以理解为算法开发后训练好的对象,在算法调用时,会调用该对象,使用该对象执行训练需要预测的数据特征值,就可以得到预测值,算法开发的执行方式同时还支持定时触发,条件值应该设为变量条件,比如当前年份/月份-1等,这样经过定时训练后就可以保证会实时训练新的数据,从而得到最新预测模型对象。

4.2算法调用

1.算法调用是基于算法开发生成,创建方式分为两种,一是在算法开发页面中,生成算法调用,二是在算法调用页面手动新增

2.在算法调用的条件配置中,需要将预测的条件进行添加。

3.配置好之后点击执行,将算法调用进行执行。

4.执行之后,会生成对应的算法日志,日志中可以查看执行的参数信息以及训练结果等信息。

5.算法调用执行方式除了手动执行还支持定时执行以及事件执行,定时执行是保证数据预测的实时性,事件执行是确保源数据发生变化时,预测同时也要进行执行,保证数据的一致性以及准确性。

4.3功能展示

算法在调用结束之后,会将数据进行预测并回写,接下来对预测分析导航进行查看。

5心得总结

在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动,所以数据一定是标准的、完整的、准确的,通过上述数据采集把业务系统中不正确数据过滤掉、调整后,使数仓中的数据具有可用性,使用正确的数据进行分析预测,最后对于数据进行可视化展现,提升数据价值,正确引导公司的发展。

5.1过程总结

数据的可视化展现可以使大家能够用一些简短的图形就能体现那些复杂信息,而有些数据是预测型、统计分析类型,所以需要使用机器学习来对数据进行预测或者统计分析,最终使数据进行可视化的展现,让决策者可以轻松地获取查看各种不同的数据源。来分析过去某时间段企业的发展趋势,去规划未来的发展方向。

5.2重要事项

使用DAP数据分析平台进行算法数据预测时需要注意如下几个重点:

1.数据要具有业务逻辑,不论是在实际开发还是在数据预置,都要贴近业务,这才能使产品更加具有可用能力。

2.数据预置要有逻辑性,数据在进行预测时都是结合历史数据进行预测,只有数据之间的关系紧密,预测的数据才能准确。

3.要确保数据的联动性,数据从源头发生变化时,要进行事件的触发,确保预测数据的准确性。

5.3说在最后

DAP数据分析平台作用在于对海量数据进行采集分析治理,将治理后的数据通过配置进行可视化展现,提升数据价值,而算法模型的使用主要是结合历史数据对未来数据进行预测,并且可以通过调整预测值可以反推数据参数的变化,这可以有效地让决策者做出决策,提升企业价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/218017.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

乐益达教育网页

目录 一、网页效果 二、html代码 三、CSS代码 四、JS代码 一、网页效果 二、html代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, in…

excel数据重复率怎么计算【保姆教程】

大家好&#xff0c;今天来聊聊excel数据重复率怎么计算&#xff0c;希望能给大家提供一点参考。 以下是针对论文重复率高的情况&#xff0c;提供一些修改建议和技巧&#xff1a; excel数据重复率怎么计算 在Excel中计算数据重复率可以通过以下步骤实现&#xff1a; 1. 确定重复…

priority_queue的实现,容器和仿函数

首先我们要实现priority_queue就必须要了解其底层&#xff0c;本质其实就是堆排序&#xff0c;大根堆就是升序排序&#xff0c;小根堆就是降序排序。 原因是因为&#xff0c;我们堆排序取元素可以将堆顶和最后一个元素交换&#xff0c;然后让堆顶下沉&#xff0c;这样可以维护…

AWTK 串口屏开发(2) - 数据绑定高级用法

AWTK 串口屏 智能家居示例 1. 功能 这个例子稍微复杂一点&#xff0c;界面这里直接使用了 立功科技 ZDP1440 HMI 显示驱动芯片 例子中的 UI 文件和资源&#xff0c;重点关注数据绑定。在这里例子中&#xff0c;模型&#xff08;也就是数据&#xff09;里包括一台空调和一台咖…

俄罗斯军方计划用 Astra Linux 取代 Windows!

网络安全正在改变全球化的面貌&#xff0c;各国政府为了防范外国的间谍和破坏活动&#xff0c;正积极发展自己的技术。在这一趋势下&#xff0c;俄罗斯军方已经开始用 Linux 发行版 Astra Linux 替换 Windows 系统。 如何提高Linux系统安全性&#xff1f;提升Linux安全的关键策…

ChatGPT 成为 Nature 年度十大人物,首个非人类实体

文章目录 一、前言二、主要内容三、总结 &#x1f349; CSDN 叶庭云&#xff1a;https://yetingyun.blog.csdn.net/ 一、前言 2023 年即将结束&#xff0c;现在是时候回顾今年的重要科学进展了。12 月 13 日&#xff0c;著名科学期刊《Nature》刚刚发布了 2023 年度的十大人物&…

Amazon CodeWhisperer 开箱初体验

文章作者&#xff1a;Coder9527 科技的进步日新月异&#xff0c;正当人工智能发展如火如荼的时候&#xff0c;各大厂商在“解放”码农的道路上不断创造出各种 Coding 利器&#xff0c;今天在下就带大家开箱体验一个 Coding 利器&#xff1a; Amazon CodeWhisperer。 亚马逊云科…

十五 动手学深度学习v2计算机视觉 ——全连接神经网络FCN

文章目录 FCN FCN 全卷积网络先使用卷积神经网络抽取图像特征&#xff0c;然后通过卷积层将通道数变换为类别个数&#xff0c;最后通过转置卷积层将特征图的高和宽变换为输入图像的尺寸。 因此&#xff0c;模型输出与输入图像的高和宽相同&#xff0c;且最终输出通道包含了该空…

Ubuntu 22.04源码安装yasm 1.3.0

sudo lsb_release -r看到操作系统的版本是22.04&#xff0c;sudo uname -r可以看到内核版本是5.15.0-86-generic&#xff0c;sudo gcc --version可以看到版本是11.2.0&#xff0c;sudo make --version可以看到版本是GNU Make 4.3。 下载yasm http://yasm.tortall.net/Downlo…

【Cisco Packet Tracer】路由器实验 静态路由/RIP/OSPF/BGP

本教程讲解路由器的静态IP配置、RIP、OSPF、BGP等实验内容。 一、基本设置 绘制以下拓扑结构&#xff1a; PC0设置&#xff1a; PC1设置&#xff1a; Router0端口0设置&#xff1a; Router0端口1设置&#xff1a; Router1端口0设置&#xff1a; Router1端口1设置&#xff1a…

大型软件编程实际应用实例:个体诊所电子处方系统,使用配方模板功能输入症状就可开出处方软件操作教程

一、前言&#xff1a; 在开电子处方的时候&#xff0c;如果能够输入症状就可以一键导入配方&#xff0c;则在很大程度上可以节省很多时间。而且这个配方可以根据自己的经验自己设置&#xff0c;下面以 佳易王诊所电子处方软件为例说明。 二、具体一键导入配方详细操作教程 点击…

云服务配置docker镜像容器以及常用操作命令

首先通过ssh进入云服务器。如何ssh进入云服务器。 简单讲解一下docker中镜像和容器&#xff0c;打个比方&#xff0c;镜像相当于印钱的那个模板&#xff0c;容器相当于从模板上拓下来的钱&#xff0c;不同的模板可以印出不同的钱。但容器被修改后也可以变成新的镜像&#xff0…

卷积神经网络(CNN)中感受野的计算问题

感受野 在卷积神经网络中&#xff0c;感受野&#xff08;Receptive Field&#xff09;的定义是卷积神经网络每一层输出的特征图&#xff08;feature map&#xff09;上每个像素点在原始图像上映射的区域大小&#xff0c;这里的原始图像是指网络的输入图像&#xff0c;是经过预处…

php入门、安装wampserver教程

php声称是全世界最好的语言&#xff0c;今天这篇文章就带大家入门学习php&#xff0c;php和python、javasript一样&#xff0c;是一种弱类型的脚本语言。 一、php开发环境搭建 作为初学者&#xff0c;学习php建议安装wampserver&#xff0c;wampserver是包含了apache、php和mys…

设计原则 | 接口隔离原则

一、接口隔离原则 1、原理 客户端不应该依赖它不需要的接口&#xff0c;即一个类对另一个类的依赖应该建立在最小的接口上。如果强迫客户端依赖于那些它们不使用的接口&#xff0c;那么客户端就面临着这个未使用的接口的改变所带来的变更&#xff0c;这无意间导致了客户程序之…

智能优化算法应用:基于平衡优化器算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用&#xff1a;基于平衡优化器算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用&#xff1a;基于平衡优化器算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.平衡优化器算法4.实验参数设定5.算法…

3D渲染和动画制作软件KeyShot Pro mac附加功能

KeyShot 11 mac是一款专业化实时3D渲染工具&#xff0c;使用它可以简化3d渲染和动画制作流程&#xff0c;并且提供最准确的材质及光线&#xff0c;渲染效果更加真实&#xff0c;KeyShot为您提供了使用 CPU 或 NVIDIA GPU 进行渲染的能力和选择&#xff0c;并能够线性扩展以获得…

【深度学习】强化学习(二)马尔可夫决策过程

文章目录 一、强化学习问题1、交互的对象2、强化学习的基本要素3、策略&#xff08;Policy&#xff09;4、马尔可夫决策过程1. 基本元素2. 交互过程的表示3. 马尔可夫过程&#xff08;Markov Process&#xff09;4. 马尔可夫决策过程&#xff08;MDP&#xff09;5. 轨迹的概率计…

在windows系统搭建LVGL模拟器(codeblock工程)

1.codeblock准备 下载codeblock(mingw)&#xff0c;安装。可参考网上教程。 2.pc_simulator_win_codeblocks 工程获取 仓库地址&#xff1a;lvgl/lv_port_win_codeblocks: Windows PC simulator project for LVGL embedded GUI Library (github.com) 拉取代码到本地硬盘&…

Rust语言GUI库之gtk安装

文章目录 工具链安装管理软件vcpkgvcpkg介绍安装vcpkg 安装gtk遇到的问题Rust其他依赖package-confg 工具链安装管理软件vcpkg vcpkg介绍 在使用C/C编写项目时, 引用第三方库是很麻烦的事, 需要手动下载源码然后编译最后再添加到项目里&#xff0c;配置头文件、lib、dll&…