AllData一站式大数据平台【二】

1、机器学习算法平台ai-studio

MLOPS-基于机器学习算法平台建设AllData MLOPS平台

2、AI算法应用市场ai-tasks

数据平台的人工智能引擎:AI算法驱动1、数据准备2、模型开发支持自定义与可视化模型开发3、训练和超参数调节4、模型服务5、模型调整和理解6、模型监控7、模型管理8、AI算法应用市场

3、alldata-k8s

基于Docker拉起大数据集群组件

1、配置/etc/hosts

10.0.12.4 namenode
10.0.12.4 resourcemanager
10.0.12.4 elasticsearch
10.0.12.4 kibana
10.0.12.4 prestodb
10.0.12.4 hbase-master
10.0.12.4 jobmanager
10.0.12.4 datanode
10.0.12.4 nodemanager
10.0.12.4 historyserver
10.0.12.4 hive-metastore
10.0.12.4 hive-metastore-pg
10.0.12.4 hive-server
10.0.12.4 zookeeper
10.0.12.4 kafka
10.0.12.4 elasticsearch
10.0.12.4 jobmanager
10.0.12.4 taskmanger
10.0.12.4 hbase-master
10.0.12.4 hbase-regionserver
10.0.12.4 hbase-thrift
10.0.12.4 hbase-stargate
10.0.12.4 alluxio-master
10.0.12.4 alluxio-worker
10.0.12.4 alluxio-proxy
10.0.12.4 filebeat

2、docker-compose up -d

3、访问hive

3.1 进入hive-metastore 9083
docker exec -it hive-metastore /bin/bash
3.2 进行hive客户端
hive --hiveconf hive.root.logger=INFO,console
4、页面访问

4、AllData整包编译安装部署assembly


> AllData整包编译安装部署

5、buried-trade

ALL DATA Double 微服务商城

启动配置教程

1、启动前,打包dubbo-service

执行mvn clean package -DskipTests=TRUE打包,然后执行mvn install.

2、启动dubbo项目,配置tomcat端口为8091

image

3、启动商城项目的多个子系统

后台:访问http://localhost:8090

前端:启动mall-admin-web项目,进入项目目录,执行npm install,然后执行npm run dev;

后端:启动mall-admin-search项目,

配置tomcat端口为8092,接着启动pcManage项目,tomcat端口配置为8093;

image image

前台:小程序手机预览,移动端访问:http://localhost:6255

4、小程序和移动端

前端:商城小程序,启动mall-shopping-wc项目,

安装微信开发者工具,配置开发者key和secret,

使用微信开发者工具导入即可,然后点击编译,可以手机预览使用。

image

5、商城移动端

mobile-h5, 进入项目目录,执行npm install和npm run dev

6、小程序和移动端用的是同一个后台服务,

启动mobileService项目,进入项目目录,配置tomcat端口8094

image

7、商城PC端 访问http://localhost:8099

前端:启动computer项目,

进入项目目录,执行npm install和npm run dev;

8、启动admin-service项目,配置tomcat端口为8095;

image

6、系统埋点buried

Logan 开源的是一整套日志体系

包括日志的收集存储,上报分析以及可视化展示。

我们提供了五个组件,包括端上日志收集存储 、iOS SDK、

Android SDK、

Web SDK,

后端日志存储分析 Server,

日志分析平台 LoganSite。

并且提供了一个 Flutter 插件Flutter 插件

buried-shop

ALL DATA 商城生态体系

1、采用lilishop开源项目作为数仓数据来源

2、前端支持mobile、小程序、android、ios

3、后台支持电商用户侧+商家侧管理系统

4、数据运营报表分析系统

演示地址
平台管理端:https://47.107.48.119:8870 账号:admin/123456

店铺管理端:https://47.107.48.119:8871 账号:13011111111/111111

商城PC页面:https://47.107.48.119:8873

7. crawler爬虫项目

1.1 直接http构造es查询,显示查询结果,提供web端查看

1.2 前端拼接hivesql,查询hive表数据

2. 爬虫系统

2.1 爬取数据后,走rabbitmq消息队列通信,数据文件爬取后上传到sftp,然后跑mapreduce任务创建hive表,上传到hdfs

2.2 定时调度爬虫系统

3. data-spider基本架构图

https://my-macro-oss.oss-cn-shenzhen.aliyuncs.com/mall/images/20200304/data-spider.png

4. 启动脚本

django搜索服务
source /usr/local/python-3.6.2/envs/scrapytest/bin/activate
cd /usr/local/scrapy/search
python3 manage.py runserver 0.0.0.0:8000#启动scrapy后台服务
cd /usr/local/scrapy/spider
/usr/local/python-3.6.2/envs/scrapytest/bin/scrapyd &#查看scrapyd
netstat -tlnp | grep 6800#部署spider到scrapy
/usr/local/python-3.6.2/envs/scrapytest/bin/scrapyd-deploy Myploy -p ArticleSpider#启动爬虫
curl http://120.79.159.59:6800/schedule.json -d project=ArticleSpider -d spider=zhihu
curl http://120.79.159.59:6800/schedule.json -d project=ArticleSpider -d spider=lagou
curl http://120.79.159.59:6800/schedule.json -d project=ArticleSpider -d spider=jobbole

8、CRAWLAB FOR ALL DATA PLATFORM 数据采集引擎

数据平台的人工智能引擎:CRAWLAB

基于Golang的分布式爬虫管理平台

支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架。

9、数据集成引擎dts

AllData社区项目数据集成平台

基于Canal/Debezium/FlinkCDC的原理机制,设计开发CDC异常恢复程序,保障数据同步链路的可靠性和准确性

  • 一、监控canal/dbz的失活状态,触发DTalk告警
  • 二、获取Kafka Topic最新时间值的数据
  • 三、获取恢复数据-先统一获取mysql/oracle最大时间戳字段
  • 四、获取源表近[最新起始,最新起始+10s]的操作最新的数据

1、DataX

2、flink cdc

3、FlinkX

4、InLong

5、Canal

6、Debezium

10、govern

DATA GOVERN FOR ALL DATA PLATFORM 数据治理引擎

数据平台的数据治理:数据治理是一个大而全的治理体系。需要数据质量管理、元数据管理、主数据管理、模型管理管理、数据价值管理、
数据共享管理和数据安全管理等等模块是一个活的有机体。1、数据质量: 依托Griffin平台,为您提供全链路的数据质量方案,包括数据探查、对比、质量监控、SQL扫描和智能报警等功能:开源方案: Apache Griffin + ES + SparkSql2、元数据: 描述数据的数据,对数据及信息资源的描述性信息,例如字段元数据描述字段的类型、长度、默认值。 
发布:指将某一元数据发布为数据资产的动作。数据资产是指可以对外提供服务并且产生价值的数据。
表/字段血缘:即表/字段的来龙去脉,主要包含表/字段的来源、加工方式、映射关系及数据出口。血缘是元数据的一部分,
有利于数据变更影响分析以及数据问题排查。开源方案: Apache Atlas + ES + Hbase + JanusGraph + Hive + Kafka3、数据标准: 参考阿里的DataWorks,数据标准是用于描述公司层面需共同遵守的数据含义和业务规则,
它描述了公司层面对某个数据的共同理解,这些理解一旦确定下来,就应作为企业层面的标准在企业内被共同遵守。
数据标准,也称数据元,由一组属性规定其定义、标识、表示和允许值的数据单元,是不可再分的最小数据单元。
您可以将数据标准关联到各个业务上的数据库中。
其中,标识符、数据类型、表示格式、值域是数据交换的基础,它们用于描述表的字段元信息,规范字段所存储的数据信息。暂无事实性标准的开源方案:Mysql + SpringBoot4、数据服务:参考阿里的DataWorks, 数据服务旨在为企业搭建统一的数据服务总线,帮助企业统一管理对内对外的API服务。
数据服务为您提供快速将数据表生成API的能力,同时支持您快速注册现有的API至数据服务平台,进行统一的管理和发布。
数据服务已经与API网关(API Gateway)连通,支持一键发布API服务至API网关。
数据服务与API网关为您提供了安全稳定、低成本、易上手的数据开放共享服务。
数据服务采用Serverless架构,您只需要关注API本身的查询逻辑,无需关心运行环境等基础设施,
数据服务会为您准备好计算资源,并支持弹性扩展,零运维成本。开源方案:Apache Kong + Mysql + Lua + Postgresql + ES

11、knowledge

DATA AI FOR ALL DATA

知识图谱(Knowledge Graph)

12、lakehouse

DATABASES FOR ALL DATA PLATFORM 分布式存储引擎

数据平台的分布式存储引擎:存算分离譬如Kylin+Parquet 存算一体譬如CK

1、cassandra

2、clickhouse

3、drill

4、flinksql

5、greenplum

6、hql

7、kylin

8、memcached

9、mongodb

10、mysql

11、oracle

12、phoenix

13、presto

14、postgresql

15、redis

16、sparkSql

17、teradata

18、janusgraph

19、iceberg

20、hudi

13、olap

基于Calcite建设多引擎SQL解析路由系统

基于Kylin3.1.3 DataSourceSDK + Calcite进行开发1、增加ClickHouseAdapter2、基于Calcite进行语法词法解析3、根据Calcite解析SQL进行规则路由4、封装JDBC转发查询不同OLAP引擎5、返回SQL查询结果

14、studio

AllData社区版


image

1、AllData输入

实时开发

Dlink

离线开发

FlinkX

数据治理

ElAdmin

湖仓一体

Dlink+CDC+Hudi

机器学习算法平台

cube-studio

数据集成

ElAdmin

数据中台

ElAdmin

大数据集群运维平台

Rancher

数据分析

Hive+Doris

实时同步

Dlink+FlinkCDC+Doris

任务调度

DolphinScheduler

运维中心

SREWorks

数仓建模

Doris

低代码引擎

lowcode-engine

墨刀产品原型

2、输出

MVP产品

设计文档

项目会议

3、补强

前端开发

产品设计

后端架构

云原生架构

大数据架构

UI设计

15、studio-tasks

BUSINESS FOR ALL DATA PLATFORM 计算引擎

数据平台的计算引擎:离线开发&实时开发

1、druid

2、flink

3、griffin

4、ksql

5、mapreduce

6、spark

7、spark streaming

8、storm

9、tez

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/44885.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大数据_数据中台_数据汇聚联通

目录 一、数据采集、汇聚的方法和工具 1、线上行为采集 2、线下行为采集 3、互联网数据采集 4、内部数据汇聚 二、数据交换产品 1、数据源管理 2、离线数据交换 3、实时数据交换 三、数据存储的选择 1、在线与离线 2、OLTP与OLAP 3、存储技术 构建企业级的数据中台…

【企业微信】JS-SDK引入实现向企微群聊发送图文消息

一、需求 企业自建应用商城需要实现分享商品链接到群聊。&#xff08;标题/描述/图片/点击跳转商品链接H5详情页&#xff09;&#xff0c;API&#xff08;打开已有群聊并发送信息&#xff09;可实现企微文档 二、引入Js-sdk 方式一&#xff1a;链接引入 <script src"…

行业报告 | AI 赋能,人形机器人产业提速,把握产业链受益机会(上)

文 | BFT机器人 01 核心观点 核心观点: 人形机器人产业发展仍处于 0-1 阶段&#xff0c;当前行业投资逻辑偏向事件驱动型的主题投资&#xff0c;但可落地服务场景的人形机器人成长空间非常广阔&#xff0c;值得长期关注。本文将围绕以下热点问题作出讨论: D当前节点人形机器人产…

一周AIGC丨Meta 发布新一代开源大模型 Llama 2,大模型裁员潮不远了?

人们把Meta发布免费可商用版本 Llama 2比作“安卓时刻”&#xff0c;OpenAI护城河似乎一下子荡然无存&#xff0c;整个大模型市场格局面临巨变。据媒体报道&#xff0c;在以往&#xff0c;中国大模型公司可以靠商业授权赚钱利润&#xff0c;随着Llama 2开始允许商用&#xff0c…

寻寻觅觅,彩电厂商能否“智”取未来?

彩电业&#xff0c;还能不能好&#xff1f; 电视行业的发展&#xff0c;一直伴随着漫长的价格战。从黑白到彩电再到超大屏&#xff0c;从CRT到平板再到液晶&#xff0c;在每一轮技术革新之后&#xff0c;市场总会经历从落到起&#xff0c;从起到落的循环&#xff0c;然后陷入价…

Visualglm-6b

【官方教程】VisualGLM技术讲解_哔哩哔哩_bilibili报告文件下载: https://pan.baidu.com/s/1gfdpyfT6EVnygMPDO_iwvQ?pwd8wpc 提取码: 8wpcVisualGLM-6B 是一个开源的&#xff0c;支持图像、中文和英文的多模态对话语言模型&#xff0c;语言模型基于ChatGLM-6B&#xff0c;具有…

7月最新大模型排名!3700道保密试题、20个大模型参与评测|SuperCLUE

7月最新大模型排名&#xff01;3700道保密试题、20个大模型参与评测&#xff5c;SuperCLUE CLUE中文语言理解测评基准 中文通用大模型综合性评测基准SuperCLUE 2023年7月榜单 7月25日&#xff0c;SuperCLUE发布大模型7月榜单。 SuperCLUE: A Benchmark for Foundation Mo…

2022春招,算法岗最全面试攻略,吃透28个必问题直接速通大厂

算法是比较复杂又基础的学科&#xff0c;每个学编程的人都会学习大量的算法。而根据统计&#xff0c;以下这28个问题是面试中最容易遇到的&#xff0c;本文给出了一些基本答案&#xff0c;供算法方向工程师或对此感兴趣的程序员参考。 除了文章提到的这些题目之外我还整理了很多…

新鲜出炉的 NLP 算法岗社招面试经验分享

最近终于做好了选择&#xff0c;决定从杭州“搬迁”到了上海&#xff0c;一切安顿好之后&#xff0c;终于有功夫可以好好整理一下近期面试遇到的一些问题以及自己的一些小经验啦&#xff0c;希望对同样有跳槽需求的同行小伙伴们有些小小的帮助。 【注】文末提供面试技术交流群…

【算法岗面试】某小厂V面试题

文章目录 一、关于Bert模型以及蒸馏的问题&#xff1a;1.1 蒸馏的思想&#xff0c;为什么要蒸馏&#xff1f;1.2 蒸馏中的学生模型是&#xff1f;1.3 有哪些蒸馏方式?1.4 Bert 的输入是什么&#xff1f;1.5 字向量的 embedding 怎么训练得到的&#xff1f; 二、关于 transform…

2022秋招,算法岗最全面试攻略,吃透28个必问题直接速通大厂

算法是比较复杂又基础的学科&#xff0c;每个学编程的人都会学习大量的算法。而根据统计&#xff0c;以下这28个问题是面试中最容易遇到的&#xff0c;本文给出了一些基本答案&#xff0c;供算法方向工程师或对此感兴趣的程序员参考。 除了文章提到的这些题目之外我还整理了很多…

算法岗面试题目汇总

目录 阿里巴巴一面 阿里巴巴二面 oppo一面 笨鸟科技 京东二面&#xff1a; 算法题&#xff1a; 阿里巴巴一面 特征值怎么去除掉行业和市值的影响&#xff1f;去残差是什么意思&#xff1f; cnn的那个项目数据处理是怎么做的&#xff1f; 卷积神经网络预测股票走势项目内…

大数据岗位和算法岗,面试官最爱问的10大问题

目录 1. 什么是数据结构&#xff1f; 2. 描述数据结构的类型&#xff1f; 3. 什么是线性数据结构&#xff1f;举例说明 4. 数据结构有哪些应用&#xff1f; 5、文件结构和存储结构有什么区别&#xff1f; 6、什么是多维数组&#xff1f; 7. 什么是链表数据结构&#xf…

量化岗经典面试题——赛马

本文源自&#xff1a;微信公众号QuantJob https://mp.weixin.qq.com/s/pO_6ZGKzCcNr2IJN7fH74A 有25匹马&#xff0c;每匹都以不同于其它马的恒定速度奔跑。由于赛道只有5条&#xff0c;每场比赛最多可有5匹马。如果你需要找3匹跑得最快的马&#xff0c;需要多少场比赛才能找…

算法岗必须人手一篇顶会?超详细面经:无论文、无实习拿下腾讯CV算法岗

点击上方“迈微AI研习社”&#xff0c;选择“星标★”公众号 重磅干货&#xff0c;第一时间送达 从迈微社友群中了解到&#xff0c;很多社友还是在校学生&#xff0c;并且有好些同学现在面临求职的阶段&#xff0c;特向大家推荐清雨卢同学的历程总结&#xff0c;应该会给大家一…

2019算法岗面试经验汇总

作者&#xff1a;太蔡了来源&#xff1a;牛客网&#xff0c;Jerry的算法和NLP 背景&#xff1a;211本&#xff0c;C9硕&#xff0c;都是非科班。主要投CV的算法岗&#xff0c;无竞赛&#xff0c;无论文&#xff0c;两-三个实验室CV相关项目&#xff0c;一段旷视的暑期实习经历。…

腾讯148道面试题,(程序员必备学习方向)全会拿45Koffer没问题

相信你可能经历过这些&#xff1a; 已经工作两三年了&#xff0c;每个项目都会加班加点全力以赴去完成&#xff0c;薪资增长幅度却不如人意。 听说年后离职的老同事&#xff0c;金三刚拿下高薪offer&#xff0c;年薪直奔50万了。 由于现在的公司接触不到新技术&#xff0c;对自…

九龙证券|地产股突然爆发!李蓓再度公开唱多,北上资金却在减持

李蓓又发声了&#xff0c;继续看好地产股&#xff01; 4月7日&#xff0c;明星私募基金经理李蓓在半夏出资官微发文&#xff0c;就地产职业和地产股出资时机共享了她的最新观念。李蓓以为&#xff0c;地产职业在阅历供应侧变革后&#xff0c;未来在供需层面存在剪刀差&#xff…

金标股份冲刺A股上市:计划募资约6亿元,许光荣为董事长

近日&#xff0c;上海金标文化创意股份有限公司&#xff08;下称“金标股份”&#xff09;递交招股书&#xff0c;准备在深圳证券交易所主板上市。本次冲刺上市&#xff0c;金标股份计划募资5.96亿元&#xff0c;东方证券为其保荐机构。 据招股书介绍&#xff0c;金标股份是一…

股东刚减持,股价却起飞?用Python量化A股解禁数据,利空出尽是利好? | 邢不行

2019年6月11日&#xff0c;宁德时代上市一周年之际&#xff0c;有45%的股票迎来了解禁。 这些由大股东、高管、早期投资者持有的股份&#xff0c;原先无法交易&#xff0c;但从这一天起就可以自由卖出了。 很多人出于对解禁后巨大卖盘的担忧纷纷提前卖出&#xff0c;导致宁德时…