Apache 首次亚洲在线峰会: Workflow 数据治理专场

背景

大数据发展到今天已有 10 年时间,早已渗透到各个行业,数据需

求越来越多,这使得大数据

业务间的依赖关系也越来越复杂,另外也相信做数据的伙伴肯定对如何治理数据也是痛苦之至,再加上现今云原生时代的要求,怎么能更好、更容易的处理大数据任务关系及更好的实现数据治理呢?

Apache 下与之 密切相关的项目有 Apache DolphinScheduler, Apache Atlas,  Apache Airflow , Apache Oozie, 和 Apache Griffin  。此外我们也邀请到时下非常火的数据湖框架 Apache Hudi 社区的伙伴来分享《 基于 Apache Hudi 数据湖上的 Dolphin 调度器的实践》,敬请关注 。 首先给大家介绍下 Apache 基金会年度盛会

                   ApacheCon

                                               @ 官方全球系列大会  

ApacheCon 是 Apache 软件基金会(ASF)的官方全球系列大会,每年举办一次。作为久负盛名的开源盛宴,是开源界最具期待的大会之一。

自 1998 年开办以来,ApacheCon 已经吸引了超过 350 个技术项目和不同社区参与其中,汇聚海内外的业内专家与老师,分享全球最新的技术动态与实践,共同探讨 "明天的技术",让广大的技术爱好者们看到各技术前沿,有哪些最新趋势和进展,更好的升级自己的技术栈。

今年是组委会首次针对亚太地区举办 ApacheCon 在线大会:ApacheCon Asia。Asia 大会将来自中国、日本、印度、美国等海内外的 140+ 议题分为大数据、Incubator、API / Microservice、互联网、集成、开源文化等 14 个论坛。

关于 Workflow/Data Governance工作流和数据治理 论坛

工作流和数据治理将复杂的数据处理进行有序调度及处理,并在元数据、血缘关系和数据质量等方面进行管控。在 ASF 有多种个项目提供了多种数据工作流方案,例如Apache DolphinScheduler,Apache Airflow,Apache Oozie,而 Apache Atlas 和Apache Griffin 提供了多种元数据、数据质量的管理。在工作流和数据治理主题中大家不但会了解到一线用户将这些 Apache 项目应用到具体项目当中的实践经验,而且会了解这些 Apache 项目生态的最新进展,同时也将展望数据调度和数据治理方面的愿景。

出品人

郭炜  

Apache Member & Apache DolphinScheduler PMC 

8月7-8日议程亮点

@ Apache  

WORKFLOW/DATA GOVERNANCE

DolphinScheduler 调度工具在运营商的实践 

分享嘉宾王兴杰

时间8月7日 13:30

议题介绍:

我们选择了 DolphinScheduler,一个更容易扩展、拥有良好容错机制、社区活跃度非常高的开源调度系统。我们将介绍在联通的使用 DolphinScheduler 调度解决办法来面对 >10 万级别日常调度任务。

嘉宾介绍:

王兴杰

14 年毕业后开始从事软件研发工作,7 年研发经验,目前主要负责针对联通大数据的调度系统的研发和迁移工作。

海量复杂任务调度利器 -- Apache DolphinScheduler

分享嘉宾:Qiang Guo

时间:8月7日 14:10

议题介绍:

Apache DolphinScheduler 是海量复杂任务稳定调度的场景需求下顺势而生的一款调度工具,本次议题将围绕其稳定性、易用性等多个方面来介绍 DolphinScheduler。同时,我们也会带来 2.0 - 微内核的架构设计,2.0 后,DolphinScheduler 的各个组件将以 SPI 的形式开放出去,用户可以在这个基础上快速实现自己的特性需求。

嘉宾介绍: 

Qiang Guo

Apache DolphinScheduler PMC,高级软件工程师,擅长:网络通信、大数据处理和计算

Airflow 深度实践

分享嘉宾:吴琏

时间:8月7日 14:50

议题介绍:

基于 Airflow 平台在上海数禾科技的真实案例,介绍 Airflow 在复杂场景下应用、运维以及定制开发的实践:

复杂场景的挑战: 

  1. 跨云分布式部署如何保障高可用;

  2. 多类型调度场景如何有效支撑;

  3. ETL 作业如何保障高可用;

  4. 调度治理如何开展;

  5. 如何做到最大自动化;

同时针对一些业务需求:

  1. 数据分析人员有大量的调度需求,DAG Python 脚本开发上手难度大

  2. 部门或者个人所属的 DAG 并不想被其他部门人员编辑、查看和手动调度?

  3. DAG 中的作业上线审批效率低、工作量大,如何去提高效率去避免一些非规范化的操作?

    消息系统如何触发作业跑批?

分享相应的优化方案: 

  1. DAG 配置可视化:界面配置 DAG 参数,后台自动生成 DAG 文件。

  2. DAG 权限控制:分部门分 DAG 赋权,区分读、写、执行。

  3. 作业规范化监控:配置检测规则去监控作业是否符合规则,执行相应的提示。

  4. 事件触发插件:接收 Sensor 作业和 AMQP 等各类消息,触发相应作业执行。

嘉宾介绍: 

吴琏

上海 DataSeed 信息技术大数据开发工程师,2年 airflow 使用、维护和开发经验,对 airflow 有深刻理解,希望我的经验和理解能为 airflow 开源社区贡献一份力量。

基于 Apache Hudi 的数据湖上的 Dolphin 调度器的实践

分享嘉宾:Zhao Yuwei

时间:8 月 7 日 15:30

议题介绍:

数据湖是一个企业级的数据管理平台,用于分析不同类型的数据源。数据湖架构确保了多种数据源的整合,并支持多种数据模式,以确保数据的准确性。它可以满足实时分析的需要,也可以作为数据仓库,满足批量数据挖掘的需要。因此,我们需要一个高效、稳定且易于扩展的任务调度系统来协调数据湖的外部能力,如数据摄取、数据存储、数据探索、数据发现、数据治理等。在这里我将分享我们为什么选择 Apache DolphinScheduler 作为任务调度系统,以及我们如何让数据用户轻松地与数据湖互动,而不必关注太多的技术细节

嘉宾介绍:

Zhao Yuwei

从事 Hadoop 相关的开发工作,目前主要工作方向是任务调度系统的研发。

新一代大数据工作流调度平台 -- Apache DolphinScheduler 的架构演变

分享嘉宾:Lidong Dai

时间:8 月 8 日 13:30

议题介绍:

主要包括以下六个部分:

第一,DolphinScheduler的介绍

第二,大数据工作流调度平台的痛点

第三,DolphinScheduler的优势

第四,从1.2版到1.3版的架构演变

第五,架构2.0的路线图 & Roadmap

最后,分享一些用户案例

嘉宾介绍:

LIDONG DAI

Apache DolphinScheduler PMC Chair & Apache Incubator PMC,10+ 年的大数据经验,擅长大型数据平台建设和优化

基于 Apache DolphinScheduler 的数据质量服务实践

分享嘉宾:孙朝和

时间:8 月 8 日 14:10

议题介绍:

此次演讲主要是分享基于 DolphinScheduler 的数据质量服务的设计思路、实现方式以及如何在实际场景中去应用

嘉宾介绍: 

孙朝和

在大数据平台开发上具有丰富的经验,热爱并积极参与开源,是 DolphinScheduler 资深代码贡献者

使用 Airflow 在 Kubernetes 进行数据处理

分享嘉宾:栾鹏

时间:8 月 8 日 14:50

议题介绍:

1、为什么我们用 airflow+K8S

2、airflow oa/rbac/web

3、airflow 运行在 docker/docker-compose/k8s上

4、airflow kubernetes-operator

5、airflow k8s pod 插件

6、airlfow 更新友好

7、在腾讯音乐的使用情况

嘉宾介绍: 

栾鹏

腾讯音乐数据中心,从事云原生机器学习平台和数据平台相关内容的建设

DolphinScheduler 工作流 DAG 大 JSON 拆分详解及规划 

分享嘉宾:lijinyong

时间:8 月 8 日 15:30

议题介绍:

目前 DolphinScheduler 的过程定义使用一个很大的 Json 存储的,这在任务比较大的时候效率不高。我将介绍我们的解决方案来解决这个问题,同时该方案也已经提交到Apache DolphinScheduler,将在近期发布。

嘉宾介绍: 

lijinyong

DolphinScheduler 社区活跃贡献者,开源积极分子,现就职于政采云大数据部门,从事大数据平台架构工作,擅长大数据平台及数仓工具的设计与研发,线上 troubleshooting 等

我们在 工作流和数据治理 不见不散 !!!

报名方式

ApacheCon Asia 2021

8月6日-8日  

14 个论坛,100+ 技术项目

140+ 场议题演讲

连线对话全球技术大咖与专家

满满3天全天候交流盛会

全程免费参加

ApacheCon 亚洲首场线上虚拟大会

2021年8月6日-8日

期待朋友们的到来

点击原文,即可报名

ApacheCon Asia 2021

https://www.apachecon.com/acasia2021/

点击阅读原文,即可报名,点亮再看,您最好看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/25266.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2021十大亚洲现货黄金交易APP平台排名榜单

对于国内投资者而言,贵金属投资有内、外盘之分,因此在选择平台时,投资者应该从市场成熟度和产品优势出发,先明确自己在哪一个市场进行投资,再挑选那些信誉度极高、以客户利益为大前提、在行业内排名较前平台。 至于外…

“走进名企”之参观微软亚洲研究院

2021-11-24,感谢 CSDN 组织的活动“走进名企”——探访北京微软亚洲研究院活动。 微软亚研院简介 首先,我们来了解一下微软亚研院一些基本资料。 微软亚洲研究院是微软公司在亚太地区设立的研究机构,也是微软在美国本土以外规模最大的一个。…

人脸数据集——亚洲人脸数据集

大规模亚洲人脸数据的制作 在这次大规模亚洲人脸数据制作主要是亚洲明星人脸数据集,此次我爬取了大概20万张亚洲人脸图像,可以修改爬取每位明星图片的数量来获取更多的图片,过程中主要分以下几步: 获取明星名字列表 &#xff…

激活工银亚洲账号(收到开通成功通知短信以后,汇款到“港元储蓄”子账号)

前言 【工银亚洲】您的账户及银行服务已开通,请存入同名存款激活相关账户及银行服务。账户激活前一概拒纳收取任何非同名存款。 现在需要汇款到“港元储蓄”子账号以激活工银亚洲的账号。 三部曲 首次办理:2018-06-14 [查看详情] 账号已开通&#x…

亚洲名人人脸数据库制作

大规模亚洲人脸数据的制作 原文:https://blog.csdn.net/Alvin_FZW/article/details/82146800 在这次大规模亚洲人脸数据制作主要是亚洲明星人脸数据集,此次我爬取了大概20万张亚洲人脸图像,可以修改爬取每位明星图片的数量来获取更多的图片…

【北京】亚洲微软研究院-微软游记

文章目录 微软游记黑科技交流会办公区晚餐 结束 微软游记 11月24日,身为一名初出茅庐得技术博主,有幸来到微软亚洲研究院,与CSDN一些博主们共同学习!通过这一天对微软的认识,让我有了更多的想法。今天我看到了微软在物…

CASIA-FaceV5亚洲人脸数据集以及对应的测试pairs文件

目录 一、前言 二、生成Pairs文件 三、下载资源 1、官网下载地址 2、百度网盘下载资源 一、前言 含有CASIA-FaceV5亚洲人脸数据集,以该数据集作为测试集所生成的同一人和不同人对应的测试文件。 CASIA-FaceV5亚洲人脸数据集有500人、每个人5张图片&#xff0…

【Windows系统】查看和关闭139、445端口的方法

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、 Windows查看139、445端口的方法二、关闭445端口的方法三、关闭139端口的方法 前言 “航天派”公众号上一期文章介绍了“麒麟操作系统查看和关闭139、445端…

【无标题】chatgpt

演示站:https://ai.sybkxx.com/ 测试账号:demo 测试密码:12345678 源码下载:http://yp.1379.cloud:5212/s/WOco 安装方法: 上传程序到服务器 安装php扩展sg11 php支持7.3-7.4 解压程序安装 授权可以联系 你的域名…

Unix 版权争夺战 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 3 月 6 日,在 1475 年的今天,大艺术家米开朗琪罗诞辰。米开朗琪罗是意大利文艺复兴时期的雕塑家、画家,他活到 89 岁&#x…

百度文心一言推出内测专用独立 App;暴雪回应被网易起诉:未收到相关诉状;iOS 17或支持第三方应用商店 | 极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#xf…

centos7系统安装Vicuna(小羊驼)聊天机器人

准备工作: 安装vicuna之前需要做一些准备工作,比如:git、python3、升级openssl等 1、Git安装 因为要克隆项目源码所以要安装,安装过程很简单yum install git,这里不做过多介绍。如果不安装git也可以,项目…

网络安全也要迈入AI时代?微软推出Security Copilot安全助手

周二,微软宣布将要推出Security Copilot,一款由人工智能驱动的安全分析助手,据说它能够协助网络安全团队快速响应处理威胁、评估报告安全风险。 据微软官网信息,其新推出的Security Copilot把OpenAI的GPT-4人工智能和其自身安全专…

正式接入ChatGPT, 捷码智能助手重磅来袭!

捷码平台最新介绍 ChatGPT给各行各业带来的深远影响,绝对不止一款升级版的客服机器人那么简单。 以微软为例,早在3月17日,继把GPT4引入搜索引擎后,微软又重磅推出了由AI驱动的Microsoft 365 Copilot,它能自动生成电子…

震撼发布,开启全民超能 | DeepSpeed-Chat 开源了!

本博客由微软DeepSpeed组官方撰写并译制(https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat),并授权开源社首发于中文社区,如需转载请注明出处。 #01 概述 近日来,ChatGPT 及类似模型引发了人…

AlphaGo 成名之战 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 3 月 9 日,在 1986 年的今天,中国历史上最大的辞书《汉语大字典》编纂完成。《汉语大字典》由四川、湖北两省 300 多名专家、学者和教师…

Pandoc 从入门到精通,你也可以学会这一个文本转换利器

Pandoc 简介 如果你需要在不同的文件格式之间相互转换,多半听说或使用过文档转换的瑞士军刀——Pandoc。事实上,不仅人类知道 Pandoc,最近很火的人工智能 ChatGPT 也知道「将 Markdown 转换为 docx」,首选方案是使用 Pandoc。 ​…

DeepSpeed:通过系统优化和压缩加速大规模模型推理和训练

文章目录 DeepSpeed:通过系统优化和压缩加速大规模模型推理和训练DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍1. 概述2. 简洁高效且经济的 ChatGPT 训练与推理体验使用 DeepSpeed-Chat 的 RLHF 示例轻松训练你的第一个 类ChatGPT 模型想尝试不同的…

Google Bard现已支持中文智能问答,相比chatgpt功能丰富且免费

Google Bard是谷歌人工智能(AI)推出的一款大型语言模型,现已支持进行中文问答。它使用了谷歌搜索的大量数据集进行训练,能够理解和回答中文问题,并生成高质量的文字内容。 Google Bard可以用来做什么 Google Bard可以…

ChatGPT最强入门科普:带你进入AI时代【小白必读】

我们正处在一个科技革新的时代,人工智能已经并将继续深深地影响我们的生活、工作,甚至是思考方式。ChatGPT 作为这个领域的先驱,不仅代表了当前的技术发展水平,更预示着未来可能的发展趋势。大家好,我是AI探索者Kevin&…