大数据与AI的16个实践分享

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习,不错过

 Datawhale活动 

主办方:DataFun,指导单位:北京智源研究院

文章作者:Hoh Xil

出品平台:DataFunTalk

导读:12.19-209:00-18:00,DataFunTalk 年终大会来啦!本次大会将全程在线直播,将有90位大数据、算法专家,参与本届大会分享。感兴趣的小伙伴快来看看吧:

01

基本信息

大会名称:DataFunTalk 年终 · 大会

指导单位:北京智源人工智能研究院

活动主办:DataFunTalk、apollo | 开发者社区、人民邮电出版社 | 异步社区

钻石赞助:开课吧

白金赞助:爱奇艺、网易易数、Tubi

合作媒体:赛氪

合作社区:Datawhale、OpenKG

合作伙伴:腾讯、阿里巴巴达摩院、华为诺亚方舟实验室、360人工智能研究院、微信AI、陌陌、网易严选、腾讯大数据、有赞、火山翻译

大会时间:12月19-20日,9:00-18:00

大会形式:在线直播

参与方式:

识别二维码,免费报名

02

专题论坛及日程

论坛名称
Apollo 自动驾驶技术论坛
论坛时间
12月19日,09:00-17:10
论坛出品apollo | 开发者社区
分享时间
分享内容
09:00-09:40

Apollo 规划模块算法解析

百度高级研发工程师

傅轶群

09:45-10:25

视觉感知技术在 Apollo 平台的应用

百度高级研发工程师

张笑

10:30-11:10

Apollo 激光雷达感知技术解析

百度高级研发工程师

陈嘉豪

11:15-12:00

Apollo 高精定位技术解析

百度资深工程师

周尧

12:00-13:30

午休

13:30-14:10

ACU:软硬一体的量产方案

百度智能汽车首席架构师

王阳

14:15-14:55

L4 自动驾驶的低成本落地之路

惠尔智能 CEO

常宇飞



论坛名称
推荐算法论坛
论坛时间
12月19日,09:00-17:10
论坛出品朱小强 阿里妈妈 资深算法专家
上半场核心技术的最新进展
分享时间
分享内容
09:00-09:40

BSAT:阿里基于深度树匹配的召回技术演进

阿里妈妈算法专家
卓靖炜

09:45-10:25

粗排技术体系与最新进展

阿里妈妈算法专家
王哲

10:30-11:10

EdgeRec:边缘计算在推荐系统中的应用

阿里巴巴算法专家
龚禹

11:15-12:00

算力效能技术体系与最新进展

阿里妈妈算法专家
姜碧野 博士

下半场工业级端到端业务实战经验
分享时间
分享内容
13:30-14:10多目标排序在快手短视频推荐中的实践
快手推荐算法技术总监
郑东 博士
14:15-14:55排序模型在淘宝直播的迭代演进与应用
阿里巴巴算法专家
纪志辉
15:00-15:40多业务融合推荐场景下的深度学习实践
58同城高级架构师
罗景
15:45-16:25跨场景酒店推荐实践
阿里飞猪高级算法专家
瑜亮
16:30-17:10模型化召回在陌陌社交推荐的应用和探索
陌陌高级算法专家
吴保鑫 博士


论坛名称
知识图谱论坛
论坛时间
12月19日,09:00-12:00
论坛出品张伟 阿里巴巴 资深算法专家
分享时间
分享内容
09:00-09:40百度知识图谱技术及应用
百度资深研发工程师
王泉 博士
09:45-10:25云小蜜知识图谱低成本构建及问答技术
阿里巴巴算法专家
唐呈光
10:30-11:10美团大脑-新零售商品知识图谱的构建及应用
美团技术专家
曹雪智 博士
11:15-12:00基于事理图谱的智能培训
贝壳找房高级技术经理
孙拔群


论坛名称
风控安全论坛
论坛时间
12月19日,09:00-12:00
论坛出品鞠奇 腾讯 TEG 总监
分享时间
分享内容
09:00-09:40网约车准入AI产品安全实践
滴滴出行业务安全算法负责人
张天明
09:45-10:25基于细粒度识别的图像内容风控实践
腾讯高级研究员
陈宸 博士
10:30-11:10基于知识表征的文本内容风控实践
阅文集团内容理解负责人
马宇峰
11:15-12:00模型可解释性在保险理赔反欺诈中的实践
中国人寿算法工程师
张洪涛


论坛名称
大数据架构论坛
论坛时间
12月19日,09:00-12:40
论坛出品邵赛赛 腾讯 数据湖研发负责人
分享时间
分享内容
09:00-09:40如何让Ozone成为HDFS的下一代分布式存储系统
腾讯高级工程师
毛宝龙
09:45-10:25Data Quality Architecture at Tubi
Tubi ( 比图科技 ) Senior Data Engineer
沈达
10:30-11:10结构化大数据链路在车好多的实践
车好多大数据负责人
汪涉洋
11:15-11:55基于Apache Hudi构建数据湖上低延迟CDC的实践
T3出行大数据平台负责人/资深大数据工程师
杨华/刘金辉
12:00-12:40基于滴滴开源Kafka-Manager打造专业易用的Kafka服务体系
滴滴出行高级专家工程师
张亮


论坛名称
用户增长论坛
论坛时间
12月19日,09:00-12:00
论坛出品魏文庆 网易严选 数据技术及产品部总监
分享时间
分享内容
09:00-09:40京东用户增长的道与术
京东技术总监
周默
09:45-10:25数据技术驱动全渠道用户触达
网易严选营销数据线技术负责人
邢军
10:30-11:10有赞数据驱动增长体系的建设
有赞数据开发专家
曾斌
11:15-12:00

基于Doris构建的小程序私域流量增长引擎

百度资深研发工程师

赵煜杨



论坛名称
自然语言处理论坛
论坛时间
12月19日,13:30-18:00
论坛出品

刘群 华为诺亚方舟实验室 语音语义首席科学家

分享时间
分享内容
13:30-14:10火山翻译:工业级应用与研究
字节跳动算法科学家、团队负责人
王明轩 博士
14:15-14:55阿里多语言翻译模型的前沿探索及技术实践
阿里巴巴达摩院算法专家

张志锐 博士

15:00-15:40微信 AI 在 NLP 方向的业务实践与前沿探索
腾讯-微信对话系统自然语言理解技术负责人
张金超 博士
15:45-16:25机器翻译在小米的技术实践和落地应用
小米人工智能部高级软件工程师
李响 博士
16:30-17:10LightSeq:高性能NLP序列推理实践
字节跳动NLP算法工程师
王晓晖
17:15-18:00

细粒度文本情感分析及其应用
华为云自然语言处理算法专家
李明磊 博士



论坛名称
数据仓库论坛
论坛时间
12月19日,13:30-17:10
论坛出品

金晓烨 陌陌 数据基础架构总监

分享时间
分享内容
13:30-14:10

滴滴数据仓库指标体系建设实践

滴滴数仓高级专家

曹雷
14:15-14:55大数据治理优化在陌陌的探索与实践
陌陌数据仓库工程师
刘志祖
15:00-15:40贝壳基于Druid的OLAP引擎应用实践
贝壳找房资深研发工程师
王啸
15:45-16:25金融资管数据中台体系在熵简科技的探索与实践
熵简科技技术合伙人
金晨
16:30-17:10ClickHouse在海量数据分析场景下的应用实践
阿里云数据库资深技术专家
魏闯先


论坛名称
数据产品论坛
论坛时间
12月19日,13:30-17:10
论坛出品

武磊 京东 数据中台总监

分享时间
分享内容
13:30-14:10数据驱动消费者精细化运营产品和生态
京东产品总监
王成栋
14:15-14:55AI 手机产品化的实践与思考
vivo算法专家
邵浩 博士
15:00-15:40“转变”贝壳找房数据平台演变之路
贝壳找房大数据产品负责人
张勍
15:45-16:25全链路市场投放的数据产品策略
网易严选用户数据产品负责人
宋腾辉
16:30-17:10内容策略应用,助力电商智能化运营
京东数据产品架构师
焦文健


论坛名称
广告算法论坛
论坛时间
12月20日,09:00-12:00
论坛出品

孔东营 快手 商业化模型组负责人

分享时间
分享内容
09:00-09:40阿里妈妈定向广告智能投放体系和技术
阿里妈妈算法专家
靳骏奇 博士
09:45-10:25短视频场景下信息流广告的挑战和技术
快手广告算法专家
舒承椿 博士
10:30-11:10大规模图算法在京东广告的实践
京东算法工程师
张泽华
11:15-12:00基于因果推断的飞猪搜索广告预算分配
阿里飞猪算法专家
观宙


论坛名称
大数据应用论坛
论坛时间
12月20日,09:00-12:40
论坛出品

孙斌 爱奇艺 副总裁

分享时间
分享内容
09:00-09:40基于大数据技术构建爱奇艺全链路监控平台
爱奇艺数据库和中间件负责人
郭磊涛
09:45-10:25数据湖的初步探索与实践落地
bilibili实时平台负责人
郑志升
10:30-11:10爱奇艺数据中台的建设实践
爱奇艺数据中台负责人
马金韬
11:15-11:55Impala 3.4在网易的优化实践
网易资深大数据开发工程师
汪胜
12:00-12:40

Doris在小米数据中台中的实践

小米高级软件工程师

姚青林



论坛名称
计算机视觉论坛
论坛时间
12月20日,09:00-12:40
论坛出品

邓亚峰 360集团 副总裁,人工智能研究院&搜索事业部负责人

分享时间
分享内容
09:00-09:40视频理解技术在百度的应用
百度视频理解技术负责人,百度智慧城市主任架构师
文石磊
09:45-10:25计算机视觉中的自监督学习与注意力建模
微软亚洲研究院研究员
胡瀚 博士
10:30-11:10一种面向自然场景下的低质文本识别方法
ImageDT高级算法工程师
杨辉
11:15-11:55边缘计算时代下的计算机视觉技术落地实践
地平线主任工程师
武锐 博士
12:00-12:40多媒体内容理解在美图社区的应用实践
美图资深视觉算法工程师
付超


论坛名称
搜索算法论坛
论坛时间
12月20日,09:00-12:00
论坛出品

徐夙龙 京东 高级算法总监

分享时间
分享内容
09:00-09:405G+智能时代的多模搜索技术
百度资深研发工程师,百度多模搜索策略负责人
李国洪
09:45-10:25京东电商场景下的语义检索
京东搜索算法总监
王松林
10:30-11:10旅行场景下搜索技术应用与创新
阿里飞猪算法专家
林睿
11:15-12:00搜狗搜索精准问答技术研究与应用
搜狗搜索问答算法总监
姚婷


论坛名称
机器学习平台论坛
论坛时间
12月20日,09:00-12:40
论坛出品

朱小坤 京东 九数算法平台负责人

分享时间
分享内容
09:00-09:40vGPU应用机器学习平台
小米人工智能软件工程师
纪少敏
09:45-10:25九数算法平台探索与创新实践
京东算法工程师
牛文杰
10:30-11:10旷视Brain++平台训练数据供给系统的架构和设计
旷视科技高级研发工程师
杨阳
11:15-11:55京东超大规模联邦学习平台 ( 9N-FL )在电商营销领域的实践
京东资深算法专家
杜宝坤
12:00-12:4058深度学习平台在提高模型推理性能和 GPU 使用率上的实践
58同城 AI Lab 架构师
陈兴振


论坛名称
对话智能论坛
论坛时间
12月20日,13:30-17:10
论坛出品

李永彬 阿里巴巴达摩院 资深算法专家

分享时间
分享内容
13:30-14:10预训练模型真的理解语言吗?
清华大学计算机科学与技术系长聘副教授
黄民烈 博士
14:15-14:55达摩院对话式AI的研究进展及应用
阿里巴巴达摩院资深算法专家
李永彬
15:00-15:40DuerOS中的人机交互算法实践
百度主任架构师,小度算法团队技术负责人
谢剑
15:45-16:25Knowledge-Grounded Open Domain Dialogue Generation
美团AI平台NLP中心负责人
武威 博士
16:30-17:10知识指导的预训练语言模型
清华大学计算机系副教授、博士生导师
刘知远 博士


论坛名称
数据治理论坛
论坛时间
12月20日,13:30-17:10
论坛出品

任长延 字节跳动 数据BP/数据治理负责人

分享时间
分享内容
13:30-14:10美团酒旅数据治理实践
美团技术专家
李建舒
14:15-14:55字节跳动数据治理之产品驱动自治
字节跳动大数据产品经理
夏志豪
15:00-15:40网易严选数据任务治理实践
网易数据架构师
范中喜
15:45-16:25滴滴大数据治理实践
滴滴出行技术专家,滴滴大数据资产管理负责人
王丰金
16:30-17:10有赞数据治理之提质降本
有赞数据治理负责人
刘建锋

识别二维码,免费报名

03

出品人及学术指导

04

详细介绍

Apollo 自动驾驶技术论坛

分享嘉宾:

傅轶群

百度 | 高级研发工程师

演讲者简介: 傅轶群,百度高级研发工程师,2017年加入百度,从事Apollo决策规划模块的研发工作。

演讲议题:Apollo 规划模块算法解析

演讲议题介绍:规划模块作为无人车系统的核心模块之一,在无人车行驶过程中为车辆做出实时路径规划和决策。由于车辆可能处于复杂环境中,车身周围的障碍物和红绿灯等都会影响车辆的决策,而车辆本身又受到转弯半径、加减速极限等因素影响,在这些限制条件下,车辆需要实时计算出一个可行驶的轨迹,同时保持轨迹和行驶速度相对顺滑。可以说,规划模块是无人车的“大脑”,告诉车辆下一步怎么走。

在百度Apollo自动驾驶开源平台中,规划模块从感知、定位等模块拿到障碍物信息和位置信息,结合地图给出可行驶轨迹和行驶速度。在这次分享中,我们将讨论规划模块的主要功能和实现方案:

1. 基于场景分类、规则和算法的调用框架

2. 基于Frenet Frame的解耦合的路径和速度规划

3. 基于规则的路径和速度决策

4. 基于数值优化的路径和速度轨迹生成


张笑

百度 | 高级研发工程师

演讲者简介: 张笑,百度高级研发工程师,从事百度Apollo开源平台感知方向的算法研发工作。

演讲议题:视觉感知技术在 Apollo 平台的应用

演讲议题介绍:摄像头作为无人车系统中最重要的传感器之一,因为其信息丰富、观测距离远等特点,在障碍物检测和红绿灯检测等方向发挥着不可替代的作用,是对激光雷达感知结果的重要补充。但摄像头有着容易受环境影响、缺乏深度信息等缺点,给无人驾驶系统中的视觉感知算法带来了巨大的挑战。因此,如何建立一套高精确率和高稳定性的视觉感知算法,是无人车感知模块的核心问题。在这次分享中,我们将讨论:

1. Apollo视觉感知算法模块

2. 红绿灯检测算法

3. 车道线检测算法

4. 基于单目相机的障碍物检测


陈嘉豪

百度 | 高级研发工程师

演讲者简介:陈嘉豪,百度高级研发工程师,2020年加入百度,从事百度 Apollo 开源平台感知方向的算法研发工作。

演讲议题:Apollo 激光雷达感知技术解析

演讲议题介绍:感知模块是无人驾驶系统的核心模块之一。感知模块作为自动驾驶流程的信息接收者,是自动驾驶车辆的“眼睛”,负责根据从相机、激光雷达、毫米波雷达等传感器接收的周围环境原始数据识别出障碍物、红绿灯、指示牌等的类别、位置或指示信息,传递给下游作为分析材料,可以说,感知算法的优劣直接决定了自动驾驶系统是否准确可信。

在百度 Apollo 自动驾驶开源平台中,感知模块主要依赖主传感器即激光雷达 ( Lidar ),而Apollo激光雷达感知过程则是独立的,只将原始点云数据输入给模型,识别出障碍物的类别和位置,不依赖于其他视觉传感器。

在这次分享中,我们将讨论:

1、Apollo 激光雷达感知模块

2、基于PointPillars的激光雷达点云检测算法

3、PointPillars模型的部署和优化


周尧

百度 | 资深工程师

演讲者简介:周尧,百度资深工程师,有多年三维视觉方向的研发经验。2017年加入百度,从事无人驾驶高精定位建图方向的研发工作。

演讲议题:Apollo 高精定位技术解析

演讲议题介绍:高精定位模块作为无人车系统的模块之一,在无人车行驶过程中实时提供车辆运动状态以及车辆在高精地图中的位置信息。定位模块输出精确结果对于后续感知和控制决策模块的正常工作非常重要,因此该模块需要高度的可靠性。无人驾驶车辆可能处于复杂环境中,在天气变化、季节变化、道路拥堵等各种外部干扰下,如何实现稳定的高精度定位是一个富有挑战的任务。

在百度Apollo自动驾驶开源平台中,我们提供了多传感器融合的高精定位模块,基于多个相对独立的定位子模块融合出最终定位结果,有效提高了高精定位模块的稳定性。在本地分享中,我们将讨论高精定位模块的主要功能和实现方案:

1. 定位模块在自动驾驶系统中的作用

2. 多传感融合定位方案的介绍

3. 惯性导航、LiDAR等定位子模块的方案介绍

4. 基于视觉的定位子模块探索


王阳

百度智能汽车 | 首席架构师

演讲者简介:王阳,清华大学电子工程系学士,北京大学智能科学系硕士。先后在芯片、高铁、智能硬件等多个领域从事研发和管理工作。2016年起在百度战略规划管理-技术部负责自动驾驶的总体架构规划,2017年起至今在百度智能汽车事业部任ACU(Apollo Computing Unit)首席架构师,负责自动驾驶产品的量产落地工作。

演讲议题 | ACU:软硬一体的量产方案

演讲议题介绍:量产的自动驾驶方案,是算法、基础软件和硬件的完美合唱。算法需要在异构计算单元上充分的重构和优化,才能实现运行于有成本竞争力的硬件之上;软件开发要和整车体系架构、其它控制器单元相配合;基于Autosar Classic和Linux/QNX平台的不同研发人员要彼此理解、协同配合;安全不是某个单模块去保障整体的“灵丹妙药”,而要成为总体架构、全面的影响总体研发过程。在本次分享中,我们将讨论如下的主题:

1. 自动驾驶的量产拼图

2. 算力评估和计算优化

3. 整车研发流程:传统ECU要做什么

4. 底软环境和通信中间件

5. 功能安全


常宇飞

惠尔智能 | CEO

演讲者简介:常宇飞,剑桥大学纳米技术研究生、帝国理工学院材料学本科。曾在某大厂主导开发自动驾驶语音和车机投射产品,后续创立惠尔智能,L4全栈开发公司。主导开发前融合L4一体化无人出租车套装。

演讲议题:L4 自动驾驶的低成本落地之路

演讲议题介绍:通过运用Apollo开放平台的开放性和惠尔智能在各个模块的自研能力,二者相结合。使得L4级无人出租车和L4无人物流车实现了低成本且易于大规模推广。

推荐算法论坛

出品人:

朱小强

阿里妈妈 | 资深算法专家

上半场:核心技术的最新进展

卓靖炜

阿里妈妈 | 算法专家

演讲者简介: 卓靖炜,花名靖炜,阿里巴巴广告产品技术事业部定向技术团队成员,主要负责商品/广告推荐算法匹配(Matching)相关工作,在IJCAI, ACL, ICML等会议上发表论文多篇。

演讲议题:BSAT——阿里基于深度树匹配的召回技术演进

演讲议题介绍:介绍TDM这一阿里定向团队自主研发的召回通用模型框架,围绕着我们发表在ICML 2020的最新工作,分享我们近一年在这个方向上的思考、探索及业务落地经验。

听众收益:我们通过分享TDM在前沿技术探索&业务应用实践的经验与思考,希望能让听众获得一些新的启发。

新技术/实用技术点:解决树全库检索模型在训练与检索不一致的问题

王哲

阿里妈妈 | 算法专家

演讲者简介: 中国科学技术大学计算机硕士,擅长自然语言理解,深度学习,个性化推荐等。曾在蚂蚁金服负责跨境游推荐;现负责阿里妈妈定向广告粗排及前后链路联动的相关工作。

演讲议题:粗排技术体系与最新进展

演讲议题介绍:结合阿里妈妈定向广告业务,介绍粗排的技术体系演进和最新进展

听众收益:了解粗排最新进展

新技术/实用技术点:新一代粗排COLD

龚禹

阿里巴巴 | 算法专家

演讲者简介: 龚禹 ( 花名:凛至 ),2017年硕士毕业于上海交通大学,现任阿里巴巴搜索推荐事业部算法专家,曾在SIGIR、KDD、AAAI等发表多篇论文,其中IRGAN曾获SIGIR2017最佳论文提名。研究方向包括了推荐系统与自然语言处理等,目前专注于边缘计算与推荐系统的结合,主导的EdgeRec系统已经在手淘推荐场景大规模落地。

演讲议题:EdgeRec——边缘计算在推荐系统中的应用

演讲议题介绍:端上推荐系统(EdgeRec)首次在手淘信息流推荐中大规模使用端上AI技术, 在客户端实现了对用户行为的实时感知,应用深度神经网络进行用户意图识别,并根据识别结果进行智能决策,做到推荐内容的实时更新,大幅提升个性化推荐效果和用户体验。本次演讲会带大家了解EdgeRec从0到1的发展路程、技术细节和未来的发展方向。

新技术/实用技术点:

边缘计算、重排序、推荐系统架构创新

姜碧野

阿里妈妈 | 算法专家

演讲者简介: 碧野本科就读于清华大学计算机系,博士毕业于加州大学伯克利分校, 机器学习方向,目前就职于阿里巴巴定向广告团队,专注于广告系统的算力效能优化。曾参与举办icmlviz深度学习可视化,dlp-kdd高维稀疏数据的深度学习workshop。

演讲议题:算力效能技术体系与最新进展

演讲议题介绍:众所周知,深度学习给互联网商业场景带来了巨大的效果收益,但同时也带来了巨大的算力需求。随着模型复杂度的提升,算力供给和算力需求间的鸿沟也越来越大。本次演讲将会介绍定向广告在算力效能优化方面的相关工作,包括算法-工程co-design的模型预估优化,效能迭代方法论,全链路动态算力分配等内容。

下半场:工业级端到端业务实战经验

郑东

快手 | 推荐算法技术总监

演讲者简介: 2012年博士毕业于清华大学,2017年加入快手做发现页的短视频推荐优化,完整经历了快手短视频排序模型LR到DNN再到复杂多目标学习的演进, 和排序机制从简单公式排序到多层次模型排序和自动调参的完整过程。加入快手前曾在美团做搜索广告算法的优化工作。

演讲议题:多目标排序在快手短视频推荐中的实践

演讲议题介绍:快手的短视频推荐需要兼顾点击、播放时长、VV、互动、负反馈、上传等很多目标,本次演讲介绍多目标学习、多目标排序在快手短视频推荐中的实践。

听众收益:了解多目标学习和多目标排序在短视频推荐领域的实践,学习新技术与真实复杂业务场景结合的第一手资料。

新技术/实用技术点:Multi-Task Learning、Ensemble Sort、Learn to Rank,在线自动调参、强化学习Rerank,端上Rerank等

纪志辉

阿里巴巴 | 算法专家

演讲者简介: 纪志辉,毕业于中科院计算所,阿里巴巴算法专家,目前负责淘宝直播的推荐算法相关工作。

演讲议题:排序模型在淘宝直播的迭代演进与应用

演讲议题介绍:淘宝直播近两年在排序模型上进行了持续的迭代优化和演进落地,在多目标学习、跨场景迁移、召回匹配、大促gmv优化上都有比较成功的应用实践,此外在全屏页上下滑场景上也有自己独特的建模思路和方案。

听众收益:议题所讲内容都是在淘宝直播业务上实践落地的算法,比如多目标学习、多场景迁移、电商大促gmv优化等,我们的建模思路和实现方案都是简单易懂易用又带有一点新颖性,希望可以给听众带来一些在推荐算法实践应用中的建模方法和思路

新技术/实用技术点:DBMTL多目标学习、多场景多任务学习、Deep Match&Rank

罗景

58同城 | 高级架构师

演讲者简介: 58同城TEG推荐技术团队负责人/高级算法架构师。TEG推荐技术团队以提升连接效率/打磨关键技术能力/服务业务产品为团队愿景,在工程架构/模型算法/产品形态上持续迭代升级。目前,排序模型上,基于序列化模型组件等构建了适配58业务特点的多通道深度模型架构,成为了主要场景的主流线上模型,仍在进一步结合业务探索新模型架构/强化学习/迁移学习等的落地应用,期待和大家进一步探讨交流。

演讲议题:多业务融合推荐场景下的深度学习实践

演讲议题介绍:首页猜你喜欢是典型的多业务融合推荐场景,物料属性/用户兴趣/反馈统计等常用特征存在对齐困难,特征工程代价相比单业务推荐显著增加,无论是传统模型还是深度模型,优化难度大,天花板低。针对这一挑战,在借鉴业界序列化模型组件的基础上,逐步形成了适配业务特点的1+N多通道模型架构,1代表定制化通道,通过预训练的各种向量化表示,允许工程师基于对业务的理解,结合场景特点进行各种形式的交叉定制,N代表基于用户搜索/点击/转化等多种行为序列,构建的用户深度兴趣表征。该模型架构以用户行为序列作为核心输入,显著降低了特征工程代价,效果相比XGB/DeepFM等模型实现了显著提升,同时灵活性上,定制化通道提供了模型工程的定制可能以及行为序列针对不同场景的适配能力。

听众收益:

  • 针对多业务融合场景,如何构建多通道深度学习模型

  • 多通道深度学习模型如何在不同的场景下适配

  • 新技术/实用技术点:多通道深度学习模型

瑜亮

阿里飞猪 | 高级算法专家

演讲者简介: 2017年加入飞猪技术部,目前负责酒店导购算法团队,建立了飞猪酒店导购全链路的推荐场景,同时结合酒店的行业特性,提出了时空特色的酒店召回框架,并在此基础上构建了基于用户意图的酒店全域Rank体系。

讲议题:飞猪推荐算法——跨场景酒店推荐实践

演讲议题介绍:不同于内容推荐以及传统的实物电商推荐,旅行行业的用户行为相对稀疏,同时旅行行业又具有季节性、周期性,导致传统的推荐系统召回类型如I2I无法满足用户需要,因此可以尝试通过对酒店的用户进行简单的人群划分,再结合用户的LBS以及时空因素进行推荐。另一方面,推荐场景间的割裂,往往导致用户无法获得连贯性的用户体验,因此在Rank环节需要对多推荐场景进行统一建模,充分学习场景的共性,并根据用户的真实意图,进行差异化的推荐。

演讲提纲

1. 在线旅行行业用户分析

2. 飞猪酒店导购全链路推荐场景的构建

3. 具有时空特色的酒店召回框架

4. 基于用户意图的酒店全域Rank体系

5. 思考及展望

听众收益:

  • 在旅行场景中,推荐算法的难点与应对

  • 如何深度贴合业务,构建不同的算法模型

新技术/实用技术点:

  • 基于LSTNet的时空特色召回技术

  • 酒店全域意图感知模型的构建

吴保鑫

陌陌科技 | 高级算法专家

演讲者简介: 吴保鑫,2015年中科院自动化所博士毕业。2015年-2019年期间,搜狗商业广告算法研究员,负责垂类搜索广告、输入流广告的系统构建和策略研发,主要工作包括搜索场景和聊天场景的商业意图理解、广告物料的高层表征建模、广告检索系统的优化升级等。2019年6月入职陌陌科技,负责社交推荐场景用户理解和召回策略的研发工作。从0到1的构建社交推荐的模型化召回体系,多维度把握用户的社交兴趣偏好,提高平台社交匹配效率;构建基于多模态表征学习的内容理解体系和刻画用户圈层的用户画像体系,为社交推荐策略提供底层技术支撑。

演讲议题:模型化召回在陌陌社交推荐的应用和探索

演讲议题介绍:在陌陌的社交推荐体系中,模型化Recall在召回模块中起到了决定性作用。本次演讲主要介绍模型化Recall在陌陌社交推荐中的技术探索和具体落地应用,重点介绍基于用户行为驱动和社交关系网络的个性化召回通道的构建方式、用户实时性兴趣偏好的捕获方法及如何提高分发场景中用户之间社交匹配性。

听众收益:了解陌陌在以陌生人为主体的社交推荐领域召回侧的技术落地方案及最新技术探索;了解模型化召回的基本技术框架和实现方式;了解如何基于表征学习提高社交场景中陌生用户之间匹配关系。

新技术/实用技术点:基于Ann检索的向量化召回框架;基于用户行为驱动的深度匹配模型召回技术;基于社交关系的用户图表征建模技术;多模特动态内容语义表征建模技术。

知识图谱论坛

出品人:

张伟

阿里巴巴 | 资深算法专家

分享嘉宾:

王泉 博士

百度 | 资深研发工程师

演讲者简介:资深研发工程师,负责百度知识图谱前瞻技术研究。2018年加入百度,先后在自然语言处理和知识图谱部从事技术研发工作。其长期研究方向包括知识的自动获取、表示和推理等关键技术及其在自然语言理解与生成中的应用。迄今在SIGIR、WSDM、ACL、EMNLP、NAACL、IJCAI、AAAI、IEEE TKDE、ACM TOIS等权威会议期刊上发表近30篇重要学术论文,Google Scholar引用1600余次。曾获CCKS 2020医疗事件抽取、MRQA 2019问答阅读理解、WSDM Cup 2017事实校验、CCKS 2016链接预测等多项国内外技术评测冠军。

演讲议题:百度知识图谱技术及应用

演讲议题介绍:知识图谱是让机器像人类一样理解客观世界的基石。本次报告首先简要介绍知识图谱在百度的位置及整体的发展概况。接下来从通用知识图谱和行业知识图谱两个分支重点介绍百度知识图谱技术及应用的最新进展,另外会介绍两个特殊的知识图谱——事件图谱和视频理解图谱。最后介绍百度知识图谱在技术和数据开放方面的工作。

听众收益:了解百度知识图谱技术全貌及其在百度产品中的应用

新技术/实用技术点:图谱构建、图谱表示、图谱应用、事件图谱、视频理解图谱、行业图谱

唐呈光

阿里巴巴 | 算法专家

演讲者简介:阿里巴巴算法专家,2017年初加入阿里巴巴,云小蜜KBQA方向算法负责人,主要负责知识图谱构建、知识图谱问答以及图谱动态自适应能力的算法研发,致力于解决智能服务领域人机对话在冷启动、复杂语义理解和上线运营遇到的技术难题,并落地到ToB真实业务场景中。

演讲议题:云小蜜知识图谱低成本构建及问答技术

演讲议题介绍:云小蜜已应用于电信运营商、数字政府、金融等领域,为政府、企业和组织提供了一套完整的智能客服解决方案。小蜜通过构建行业知识图谱,提升语义理解、推理计算和高效复用的业务效果,推动智能客服产品升级,从而带来更好的用户体验。在实际业务中,行业图谱的构建已经成为制约图谱大规模应用的关键痛点,为了解决该问题,云小蜜提出了一套低成本图谱构建方案,提升了项目的交付效率;在应用方面,不断扩展KBQA能力边界,提升知识图谱整体的技术竞争力及业务价值。

听众收益:

1. 低成本知识图谱构建;

2. KBQA核心算法;

3. 工业界图谱落地最佳实践;

曹雪智 博士

美团 | 技术专家

演讲者简介:曹雪智博士于2018年7月加入美团点评,担任AI平台NLP中心的研究员。目前主要负责美团大脑中商品知识图谱的构建与应用,实现对商品相关内容的更加立体化、智能化、常识化的理解,赋能美团点评的外卖、商超、生鲜等多个业务线。在此之前,曹雪智博士毕业于上海交通大学,在个性化推荐系统、在线社交网络等方向上开展研究工作,并在相关领域的顶级会议和期刊上以第一作者发表10余篇论文,如WWW, SIGIR, AAAI, CIKM, RecSys等。除此之外,曹雪智博士也曾多次在ACM-ICPC竞赛中取得金牌,并在数据挖掘竞赛KDD Cup中夺得冠军。

演讲议题:美团大脑 - 新零售商品知识图谱的构建及应用

演讲议题介绍:在互联网新零售的大背景下,商品知识图谱作为零售行业数字化的基石,提供了对于商品相关内容的立体化、智能化、常识化的理解,对上层业务的落地起到了至关重要的作用。相比于传统知识图谱而言,在新零售背景下的商品知识图谱需要应对更加分散、复杂的数据和业务场景,而这些不同的业务对于底层知识图谱都提出了各自不同的需求和挑战。美团点评作为互联网行业中新零售的典型代表,覆盖了包括外卖、商超、生鲜、药品等在内的多个新零售领域,在相关的知识图谱方面进行了探索。在这次分享中,将会由美团大脑中商品知识图谱的负责人曹雪智博士来对美团新零售背景下商品知识图谱的构建和应用进行介绍。

听众收益:本次分享会介绍美团在商品知识图谱的构建和应用方面的工作,正在或希望从事知识图谱领域的听众可以从分享中了解真实的案例和相关的技术。

新技术/实用技术点:利用自然语言等算法来提高知识图谱的构建人效;知识图谱在互联网新零售中的各个应用场景。

孙拔群 

贝壳找房 | 高级技术经理

演讲者简介: 毕业于哈尔滨工业大学,曾就职于腾讯、搜狗、微博等大型互联网公司以及创业公司,2018年加入贝壳主持建设贝壳房产知识体系,通过数据引入、知识加工,建立了有贝壳特色的行业知识图谱。同时,通过知识对业务赋能,支撑贝壳知识型业务,作为公司主打智能化产品—小贝助手智能培训方向负责人,专注于提升经纪人专业技能,打造培训评价平台。

演讲议题:基于事理图谱的智能培训

演讲议题介绍:如房产、汽车、保险、客服等强调人与人交互,重视话术、知识等作业规范的行业,标准的培训评价是强诉求。贝壳找房基于事理图谱及对话技术,实现了智能培训应用,让经纪人可以通过人机对练,熟悉需掌握的标准作业流程,获取专业、一致的作业评价。同时,我们也沉淀了培训评价平台,可以支持作业之外的类似需求快速接入,如招聘等,甚至已成为部分岗位的定级标准。

听众收益:了解如何快速实现一套人机智能培训解决方案,获得深交互规则问题解读的基本方法。

新技术/实用技术点:事理图谱,智能对话,SOP挖掘

风控安全论坛

出品人:

鞠奇

腾讯TEG | 总监

分享嘉宾:

张天明

滴滴出行 | 业务安全算法负责人

演讲者简介:现任滴滴高级算法专家,业务安全算法负责人。专注于人脸识别、车辆识别、OCR、活体检测、机器审核等方面AI产品技术,保障滴滴出行安全中的人车一致、证件合规。毕业于清华大学自动化系,在图像和风控方面有多年实践经验,有多项国内外算法专利。

演讲议题:网约车准入AI产品安全实践

陈宸

腾讯 | 高级研究员

演讲者简介: 本科毕业于上海交通大学电子工程系,博士毕业于香港科技大学电子及计算机工程系,旋即加入腾讯任高级研究员。博士期间主要研究下一代视频编码标准,low-level图像处理,深度学习在图像处理中的应用等方向。发表十余篇顶级期刊会议,3篇美国专利并提案至下一代视频编码标准组。工作期间主要从事计算机视觉算法的研究和应用,主要方向为图像描述,目标检测,细粒度分类,图像视频动作识别,人体姿态识别等视觉基础算法;以及半监督学习,无监督学习,主动学习等机器学习在AI中的应用。三年工作期间发表多篇AI领域顶会论文,投稿多篇国际专利在审。

演讲议题:基于细粒度识别的图像内容风控实践

演讲议题介绍:海量数据、UGC(用户生成内容)场景、大量对抗下的图片视频色情识别方案

听众收益:

1. 了解海量数据场景下的标签分类体系和分类检测多任务训练方法;

2. 了解细粒度识别算法在色情识别上的应用;

3. 了解对抗场景下低质量图片视频的识别算法;

新技术/实用技术点:

1. Multi-task learning和CPU上快速网络的设计和训练方法

2. 细粒度识别算法

3. 静态图像、视频动作识别

4. 强化学习在图像识别中的应用

5. 低质量图像视频的识别算法

马宇峰

阅文集团 | 内容理解负责人

演讲者简介:阅文集团资深算法专家,内容理解负责人,前百度知识图谱研发工程师,专注于内容理解、知识图谱、自然语言处理等技术方向。

演讲议题:基于知识表征的文本内容风控实践

张洪涛

中国人寿 | 算法工程师

演讲者简介: 张洪涛,中国人寿保险股份有限公司,研发中心,算法工程师。从事人工智能算法在核保、调查、理赔等保险风控领域的应用研究。

演讲议题:模型可解释性在保险理赔反欺诈中的应用实践

演讲议题介绍:当前各种智能预测模型在风控各类场景中广泛使用,但在模型推广应用过程中发现,由于智能模型自身黑盒属性导致模型的预测结果难以解释。然而,在风控安全等对较为严谨的业务场景中,模型解释性的缺失导致预测结果的可信度降低,进而严重影响预测结果在特定业务场景中的应用效果。本题目分享模型可解释性在理赔反欺诈场景中的应用实践。

听众收益:了解模型解释性相关方法,理赔反欺诈预测模型可解释性应用方案。

 新技术/实用技术点:模型可解释性在风控场景中的应用。

大数据架构论坛

出品人:

邵赛赛

腾讯 | 数据湖研发负责人

出品人简介: 邵赛赛,腾讯大数据专家,数据湖研发负责人,Apache社区member,Spark及Livy项目PMC

分享嘉宾:

毛宝龙

腾讯 | 高级工程师

演讲者简介: 毛宝龙,来自腾讯数据湖团队,目前专注于开发Ozone,以及Alluxio在腾讯的落地和应用工作。是Ozone开源社区的committer 和 Alluxio 社区的 PMC 成员。

演讲议题:如何让Ozone成为HDFS的下一代分布式存储系统

演讲议题介绍:Ozone是当前Apache Hadoop生态圈的一款新的对象存储系统,OZone与HDFS有着很深的关系,在设计上,很多地方也参考了HDFS,并对HDFS存在的不足做了很多改进。很多公司看重的不是Ozone的对象存储能力,而是Ozone标榜自己是HDFS的下一代的目标。我们抓住了这一点,并做出了比社区Ozone Filesystem 方案更彻底的 HDFS on Ozone架构设计和实现,并取得了阶段性成绩。

听众收益:

· 了解Ozone是什么,与HDFS、S3的关系和区别

· 了解HDFS on Ozone方案相比HDFS 和 Ozone的优势

· 了解提升HDFS吞吐和元数据扩展性的方法

新技术/实用技术点:

· Ozone和Hadoop Distributed Data Store (HDDS) 的架构

· Hadoop compatible filesystem的HDDS实现

· 利用细粒度锁实现更高的服务吞吐能力

· 分层级管理元数据实现元数据无限扩展

· 基于RATIS的NameNode的HA实现

沈达

Tubi (比图科技) | Senior Data Engineer

演讲者简介: 沈达,毕业于中国科学技术大学计算机系,译有《Scala实用指南》,活跃于Scala社区,Apache Spark Contributor,目前是比图科技的Senior Data Engineer。曾基于Spark Catalyst实现过适用于金融风控场景的高性能SQL引擎。

演讲议题:Data Quality Architecture in Tubi

演讲议题介绍:介绍比图科技数据团队如何保障数据质量:及时发现潜在的数据质量问题,并针对处理。介绍比图科技数据质量系统的架构:如何构建简洁、低成本、易于维护的数据质量工作流

听众收益:了解数据质量问题的成因、影响和多种解决方案,了解各种数据质量解决方案(Deequ/Apache Griffin等)的优劣,如何设计一套合理的数据质量问题“发现-处理”的工作流程。

新技术/实用技术点:通过扩展Spark SQL实现使用SQL同时在批处理和流式处理中收集Metrics

汪涉洋

车好多 | 大数据负责人

演讲者简介: 汪涉洋,车好多集团(瓜子二手车母公司)大数据团队负责人,负责消息队列、大数据存储、流批计算引擎、OLAP引擎等技术在瓜子的落地。曾就职于hulu、redhat等公司,知乎专栏《大数据sre的思考》作者,在数据基础架构领域有多年从业经验。

演讲议题:结构化大数据链路在车好多的实践

演讲议题介绍:本次演讲主要介绍车好多集团围绕kafka生态搭建的大数据链路技术发展历程。从基于sqoop、flume等第一代数据链路,到第二代基于avro+kafka connect体系的第二代链路,到当下基于数据湖hudi技术在开发的第三代数据链路,会着重讲解过程中遇到的挑战,以及每一代架构的特点及局限,最后展望本领域技术的未来。

听众收益: 大数据ingest技术最佳实践,以及发展历史。

新技术/实用技术点:kafka 、 数据湖hudi 、avro schema注册中心

杨华

T3出行 | 大数据平台负责人

杨华:T3 出行大数据平台负责人。Apache Hudi committer & PMC member。Apache Kylin committer 及 Flink Cube 引擎作者。Apache Flink 国内早期布道者及活跃贡献者。前腾讯高级工程师,曾主导 Flink 框架在腾讯从落地到支撑日均近 20 万亿消息的处理规模。

刘金辉

T3出行 | 资深大数据工程师

刘金辉:T3 资深大数据工程师

演讲议题:基于Apache Hudi构建数据湖上低延迟CDC的实践

演讲议题介绍:T3 出行是国内首家基于车联网的网约车平台,汇聚了人、车、路、云多样化的海量数据。由于出行行业长尾的支付窗口属性,我们发现传统的Hadoop数仓已经不适合我们的体系。而Apache Hudi作为一个新兴的数据湖框架正变得越来越流行,Hudi为数据湖带来了很多优秀的特性,例如记录级的Upsert/Delete、ACID事务语义、数据与存储的版本管理、增量处理、多种数据视图等等,都是相比传统数仓的巨大突破。这些特性帮助T3解决了很多问题,其中一个很大特性就是支持关系型数据库以低延迟的CDC机制往数据湖同步数据。

听众收益:

1. Apache Hudi 介绍

2. Hudi 解决了Hive数仓哪些问题

3. Hudi 在 T3 出行低延迟数据同步管道的落地实践

4. T3出行对Hudi的改进与扩展

张亮

滴滴出行 | 高级专家工程师

演讲者简介: 张亮2014年加入滴滴,主持构建过任务调度系统、监控系统、日志服务、实时计算、同步中心等平台设计与研发工作,目前在负责LogAgent、Kafka 、ElasticSearch、OLAP的引擎建设工作,具有丰富的高并发、高吞吐场景的架构设计与研发经验。

演讲议题:基于滴滴开源Kafka-Manager打造专业易用的Kafka服务体系

演讲议题介绍:滴滴开源Kafka-Manager脱胎于滴滴内部4年多的Kafka服务运营经验,服务了公司内数千Kafka用户,托管了数十Kafka集群,数万Kafka Topic,单集群>300+Broker,峰值CPU利用率>40%,面向Kafka用户、Kafka运维人员,提供了一套较完善的kafka指标体系及运维管控的能力,打造一套共享多租户kafka云平台,内部满意度达到90分!

听众收益:基于滴滴开源Kafka-Manager搭建企业级的Kafka服务运营平台

新技术/实用技术点:滴滴开源Kafka-Manager的架构与产品设计思考

用户增长论坛

出品人:

魏文庆

网易严选 | 数据技术及产品部总监

出品人简介: 现任网易严选数据技术及产品部总监。2007年浙江大学计算机硕士毕业后入职网易杭州研究院,从事前端开发,后历任技术主管、技术经理、技术总监。曾负责网易摄影、网易企业邮箱、易信公众号等产品开发,以及网易前端微专业课程开发。2015年开始内部创业,孵化敏捷BI平台-网易有数,任网易有数总经理,负责产品研发和商业化。2017年开始负责网易严选数据技术及产品部,从0到1搭建网易严选数据中台和数据产品体系。

分享嘉宾:

周默

京东 | 技术总监

演讲者简介:京东零售用户增长与运营部大数据团队负责人,数据工程与应用算法领域技术专家,京东零售数据与算法通道委员会委员,先后在京东商城交易平台、数据中台、用户中台等部门主导过核心项目的研发工作。目前聚焦于用户增长方向,全程参与了今年疫情期间京东在用户增长业务线上的一系列动作,对京东用户增长方法论及最佳实践具有深刻的理解,并沉淀出一套独特的用户洞察与运营框架体系。

演讲议题:京东用户增长的道与术

演讲议题介绍:本次演讲主要介绍疫情期间京东在用户增长方向的创新方法论和技术解决方案的沉淀,包括两部分:

  • 第一部分是“道”,主要阐述增长模型及用户洞察体系的设计和搭建过程。

  • 第二部分是“术”,重点介绍疫情期间京东的日常用户运营策略及6.18和11.11期间的冲量动作。

听众收益:听众能够通过本次演讲了解到当今互联网电商大厂是如何在复杂多变的市场环境下保持用户持续的高质量增长,其中理论部分的讲解将会重新定义AARRR模型、用户分层模型、生命周期模型等,而实践部分的讲解将会指导听众如何基于精益思想和增长黑客理念快速搭建用户洞察与运营体系。

新技术/实用技术点:

1、 增长公式的拆解及北极星指标的定义

2、 京东特色的AARRR模型

3、 基于人口社会学的靶群模型和基于生命周期价值的分层模型

4、 品类增长黄金模型

5、 面向全链路用户行为激励的实时策略引擎框架

6、面向6.18和11.11大促的冲量运营策略

邢军

网易严选 | 营销数据线技术负责人

演讲者简介:网易严选营销数据线技术负责人,17年加入网易严选,目前主要负责严选营销相关数据产品、数据中台服务及CRM系统技术研发工作。曾就职于蚂蚁金服集团,数据中台及数据应用技术实践经验丰富。

演讲议题:数据技术驱动全渠道用户触达

演讲议题介绍:

1. 严选全渠道用户触达实践

2. 严选用户数据中台在触达体系中的应用(严选DMP,用户数据总线等)

听众收益:

数据技术驱动下的严选全渠道触达实践经验总结和思考

新技术/实用技术点:全渠道协同能力

曾斌

有赞 | 数据开发专家

演讲者简介: 毕业于浙大,后就职于阿里,2018年加入有赞,先后主导了埋点平台、ABTest系统以及增长分析平台的建设,目前主要负责有赞数据驱动增长相关工具平台的建设和应用。

演讲议题:有赞数据驱动增长体系的建设

演讲议题介绍:介绍有赞数据驱动增长体系的建设,包括埋点平台、ABTest系统以及增长分析平台等的设计与实现,以及增长黑客理论的实践。

听众收益:基于增长方法论构建的技术体系和实践经验

新技术/实用技术点:埋点数据洞察、增长分析方法

赵煜杨

百度 | 资深研发工程师

演讲者简介: 赵煜杨在百度担任资深研发工程师, 负责手百小程序数据产品的工程架构工作, 从0到1主持设计了精细化用户分层系统, 实现了百亿级TB量级小程序用户画像、行为数据秒级预估,保障了小程序私域运营的落地。具有超过6年在高可用、大数据方向的工作经验, 一直专注在数据工程架构、个性化推荐工程等工作上, 对技术团队管理也比较有经验, 目前个人专注于大数据、个性化推荐、高可用架构等技术方向。

演讲议题:基于Doris构建的小程序私域流量增长引擎

演讲议题介绍:随着百度小程序生态逐渐成熟,流量运营的场景逐步丰富化,逐渐从传统的AARRR渗透到了RARRA,开发者对私域流量运营需求应运而生,对私域用户进行精细化分层,针对不同特征用户群采取不同的运营策略,精准触达用户,提升经营效率,促进私域活跃和转化效果。本次分享将从大数据工程角度分享如何利用SQL引擎类方案全链路高效支撑百亿级数据工作。

听众收益:听众通过本次演讲能给了解到百度小程序在私域流量运营的概况, 以及如何从公域流量到私域流量的运营转变和实现。

新技术/实用技术点:

1、了解基于MPP引擎(Apache Doris等)构建用户画像标签极致的压缩和存储方案

2、了解SQL引擎规划原理在大数据服务工程中的迁移应用

自然语言处理论坛

出品人:

刘群 博士

华为诺亚方舟实验室 | 语音语义首席科学家

出品人简介: 华为诺亚方舟实验室语音语义首席科学家,负责语音和自然语言处理研究。原爱尔兰都柏林城市大学教授、爱尔兰ADAPT中心自然语言处理主题负责人、中国科学院计算技术研究所研究员、自然语言处理研究组负责人。分别在中国科学技术大学、中科院计算所、北京大学获得计算机学士、硕士和博士学位。研究方向主要是自然语言理解、语言模型、机器翻译、问答、对话等。研究成果包括汉语词语切分和词性标注系统、基于句法的统计机器翻译方法、篇章机器翻译、机器翻译评价方法等。承担或参与多项中国、爱尔兰和欧盟大型科研项目。在国际会议和期刊发表论文300余篇,被引用9000多次。培养国内外博士硕士毕业生50多人。获得过Google Research Award、ACL Best Long Paper、钱伟长中文信息处理科学技术奖一等奖、国家科技进步二等奖等奖项。

分享嘉宾:

王明轩 博士

字节跳动 | 算法科学家、团队负责人

演讲者简介: 中科院博士,主要研究方向是机器翻译和自然语言处理。目前在字节跳动负责机器翻译团队,支持公司国际化业务,服务全球上亿用户。在 ACL、EMNLP 等顶级会议发表论文 20 多篇,也有比较丰富机器翻译的比赛经验,带领团队拿到过 WMT2018中英翻译第一。

演讲议题:火山翻译:工业级应用与研究

演讲议题介绍:从两个维度介绍字节跳动的机器翻译工作,1. 包括工业级别的应用,如何通过机器翻译服务全球用户。2. 在大规模应用中产生的一些新算法,包括预训练、多语言机器翻译和多模态机器翻译

听众收益:

1. 可以了解前沿技术的产业应用

2. 可以了解机器翻译产业应用中的创新技术

新技术/实用技术点:

1. 大规模多语言预训练模型mRasp 的应用

2. Lightseq,快速引擎

3. 多模态机器翻译,包括语音翻译

张志锐 博士

阿里巴巴达摩院 | 算法专家

演讲者简介: 现阿里巴巴达摩院算法专家,中国科学技术大学与微软亚洲研究院联合培养博士,主要研究方向是机器翻译、自然语言生成、对话系统等,曾在微软亚洲研究院、微软雷德蒙德研究院实习,已在ACL/EMNLP/NAACL/NeurIPS/AAAI等国际顶级会议上发表相关论文10余篇,并担任多个国际顶级会议审稿人,Google Scholar的论文Citation达到500, H-index为10。目前在阿里巴巴达摩院翻译团队负责基础通用模型优化和先进翻译技术研究。

演讲议题:阿里多语言翻译模型的前沿探索以及技术实践

演讲议题介绍:在阿里巴巴“全球买,全球卖”的愿景之下,“让商业没有语言障碍”是第一步,而采用技术解决语言翻译等问题是基础。在本次报告中,我们会分享最近阿里翻译实现214个语种互译的技术实践以及前沿探索。具体内容包括:多语言翻译模型面临的困难与挑战,模型落地的工程实践,以及为改善多语言翻译性能所做的最新研究工作,包括多种方式地、更有效地融合预训练模型,迭代式修复回译的数据增强方法,新型的基于中间语的多语言翻译模型网络结构等。

听众收益:

1.了解多语言翻译模型面临的困难以及实践经验。

2.学习阿里翻译最新的研究工作和将其成功落地应用的经验。

新技术/实用技术点:

1. 通过适配器融合预训练模型的最新研究工作(发表在NIPS2020会议)

2. 迭代式修复回译技术(发表在EMNLP2020会议)

3. 新型的基于中间语的多语言翻译模型网络结构(发表在ACL2020会议)

张金超 博士

腾讯 | 微信对话系统自然语言理解技术负责人

演讲者简介: 博士,主要技术方向为自然语言处理、机器翻译、对话系统。现微信AI 对话语义理解技术负责人,主要负责微信内自然语言基础能力研发和业务应用、小微对话系统语义理解技术负责人,在ACL、EMNLP、COLING、AAAI、IJCAI等多个AI顶会发表学术论文十余篇,获得多个对话系统和多轮问答技术全球竞赛冠军。

演讲议题:微信AI在NLP方向的业务实践与前沿探索

演讲议题介绍:议题主要分享微信AI在自然语言基础技术和对话语义理解方面的业务实战经验和一些前沿技术创新。

听众收益:

  • 了解自然语言处理/理解技术在微信中的实战经验

  • 了解自然语言处理的前沿技术进展

新技术/实用技术点:

  • 自然语言基础技术

  • 对话语义理解技术

李响 博士

小米人工智能部 | 高级软件工程师

演讲者简介: 李响,小米高级软件工程师。博士毕业于中科院计算所NLP研究组,目前在小米人工智能部AI实验室NLP团队担任机器翻译方向负责人,研发“云+端”机器翻译技术,并主导落地到小爱同学面对面同传、手机网页翻译、小爱老师等公司重要产品,为小米“手机×AIoT”战略和国际化业务发展提供多语言支持。

演讲议题:机器翻译在小米的技术实践和落地应用

演讲议题介绍:本报告将介绍机器翻译技术在小米产品和业务落地过程中的具体实践

听众收益:了解神经机器翻译技术如何解决实际产品需求

新技术/实用技术点:

1)模型压缩和量化

2)鲁棒性翻译算法

3)同声传译技术

4)Transformer在线高效推理

王晓晖

字节跳动 | NLP算法工程师

演讲者简介:2017年硕士毕业于上海交通大学计算机系,目前就职于字节跳动AI-LAB,担任NLP算法工程师。关注领域包括:机器翻译,模型压缩,跨平台模型部署等。

演讲议题:LightSeq——高性能NLP序列推理实践

演讲议题介绍:在本次演讲中,我们会介绍LightSeq团队在过去一年时间里,针对自然语言处理领域的序列(sequence)模型,进行的推理优化工作。自2017年Google提出Transformer模型,以其为基础的特征计算方法,推动了众多自然语言处理任务能力水平的提升,与此同时,模型的参数量和推理延迟也呈现近乎指数增长。为了将前沿模型落地到业务,LightSeq 团队结合场景:

1. 对特征计算进行了定制优化 

2. 对自回归解码进行了层次化改写 

3. 引入编译优化技术进一步提升计算吞吐

成为业界第一款完整支持Transformer、GPT等多种模型及解码方法的高性能开源推理引擎。同时,LightSeq团队也探索了压缩、量化及蒸馏等技术,最多达到模型压缩二十倍性能近乎无损,助力端模型部署。

听众收益:LightSeq可以应用于机器翻译、自动问答、智能写作、对话回复生成等众多场景,大大提高线上模型推理速度,改善用户的使用体验,降低企业的运营服务成本。以火山翻译为例:目前,火山翻译平均每日,处理请求超过2亿,服务用户超过2亿,覆盖100个国家和地区。LightSeq将火山翻译服务延迟降低十倍以上,平均响应时间控制在百毫秒内,大幅提升了用户体验及云服务成本。

新技术/实用技术点:

1. NLP序列推理优化方法

2. NLP序列模型压缩与量化技巧

3. 跨平台模型部署实践

李明磊 博士

华为云 | 自然语言处理算法专家

演讲者简介: 李明磊,华为云NLP算法专家,博士毕业于香港理工大学,从事文本情感分析和情绪识别的研究,在TAC、ACL、EMNLP等发表论文多篇,获得IALP 2016 最佳论文奖,KSEM2017最佳学生论文奖。目前就职于华为云语音语义创新Lab,主要负责华为云文本分析、多模态分析等业务,所孵化服务已在多个实际业务场景中落地。团队DigScience2019,CCF BDCI 2019, WSDM Cup 2020比赛金牌。

演讲议题:细粒度文本情感分析及其应用

演讲议题介绍:随着移动互联网的普及,网络上每天产生大量的文本数据,蕴含着巨大的有价值信息。情感分析作为自然语言处理中的一个重要研究方向。在实践中有着广泛的应用,如商品评论分析、政治、金融、旅游等领域中的商品推荐、产品辅助决策、公司政府的舆情监测、服务评价等等。本演讲主要介绍情感分析的概念、应用、任务和方法,进一步会介绍华为云在细粒度情感分析方面的实践,包括属性级情感分析和实体级情感分析。

听众收益:

1. 了解文本情感分析基本概念、任务种类和对应的方法

2. 详细了解细粒度情感分析的方法和华为云在细粒度情感分析方面的进展和具体应用案例。

新技术/实用技术点:

1. 基于预训练的深度学习模型

2. 属性级情感分析技术

3. 实体级情感分析技术

数据仓库论坛

出品人:

金晓烨

陌陌科技 | 数据基础架构总监

出品人简介: 北京邮电大学网络技术研究院硕士,2013年初加入陌陌,专注于数据密集型应用的系统架构研究,致力于实现公司数据平台能力开放、数据使用赋能、高 SLA 数据生产保障的团队目标,推进陌陌数据平台、数据仓库以及数据服务系统等方向持续演进。

分享嘉宾:

曹雷

滴滴数仓 | 高级专家

演讲者简介: 滴滴基础平台数仓负责人,负责滴滴的国内出行、国际化出行业务和集团的数仓建设。10年数仓建设经历,一直专注数据仓库体系化建设,同时也是产品化思维建设数仓的理念推广及实践者。

演讲议题:滴滴数据指标体系建设实践

演讲议题介绍:指标体系是什么?如何使用OSM模型和AARRR模型搭建指标体系?如何统一流程、规范化、工具化管理指标体系?会对建设的方法论背后的思考结合滴滴数据指标体系建设实践进行解答分析。

听众收益:了解怎么样流程化、标准化、产品化搭建数据指标体系,同时了解指标体系建设背后映射出的数仓建设的思考。

刘志祖

陌陌科技 | 数据仓库工程师

演讲者简介: 刘志祖,2015年加入陌陌后专注数据仓库建设工作,持续推进公司数据治理与数据中台化建设,经历陌陌大数据生产与治理体系从无到有的构建过程,目前致力于提升数据平台能力开放、加速数据使用赋能,保障公司精细化数据驱动目标落实。

演讲议题:大数据治理优化在陌陌的探索与实践

演讲议题介绍:陌陌作为社交互联网公司,数据驱动的精细化运营始终是我们持续推进的工作模式,其中数据作为这种工作模式不可或缺的核心资产,如何全方位,成体系的治理日渐膨胀的大数据也是我们团队的重点工作目标之一。本次分享旨在介绍陌陌在大数据治理优化方面的探索与实践,重点从服务等级标准的落地实施,基于社交的数据模型设计,数据资产管理,数据安全保障,数据质量管控,成本管理与持续优化来展开,最后希望能与在场同学探讨大数据治理新的方向与思考。

听众收益:了解陌陌在在大数据治理方面的落地方案及技术探索;了解陌陌数据仓库建设和数据中台构建方案;了解如何在数据生命周期内持续推动治理与优化。

新技术/实用技术点:元数据管理平台,Flink-SQL开发中心,Redis流式数据同步,作业成本核算服务。

王啸

贝壳找房 | 资深研发工程师

演讲者简介: 贝壳资深研发工程师,硕士,毕业于北京邮电大学。曾就职于中国电信、百度,多年来深耕大数据领域,从0到1深度参与百度adhoc平台PINGO、一站式机器学习JARVIS平台构建与开发,同时负责过百度商业化产品“鲁班”项目等多个大数据产品上云和私有化交付工作。于2019年加入贝壳,目前主要从事大数据OLAP查询引擎相关研发工作。

演讲议题:贝壳基于Druid的Olap引擎应用实践

演讲议题介绍:本次演讲主要介绍Apache Druid如何在贝壳开展大规模应用,同时针对Druid进行了针对性改进以满足离线/实时数据导入,高并发查询以及精确去重的业务要求,以及对包括Druid引擎在内的OLAP平台化建设的一些实践和思考。

听众收益:结合贝壳的应用实践,深入了解Druid技术架构,希望能给同行们一些启示和帮助。

新技术/实用技术点:加速数据导入 并发限流 精确去重

金晨

熵简科技 | 技术合伙人

演讲者简介: 金晨,熵简科技技术合伙人,专注于金融领域数据智能解决方案的技术架构设计,先后获得清华大学电子工程系学士/硕士学位,北京大学经济学双学位,曾任职于百度、中国建设银行等机构。

演讲议题:金融资管数据中台体系在熵简科技的探索与实践

演讲议题介绍:金融资管数据中台体系在熵简科技的探索与实践

听众收益:了解金融资管中的数据中台体系,以及所用到的开源技术和优化实践

新技术/实用技术点:金融资管数据仓库分层体系、低代码ETL平台、统一API服务

魏闯先

阿里云 | 数据库资深技术专家

演讲议题:ClickHouse在海量数据分析场景下的应用实践

演讲议题介绍:近年来ClickHouse已成为数据分析领域非常火爆的数据仓库产品。本次议题主要阐释阿里云提供Clickhouse全托管云原生数据仓库的核心能力,同时重点介绍Clickhouse在海量日志分析分析中应用实践。

数据产品论坛

出品人:

武磊

京东 | 数据中台总监

分享嘉宾:

王成栋

京东 | 产品总监

演讲者简介:京东产品总监,京东用户运营中心数坊产品负责人,丰富的营销产品和企业大数据产品经验。

演讲议题:数据驱动消费者精细化运营产品和生态

演讲议题介绍:互联网下半场,随着互联网渗透率提升,人口红利消失,传统的以流量为中心的营销方式难以支撑品牌在电商平台的高速增长,新形势下,品牌该如何寻找新的增长动力?以大数据和AI算法驱动的消费者精细化运营,是京东平台为品牌提供的新答案。在本次分享中,将介绍京东在构建品牌消费者精细化运营平台的过程中,相关行业思考、技术应用和产品形态,为听众解码品牌在互联网下半场的新增长动力。

听众收益:

  • 了解消费者精细化运营技术

  • 理解数据驱动品牌增长新思维

  • 了解京东消费者运营方法论和产品

新技术/实用技术点:消费者精细化运营中相关的大数据和AI技术应用

邵浩 博士

vivo | 算法专家

演讲者简介: 邵浩,日本国立九州大学工学博士,现就职于vivo,负责AI技术的产品化落地。曾任狗尾草智能科技有限公司人工智能研究院院长,带领团队打造了聊天机器人产品“公子小白”及 AI 虚拟生命产品“琥珀•虚颜”的交互引擎。曾任上海对外经贸大学副教授,硕士生导师。上海市静安区首届优秀人才,上海市人才发展基金获得者,杭州市高层次人才。任中国中文信息学会青年工作委员会委员,语言与知识计算专委会委员,中国计算机学会语音对话与听觉专业组委员,中文信息技术专委会委员。共发表论文 50余篇,专利十余项,曾担任AAAI,IJCAI等国际会议委员会成员,出版了业内第一本聊天机器人著作,主持多项国家级及省部级课题,曾在联合国、WTO、亚利桑那州立大学、香港城市大学等任访问学者。

演讲议题:AI手机产品化的实践与思考

演讲议题介绍:在AI技术效果远未达到人类期望值的前提下,如何将AI落地为好的产品,成为至关重要的问题。作为AI从业人员,不仅需要掌握核心技术能力,还需要深度理解用户需求,具备良好的产品意识,才能让AI更好赋能产品和业务。本报告将梳理AI技术的发展趋势,探讨AI的产品化落地,同时也会从具体的技术(自然语言处理)和具体的产品(语音助手和对话系统)着手,详细阐述如何进行用户洞察,以及如何将技术转化为用户可接受的产品。

听众收益:

  • 了解AI的前沿技术趋势

  • 了解AI产品化的具体流程

  • 了解用户洞察、技术落地中的关键问题

新技术/实用技术点:

  • 自然语言处理

  • 手机AI产品化

张勍

贝壳找房 | 大数据产品负责人

演讲者简介: 张勍,贝壳找房大数据产品负责人,18年加入贝壳,负责贝壳数据中台的产品建设,帮助公司在大数据建设上转型。曾就职于滴滴、京东,一直从事于数据领域工作,具有丰富的数据产品经验。

演讲议题:“转变”贝壳找房数据平台演变之路

演讲议题介绍:本次分享的内容包括如何通过数据产品,帮助具有20年历史的传统企业在行业互联网数字化转型,帮助业务更高效的应用数据,数据平台产品在公司数字化转型的过程中是如何演进的,会遇到什么样的困难,以及产品建设过程中的思考与实践。

听众收益:行业互联网的数据平台产品建设经验以及思考

宋腾辉

网易严选 | 用户数据产品负责人

演讲者简介: 网易严选用户数据产品负责人,18年加入严选,负责市场投放/用户运营数据产品建设,帮搭建了丰富的用户增长数据产品体系。曾就职于百度、京东,一直从事数据产品工作,具有丰富数据产品经验。

演讲议题:全链路市场投放的数据产品策略

演讲议题介绍:本次分享内容包括品牌广告主自建投放全链路分析体系在网易严选的产品化应用实践,帮助严选拉新业务更高效地利用投放数据,提升投放效果;以及在产品体系建设过程中的思考沉淀。

听众收益:市场投放全链路数据产品建设经验及思考

焦文健

京东 | 数据产品架构师

演讲者简介: 焦文健,京东技术与数据中心产品架构师,7年以上大数据行业实践经验,曾主导点击流系统、精准营销平台和数据资产管理平台的建设,现负责京东内容方向的智能化策略应用。

演讲议题:内容策略应用,助力电商智能化运营

演讲议题介绍:未来非结构化的数据将占到80%的比重,京东已经积累了大量的图文、视频等内容数据,正在通过智能化的处理实现内容变现。本次课程给大家分享的是,如何将内容类数据进行场景化封装,从而转化为具有引流能力、转粉能力和变现能力的内容资产。

听众收益:

1、理解非结构化数据在电商场景下的业务应用实践。

2、理解深度学习技术在图文等非结构化数据中的巨大威力。

3、学习策略类产品的设计思路与方法。

新技术/实用技术点:基于图片、文本等非结构数据,通过深度学习技术解决内容生成与导购问题,实现电商场景的内容变现。

广告算法论坛

出品人:

孔东营

快手 | 商业化模型组负责人

出品人简介: 孔东营 快手商业化模型方向负责人。毕业于中科院计算所。2017年加入快手,组建快手商业化模型团队。全面支持了信息流广告、联盟广告和作品推广以及直播推广等多条业务的模型。短短三年带领团队通过模型高速提升变现效率、创造百数亿商业价值,是快手商业流量分发和生态建设的中坚力量。主要研究方向为机器学习、计算广告、数据挖掘等领域,致力于通过人工智能提升商业变现效率。

靳骏奇 博士

阿里妈妈 | 算法专家

演讲者简介: 靳骏奇博士来自阿里巴巴集团精准定向广告团队,主要研究机器学习、机制设计在互联网广告与推荐系统中的应用。靳骏奇2007-2016在清华大学学习,获得控制科学与工程学士、博士学位,以及清华经管学院经济学第二学士学位。他在IEEE TPAMI, ICML, KDD, IJCAI, AAMAS上发表多篇学术论文。

演讲议题:阿里妈妈定向广告智能投放体系和技术

演讲议题介绍:随着经济数字化地快速发展,互联网广告在赋能商家营销、帮助消费者高效了解商品和服务、以及商业平台的变现等方面扮演着越来越重要的角色。互联网广告生态中,广告主通过付费在媒体上对目标用户进行营销信息传达来完成营销过程。其中,广告主通常希望在有限的资源投入下最大化营销效果。然而流量环境、其他参竞广告形成的竞争环境的复杂性、以及广告投放策略中出价、目标人群、资源位、投放时间等变量的巨大组合复杂度,使得最优广告投放策略的计算与执行充满了挑战。本次演讲,我们将从更好地帮助广告主做营销的视角出发,比较系统地介绍阿里妈妈定向广告团队基于广告主投放需求不断技术创新,建立起的一套持续演进的广告智能投放体系,具体包括预算约束下的报价策略、多约束下的报价策略、合约保量报价策略、基于长期价值的序列投放报价策略、跨渠道智能投放策略等核心技术能力的算法与实践经验。

听众收益:系统地了解阿里妈妈从广告主投放需求出发建设的广告投放策略体系。

新技术/实用技术点:预算约束下的报价策略、多约束下的报价策略、合约保量报价策略、基于长期价值的序列投放报价策略、跨渠道智能投放策略等核心技术能力的算法与实践经验。

舒承椿 博士

快手 | 广告算法专家

演讲者简介: 毕业于中科院计算技术研究所,获得计算机软件博士学位。曾先后在中科院计算技术研究所、英国卢瑟福实验室、汽车之家等单位从事大数据分布并行处理、广告相关的机器学习方研究和工程工作。2018年加入快手商业化算法中台团队,工作内容主要包括神经网络技术在广告CTR/CVR/深度行为率的预估中的应用和实践、基于GPU的广告模型训练平台加速、AutoML技术在广告模型训练中的应用等。他在广告模型中的深度学习算法和训练平台等方面有丰富的研究和工程经验,工作曾多次获得公司的技术嘉奖。

演讲议题:短视频场景下信息流广告的挑战和技术

演讲议题介绍:短视频是广告营销的新趋势。广告需求由浅度点击目标转变为深度转化和付费等,广告算法技术不断涌现新的挑战和问题。在本次演讲中,将与大家讨论短视频场景下信息流广告的主要挑战有哪些,并分享快手针对主要挑战的一些思考和解决方法。演讲内容包括智能定向、模型预估和工程、用户体验以及冷启动等方面。通过这次分享,我们将分享工业界信息流广告中的最新瓶颈问题,借此寻找一些基础性和系统化解决方案。

听众收益:

1. 了解短视频场景下信息流广告的发展趋势和挑战

2. 熟悉工业界广告投放技术的一些常用解决方案

3. 思考一些基础性和系统性的广告算法方向

新技术/实用技术点:智能定向技术/广告模型预估方法/模型工程优化技术等

张泽华

京东 | 算法工程师

演讲者简介: 张泽华,毕业于中科院软件研究所,目前是京东9N AI负责人,京东广告大规模机器学习框架作者,九数商业分析平台研发负责人,负责京东广告算法创新工作,其创新算法广泛应用于京东推荐广告、搜索广告等场景。

演讲议题:大规模图算法在京东广告的实践

观宙

阿里飞猪 | 算法专家

演讲者简介: 2018年加入飞猪技术部,先后负责飞猪搜索RANK算法与飞猪广告算法,建立了飞猪搜索RANK算法架构,包括行业模型、深度预估模型、LTR模型,以及流量调度机制等;目前聚焦于广告ctr/cvr预估、受众定向、出价、预算分配等技术方向。 

演讲议题:基于因果推断的飞猪搜索广告预算分配

演讲议题介绍:在飞猪搜索CPC广告业务中,广告策略不仅需要考虑CPC消耗和广告主ROI,平台整体营收(即CPC消耗+自然交易抽佣)也是不能忽略的优化目标。传统上基于广告pctr、pcvr、bid等因子的策略算法仅仅从广告曝光本身来对广告主、平台和用户的利益进行优化,难以准确调优这一平台整体目标。我们通过引入因果推断技术,将广告投放建模为对搜索产品的干预(intervention),直接预测广告投放与否对业务目标产生的uplift效应,作为下游优化问题的线性奖励(rewards)或约束(constraints),以支持各类线上策略。我们从其中预算分配策略的视角,介绍了飞猪广告算法如何利用广告效应模型进行业务目标优化,同时也介绍了模型底层特征(如ctr、cvr)的一些建模经验。

演讲提纲:

1. 飞猪搜索广告业务背景介绍

2. 广告预算分配、因果推断技术简介

3. 广告效应模型

4. 广告效应特征建模:原生广告中的ctr/cvr预估

5. 基于广告效应的搜索广告预算分配

6. 思考及展望

听众收益:因果推断在广告策略算法中的落地实践;

新技术/实用技术点:

  • 基于domain adaption的搜索广告效应模型

  • 原生广告ctr预估的transfer learning方法

大数据应用论坛

出品人:

孙斌

爱奇艺 | 技术副总裁

出品人简介: 爱奇艺副总裁,负责爱奇艺的商业智能、大数据、智能制作等部门和方向。在互联网产品设计和研发方面有十多年经验,曾就职于微软、hulu、雅虎等公司,也曾在国内知名互联网公司负责过创业项目。

分享嘉宾:

郭磊涛

爱奇艺 | 数据库和中间件负责人

演讲者简介: 郭磊涛,爱奇艺数据库和中间件服务负责人。2007年博士毕业于中国科技大学计算机系,进入中国移动研究院负责大数据平台的建设,2014年加入爱奇艺负责数据库内核、中间件及运维系统的研发,热衷于 Hadoop 生态系统优化和高效运维架构。

演讲议题:基于大数据技术构建爱奇艺全链路监控平台

演讲议题介绍:为了适应业务的快速迭代和创新,并支撑海量的用户请求,爱奇艺各系统的架构和调用链路拓扑越来越复杂。如何构建高效易用的全链路监控平台,快速甄别调用链路上的故障及风险点,成为保障服务稳定性的关键问题。基于大数据相关的日志采集、Kafka、Flink实时分析、Elasticsearch、HBase和Druid等技术和组件,构建了爱奇艺全链路监控平台,通过调用依赖关系分析、服务间调用关系指标、程序异常分析、日志关联查询等功能,有效提高了链路故障和风险的定位和解决效率。本次议题将重点介绍爱奇艺全链路监控平台的架构及相关大数据技术的应用实践经验。

郑志升

bilibili | 实时平台负责人

演讲者简介:郑志升,大数据实时体系负责人,加入B站前曾任职于阿里巴巴。主导涵盖“数据埋点-实时传输接入-实时计算-开发应用”全链路的中台建设,目前重点关注实时(含增量)的传输与计算,实时机器学习等方向。

演讲议题:数据湖的初步探索与实践落地

演讲议题介绍:

1、数据ETL的痛点

2、基于数据湖的增量ETL

3、增量Append及Upsert的实现

4、未来展望

听众收益:

1、了解数据湖在数仓体系的一些落地应用场景

2,了解如何基于Flink+HUDI构建一套通用的ETL增量管道

3,了解数据在万亿规模下如何打造高性能和高可用的综合型ETL管道化服务

新技术/实用技术点:Flink、HUDI、数据湖、增量数仓

马金韬

爱奇艺 | 数据中台负责人

演讲者简介:马金韬,目前就职于爱奇艺,负责数据中台的规划、建设和推广工作,前后在360、百度和阿里巴巴等多家公司从事广告和大数据相关工作,目前主要关注大数据技术生态、发展方向和业务价值实现等方向。

演讲议题:爱奇艺数据中台的建设实践

演讲议题介绍:随着市场对数据价值的认可,促进了数据在各行各业的爆发式增长,以及大数据设施的快速演化,同时也带来了不少新的数据问题;解决这些问题,发挥更大的数据价值,成为了各大公司的重点工作。爱奇艺通过数据中台的建设和实施,发挥通用化、中心化、服务化和标准化等能力和特点,将数据能力覆盖到公司任何角落,赋能业务发展,并通过加深数据AI化等新的技术方式,对数据价值进行深度探索;本次分享将从数据中台的概念、架构、建设理念等角度切入,对关键组成部分进行深入介绍,让大家能够在理解中台的同时,了解到如何通过中台解决问题,帮助业务挖掘数据价值。

听众收益:理解数据中台,了解如何通过中台解决问题,清楚结合业务场景的方式。

新技术/实用技术点:数据中台、统一数仓+、统一服务等

汪胜

网易 | 资深大数据开发工程师

演讲者简介: Apache Impala committer,于2016年毕业加入网易,从事OLAP系统开发,目前负责网易大数据Impala&Kylin系统的相关工作。

演讲议题:Impala 3.4在网易的优化实践

演讲议题介绍:本次分享主要介绍了Impala在网易的一些新实践,包括Impala对接Iceberg、Impala对接Alluxio等,以及未来的一些简单规划。

听众收益:可以了解到Impala的一些新特性,通过结合实际的业务需求,对实践有一定的帮助。

新技术/实用技术点:Impala、Iceberg

姚青林

小米 | 高级软件工程师

演讲者简介: 小米数据工场负责人,负责数据开发管理系统、元数据系统、数据质量系统、数据隐私管理等相关平台的架构与研发工作。在大数据领域有多年从业经验。

演讲议题:Doris 在小米数据中台中的实践

演讲议题介绍:本次分享主要集中在小米在数据中台建设中,选择使用Doris的过程、原因、以及定位。会详细介绍 Doris 的架构、适用的场景、成本节省等方面。最后会介绍我们期望的Doris未来的发展方向,展望云上Doris。

听众收益:了解小米数据中台建设过程中的最佳实践,Doris在其中的作用

新技术/实用技术点:Doris、数据中台、Interactive/Batch/Streaming processing

计算机视觉论坛

出品人:

邓亚峰

360集团副总裁 | 人工智能研究院&搜索事业部负责人

分享嘉宾:

文石磊

百度视频理解技术负责人 | 百度智慧城市主任架构师

分享议题:视频理解技术在百度的应用

胡瀚 博士

微软亚洲研究院 | 研究员

演讲者简介:Han Hu is currently a principal researcher in Visual Computing Group at Microsoft Research Asia (MSRA). He received the Ph.D degree in 2014 and the B.S. degree in 2008 from Tsinghua University. His Ph.D dissertation was awarded Excellent Doctoral Dissertation Award of CAAI at 2016. He was a visiting student in University of Pennsylvania from October, 2012 to April, 2013. Before he joined MSRA in Dec. 2016, he worked at Institute of Deep Learning (IDL), Baidu Research, His research interest include visual representation learning, joint visual-linguistic representation learning and object recognition. He will serve as an area chair of CVPR2021.

Homepage:

https://ancientmooner.github.io/

演讲议题:计算机视觉中的自监督学习与注意力建模 

演讲议题介绍:自监督特征学习和注意力建模是过去一年里计算机视觉领域最重要的进展。前者是使计算智能通向人类智能的一个重要路径,后者作为自然语言处理领域的主流建模方法,过去的一年在计算机视觉领域也取得了重大突破。本次演讲将梳理学术界在这两个方向上的里程碑工作,特别是所在研究小组最近几年在这两个方向上的研究成果。

听众收益:通过这个演讲,希望听众能对这两个重要的研究方向有一个整体的了解,并对目前这两个方向的研究状态有清晰的认识。

新技术/实用技术点:自监督特征学习和注意力建模

杨辉

ImageDB | 高级算法工程师

演讲议题:一种面向自然场景下的低质文本识别方法

武锐 博士

地平线 | 主任工程师

演讲者简介: 武锐,博士毕业于北京航空航天大学,现供职于地平线信息技术有限公司,任平台与技术部主任工程师。参与公司AI芯片端的CV算法规划,负责多项CV项目的实际落地,在边缘视觉感知方向有多年实战经验和理论积累。

演讲议题:边缘计算时代下的计算机视觉技术落地实践

演讲议题介绍:随着各类大规模应用数据量级急剧增长,AI技术尤其计算机视觉迎来落地的黄金时期。出于对实时性、可靠性、安全性,以及用户隐私保护等方面的考虑,在智能驾驶以及AIOT领域,边缘计算成为必要条件。边缘智能对AI芯片设计、神经网络结构以及数据迭代模式等,都提出了新的挑战。报告拟结合地平线的业务,介绍我们在该领域的思考、进展和实践经验。

听众收益:熟悉边缘计算的概念,学习边缘计算中视觉算法的设计模式和思路,了解实际业务的落地流程和关键问题。

新技术/实用技术点:计算机视觉领域的边缘计算实践经验

付超

美图 | 资深视觉算法工程师

演讲者简介: 北京美图之家资深视觉算法工程师,长期从事基于计算机视觉的内容理解工作。目前在美图负责美图社区的内容标签、内容质量、OCR等多媒体内容理解工作。

演讲议题:多媒体内容理解在美图社区的应用实践

演讲议题介绍:移动互联网时代,图像和短视频等多媒体内容爆发,基于计算机视觉的AI算法是多媒体内容分析的基础。在美图社区智能化发展的过程中,视频和图像分类打标、去重以及质量评估的结果,在推荐、搜索以及人工审核等多个场景下都有应用。本次分享的主要内容包括,美图社区图像和短视频分析,如何减少短视频去重在美图社区误召以及ocr在内容审核的应用以及落地

听众收益:从算法调研,算法实现到算法优化落地的一系列技术解决方案

新技术/实用技术点:视频\图片标签的落地实现,以及模型优化,利用cpu进行推理实现;图片去重通过进行二次验证,减少算法误召;ocr可对横排和竖排各种形式的文字进行检测和识别。

搜索算法论坛

出品人:

徐夙龙

京东 | 高级算法总监

出品人简介: 京东搜索和搜索广告负责人,曾先后任职于百度凤巢、京东广告、京东搜索与推荐团队,在搜索相关领域耕耘十多年,对搜索算法、系统、业务都有较为深刻的认知。14年加入京东,从0开始搭建搜索广告业务,打造了京东最拳头的广告产品和团队;19年开始兼任京东搜索负责人,深耕算法基础设施,依托强大的系统能力,实现深度学习在搜索场景的全面落地。

分享嘉宾:

李国洪

百度资深研发工程师 | 百度多模搜索策略负责人

演讲议题:5G+智能时代的多模搜索技术

王松林

京东 | 搜索算法总监

演讲者简介: 2012年毕业于北京大学计算机系,毕业后一直从事搜索相关工作,入职京东后负责搜索召回、粗排等相关算法工作。

演讲议题:京东电商场景下的语义检索

演讲议题介绍:介绍京东搜索电商场景下的语义检索,包括个性化语义、图神经网络等在搜索检索算法中的应用。

听众收益:了解电商场景下语义检索方式,对从事搜索算法和向量检索研发同学一些启发。

新技术/实用技术点:

1. 个性化语义向量检索

2. 图神经网络在搜索检索中的应用

林睿

阿里飞猪 | 算法专家

演讲者简介: 林睿,阿里花名“英卓”,阿里飞猪算法专家,本硕毕业于哈尔滨工业大学。先后在百度、阿里从事NLP,搜索相关的算法工作。目前主要负责飞猪搜索中NLP算法及搜索召回算法的优化研发工作。

演讲议题: 旅行场景下搜索技术应用与创新

演讲议题介绍:介绍飞猪全局搜索的实战应用落地方案与经验,同时分享一些旅行场景下特定问题的创新解法。

听众收益:旅行场景下搜索问题的解决方案,搜索技术创新启发

新技术/实用技术点:Query理解,个性化召回排序

姚婷

搜狗搜索 | 问答算法总监

演讲者简介: 姚婷,搜狗搜索资深专家研究员。毕业于清华大学计算机系,后加入搜狗搜索,从事搜索中相关性计算,排序,问答的研究。目前负责搜狗搜索问答产品“立知”的通用问答技术研发。在信息检索,自然语言处理有多年研发经验。

演讲议题:搜狗搜索精准问答技术研究与应用

演讲议题介绍:搜索中问答的目标是在首条(top1)更精准、便捷地满足用户的问答需求。报告将介绍搜狗搜索中精准问答的技术线路,面向全网的机器阅读理解挑战、关键技术与应用,以及研究趋势。

听众收益:了解面向搜索的精准问答技术研究和应用的实践经验

新技术/实用技术点:机器阅读理解 

机器学习平台论坛

出品人:

朱小坤

京东 | 九数算法平台负责人

出品人简介: 资深技术专家。国内网络游戏反外挂领域的先行者,在国内首个道具收费的爆款游戏《热血江湖》中,成功控制外挂,完成近乎挑战的目标,为产品的成功奠定了技术基础。加入京东零售以来,一直从事算法平台相关工作,从零打造了京东零售的“九数算法平台”,平台聚焦易用性、高性能,为算法人员提供了一站式算法解决方案,广泛赋能京东零售、京东数科、京东云、京东物流、京东健康等,极大提高了算法迭代效率,推动了业务的高速增长。

分享嘉宾:

纪少敏

小米人工智能 | 软件开发工程师

演讲者简介:纪少敏,小米AI Lab核心研发。在小米从事机器学习平台的开发及公司内各智能业务在平台的落地。已推动NLP、视觉、语音等智能业务组在机器学习平台进行训练和推理。

演讲议题:vGPU应用机器学习平台

演讲议题介绍:机器学习平台承接着公司人工智能部门大多数的机器学习任务和推理服务,这些任务依赖GPU的高性能计算,本演讲主要介绍使用虚拟GPU(vGPU)来加速任务训练、推理以及节省GPU成本。

听众收益:在大规模的机器学习平台中,通过vGPU加速训练和推理, 同时扩展Kubernetes调度,将vGPU技术应用到Kubernets集群,多个实例使用相同物理GPU,节省GPU集群成本。

新技术/实用技术点:虚拟GPU技术、远程GPU技术、GPU池化、GPU显存和算力隔离以及扩展调度。

牛文杰

京东 | 算法工程师

演讲者简介: 牛文杰,京东零售九数算法平台核心研发,从0到1推动了九数算法平台建设,在机器学习框架、分布式计算、集群技术等方面有丰富的经验,并推动了多项技术创新。

演讲议题:九数算法平台探索与创新实践

演讲议题介绍:当前,大数据和人工智能技术正助推各个领域迅猛发展,零售场景中各算法业务同样依赖更大的数据规模和更高的算法复杂度来助推业务增长。在此背景下,我们介绍算法平台如何落地,并面向业务痛点,通过各种技术创新来提高算法开发和业务迭代效率。

听众收益:

(1) 基于Kubernetes如何搭建业务平台。

(2) 集群技术如何提高模型训练效率,助推算法迭代。

(3) 分布式机器学习训练如何做到完全容错,自动处理可恢复性故障。

新技术/实用技术点:集群加速、分布式容错、容器调度、降本增效。

杨阳

旷视科技 | 高级研发工程师

演讲者简介: 旷视科技Brain++系统的存储系统负责人,带领团队自研了 100 PiB 规模的对象存储系统,支撑高速训练的分布式缓存,支撑数据增广横向扩展的解决方案。

演讲议题:旷视Brain++平台训练数据供给系统的架构和设计

演讲议题介绍:根据旷视科技经验,介绍旷视在深度学习训练系统的数据系统优化历程。

听众收益:了解旷视内部训练流程中的数据流。

新技术/实用技术点:训练数据缓存系统,数据增广横向扩展方案

杜宝坤

京东 | 资深算法专家

演讲者简介: 杜宝坤,京东商业提升事业部-广告质量部-资深算法专家,主要负责营销端的联邦学习以及站外的触发算法。拥有十多年的互联网工作经验,曾经供职于百度、360等多家知名互联网公司。在互联网搜索、推荐与广告等方向的架构与算法方面,有多年的一线开发与项目管理经验,并且成功主导过多个大型项目。2020年在京东零售数据算法通道委员会的指导下,作为项目技术与业务负责人带领团队完成京东超大规模联邦学习框架9N-FL的落地,并且进行技术赋能,与营销媒体端进行合作,取得了不俗的成绩;同时9N-FL也于2020年9月进行开源,回馈社区。 

演讲议题:京东超大规模联邦学习平台(9N-FL)在电商营销领域的实践

演讲议题介绍:对于AI飞速发展的今天来说,大规模的多维度、高质量的数据是其成功的关键要素,也是制约其进一步发展的重要瓶颈。随着大家对数据的重要性与隐私性的认知程度的不断提升,跨组织的数据的合作越来越谨慎,相关隐私法律法规也陆续出台(GDPR),这样就造成了大量了的数据孤岛,无法充分的利用数据进行分析、决策,严重制约了AI的发展。联邦学习在保证数据隐私安全及合法合规的基础上,打破数据孤岛,实现共同建模,共创共赢,将成为未来AI发展的一个重要方向,9N-FL作为联邦学习的整体开源解决方案,也会在未来发挥越来越大的作用。

听众收益:通过了解联邦学习的原理以及解决方案9N-FL,并且结合本公司的业务,进行应用,开辟一个新的业务模式与增长点。

新技术/实用技术点:在隐私保护越来越严格的未来,联邦学习将成为机器学习平台发展的趋势。联邦学习多方联合建模也将成为未来广泛使用的业务模式,充分利用多方大规模的数据共创共赢,加速整个AI产业的发展。

陈兴振

58同城 | AI Lab架构师

演讲者简介: 58同城AI Lab后端架构师,AI平台部负责人,2016年加入58,目前主要负责AI算法平台及周围子系统的建设工作,在58先后负责过推荐系统、智能外呼系统后端架构设计和研发。曾就职于腾讯、中国院计算所等公司。

演讲议题:58深度学习平台如何提高模型推理性能和GPU使用率

演讲议题介绍:58同城深度学习平台是集开发实验、模型训练和推理为一体的一站式算法研发平台,支撑了58同城搜索、推荐、NLP、语音、图像等各类应用。本次分享将首先介绍如何利用Nvidia和Intel的开源组件提升深度学习模型在GPU和CPU上的推理性能,然后再分享围绕提升平台GPU使用率所进行的GPU虚拟化技术应用和模型混部等工作。

听众收益:了解深度学习模型推理性能优化方法以及如何提升平台GPU利用率

新技术/实用技术点:GPU虚拟化技术应用,Nvidia推理引擎TIS应

对话智能论坛

出品人:

李永彬

阿里巴巴达摩院 | 资深算法专家

分享嘉宾:

黄民烈 博士

清华大学 | 长聘副教授

演讲者简介: 黄民烈博士,清华大学计算机科学与技术系长聘副教授。主要研究兴趣包括人工智能、自然语言处理,尤其是对话系统、语言生成。曾获中国人工智能学会吴文俊人工智能科技进步奖一等奖(排名第一),中文信息学会汉王青年创新奖,多次在国际主流会议获得最佳或杰出论文奖。研发对话系统平台ConvLab和ConvLab-2,获得NTCIR 2017年组织的短文本对话生成评测冠军。担任神经领域顶级期刊TNNLS(SCI一区,影响因子>11)编委,自然语言处理领域顶级期刊TACL执行编辑,多次担任自然语言处理顶级会议ACL、EMNLP的领域主席或资深领域主席。

演讲议题:预训练模型真的理解语言吗?

演讲议题介绍:预训练模型在几乎所有的自然语言处理任务中都取得了前所未有的成功。那么目前的预训练模型到底学会了什么,什么还不会,它们是否真的“理解”了人类语言呢?本报告将介绍到底该如何定义“理解“,探索目前的预训练模型到底学会了哪些知识,还存在什么弱点和不足,有哪些可能的路径改进这些问题。

李永彬

阿里巴巴达摩院 | 资深算法专家

演讲者简介:李永彬,清华大学自动化系毕业,达摩院Conversational AI方向资深算法专家。2014年研发了阿里巴巴第一个智能助理对话系统,应用于手机、电视、汽车等智能设备;2017年从To C转到To B,进入智能客服对话领域,打造了面向第三方开发者的智能对话开发平台Dialog Studio(对话工厂),目前该平台为云小蜜的核心对话引擎,服务于政务(如多省的12345热线)、运营商(如移动10086热线)、金融(如中国人寿)和大通用(如交通、电力、热力等)等所有行业;此外还为钉钉官方智能工作助理和阿里内部数十个BU提供数千个场景的人机对话服务。今年疫情期间基于该平台搭建了全国最大的疫情外呼机器人平台,为全国24个省提供1800万+通外呼电话服务,荣获人民网“人民战疫”一等奖。近年来带领团队在ACL、EMNLP、AAAI等发表多篇论文。

演讲议题:达摩院对话式AI的研究进展及应用

演讲议题介绍:Conversational AI是当前学术界研究热点,也是工业界重点投入的人工智能技术方向。本次分享讲介绍达摩院Conversational AI团队在Low Resource Transfer Learning、Conversational Semantic Parsing、End-to-End Dialogue Model等方面的研究进展,及其在阿里云小蜜智能客服机器人中的大规模应用情况。

听众收益:达摩院对话式AI的研究进展及其在To B业务中的大规模实践应用

新技术/实用技术点:达摩院对话式AI的研究进展

谢剑
百度主任架构师 | 小度算法团队技术负责人

演讲者简介:百度主任架构师,小度算法中台及有屏音箱桌面业务技术负责人,8年多大规模工业AI应用的算法研发和管理经验,涉及包括计算广告、搜索、NLP、推荐、对话等多个领域,30+国内外专利,数篇顶会论文。

演讲议题:DuerOS中的人机交互算法实践

听众收益:了解工业届大规模智能对话交互产品中的算法实践,包括整体系统框架、挑战以及一些创新突破。

武威 博士

美团 | AI平台NLP中心负责人

演讲者简介: 武威现任美团AI平台NLP中心负责人。在此之前,他曾于微软亚洲研究院和微软(亚洲)互联网工程院小冰组任主管研究员和首席科学家。他于2007年在北京大学数学科学学院获理学学士学位,并于2012年在北京大学数学科学学院获应用数学博士学位。他的主要研究方向为开放域对话系统,在包括ACL,EMNLP,WSDM,CIKM,AAAI,IJCAI,CL,JMLR等自然语言,信息检索与数据挖掘,人工智能的顶级会议和期刊上发表了近40篇文章,并常年担任WSDM,SIGKDD,SIGIR,WWW,ACL,AAAI,NeurIPS等会议的程序委员,以及SIGKDD 2019, AAAI 2020的高级程序委员,和ACL 2021对话方向的领域主席。他受邀在EMNLP,SIGIR,WWW等会议上做关于开放域对话研究的讲习班(tutorial)。除此之外,他的多项研究成果,包括匹配模型,对话生成模型,共感模型等被应用于微软小冰的核心对话引擎中。

演讲议题:Knowledge-Grounded Open Domain Dialogue Generation

演讲议题介绍:大规模预训练带来了对话生成上的突破。目前的生成模型虽然能够生成上下文连贯,内容丰富的回复,但却仍然容易在一些常识性问题上“犯错误”。因此将知识引入到对话生成中成为了当前研究的一个热点。本次演讲总结了2019下半年到2020上半年我在知识驱动开放域对话生成的一些研究和思考。相较于普通的对话生成,知识驱动对话生成的一大问题是训练数据较为难得。围绕这个问题,利用预训练技术,我们从低资源训练最终走到了零资源训练,从而降低了知识和对话结合门槛,朝向让每个人拥有自己的对话机器人迈出了一步。相关工作已经发表在了ICLR 2020, EMNLP 2020, 以及NeurIPS 2020上。

听众收益:开放域对话生成的一些最新进展

新技术/实用技术点:低/零资源知识驱动对话生成

刘知远 博士

清华大学 | 副教授、博士生导师

演讲者简介:刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。已在ACL、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文80余篇,Google Scholar统计引用超过1万次。承担多项国家自然科学基金。曾获中文信息学会青年创新奖,入选中国科学青年人才托举工程。

演讲议题:知识指导的预训练语言模型

演讲议题介绍:近年来深度学习成为自然语言处理关键技术,特别是2018年以来的预训练语言模型显著提升了自然语言处理的整体性能。作为典型的数据驱动方法,以预训练语言模型为代表的深度学习仍然面临可解释性不强、鲁棒性差等难题,如何将人类积累的大量语言知识和世界知识引入模型,是改进深度学习性能的重要方向,同时也面临很多挑战。本报告将系统介绍知识指导的预训练语言模型的最新进展与趋势。

听众收益:预训练模型前沿动态

新技术/实用技术点:预训练模型前沿动态

数据治理论坛

出品人:

任长延

字节跳动 | 数据BP/数据治理负责人

出品人简介: 先后担任滴滴和字节跳动核心业务数据体系建设负责人,对移动互联网快节奏下的数据解决方案有着丰富经验,主导过滴滴和字节跳动集团级数据治理工作。

李建舒

美团 | 技术专家

演讲者简介: 李建舒,美团大数据部住宿业务数据团队负责人,超过10年的数据领域相关经验,2015年加入美团后负责酒旅相关业务的数据研发和数据治理工作。

演讲议题:美团酒旅数据治理实践

演讲议题介绍:介绍美团酒旅数据治理的历程和实践经验,以及业务发展各个阶段中数据体系遇到的问题和解决方案,一起探讨数据治理在现阶段的建设思路和发展方向。

听众收益:了解美团酒旅数据治理的历程和实践经验

新技术/实用技术点:美团酒旅的数据治理体系

夏志豪

字节跳动 | 大数据产品经理

演讲者简介: 夏志豪,现任字节跳动数据治理产品负责人,有多年大数据平台产品经验,曾在美团大数据平台就职,2019年加入字节跳动,基于字节实际场景,致力于探索新的数据治理模式与解决方案

演讲议题:字节跳动数据治理之产品驱动自治

演讲议题介绍:在字节跳动业务持

续高速发展的背景下,如何进行高效、有效的数据治理是一个值得探讨的议题。区别与传统的数据治理经验,我们正在探索如何通过产品驱动用户自治,思考如何由传统的民主集中式治理升级为分布式用户自治模式,进而充分提高治理效率,发挥每个人的能动性。希望这次分享能和大家带来一些新的思路,共同探讨新的数据治理解决方案

听众收益:基于字节丰富的业务与跨境治理场景,除了对传统的治理分享外,希望能给大家带来一些不一样的思路

新技术/实用技术点:字节跳动治理产品体系介绍,数据治理的一些新思路与实践分享

范中喜

网易 | 数据架构师

演讲者简介: 做为网易严选数据技术及产品部资深数仓架构师,主要负责供应链、财务业务线主题域架构设计,并做为与杭研数据共建负责人推动数据中台相关产品建设落地,数据治理(本分享从任务治理和报警治理角度来讲解)是其中重点之一,在建设的过程中积累了一些比较好的经验,希望对从事大数据治理相关朋友具有一定的借鉴意义。

演讲议题:网易严选数据任务运维实践

演讲议题介绍:伴随网易严选业务的快速发展对数据的需求越来越多,面对这些数据需求数据开发工程师产出了大量的模型和任务,对于这些模型和任务稳定、准确、及时运行完成提出了很高的要求,在推动数据治理项目之前值班人员随时面对任务运行异常不能及时发现、任务运行时长不稳定、发现问题定位问题及评估影响耗时较长、重大事故恢复困难、以及容易发生资损等,因此数据治理项目从严选数仓面对的实际问题出发,从整个数据治理生命周期“事前>事中>事后”做了相关的事项,希望对从事大数据治理的相关朋友具有一定的借鉴意义。

听众收益:事前任务及模型上线前第一道防线所做的事项;事中任务上线后基于“基线”的任务运维中心有那些策略及方法论?;事后针对收到报警后有那些干预措施,以及在大促保障中所做的一些事项并形成的常态化机制。

新技术/实用技术点:数据质量稽核、基线任务运维、关键链路诊断、影响分析、重大事故恢复辅助、任务运维常态化机制等。

王丰金

滴滴出行 | 技术专家

演讲者简介:王丰金,滴滴技术专家,滴滴大数据资产管理负责人。

演讲议题:滴滴大数据治理实践

演讲议题介绍:大数据整个生命周期包括数据产生、数据采集、数据加工和数据消费,整个链路有很多治理的事情要做,因而治理有很多角度比如指标治理、成本治理、中台治理等,本分享着眼于存储、计算、安全和治理质量,详细分享滴滴如何构建治理体系对存储、计算和安全进行治理,同时分享部分在质量治理的探索。

听众收益:如何构建大数据治理体系

新技术/实用技术点:治理建模

刘建锋

有赞科技 | 数据治理负责人

演讲者简介:曾先后任职于百度、阿里,目前在有赞负责有赞大数据治理工作。在元数据管理、数据安全、质量、血缘、成本等方面,有深入的研究和实践。

演讲议题:有赞数据治理之提质降本

演讲议题介绍:质量和成本是数据价值的核心所在。在有赞,是如何衡量质量好坏、成本高低的?又是如何依靠产品,结合运营的手段,提升质量,降低成本的?本次演讲,为你揭晓。

听众收益:学习如何量化数据质量和成本,怎样高效地推进提质降本。

新技术/实用技术点:量化+产品+运营,数据治理三辆马车。

05

大会报名

识别二维码,免费报名

▽点击阅读原文,直达报名页!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/53867.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用最诙谐的语言提升你对大数据的认知

写在前面 本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见100个问题搞定大数据理论体系 引子 小明又来了~ …

大数据平台技术回忆版

liu老师当时也没给我们怎么画重点 我主要是到mooc上面 还有刷题软件上找了题做做 确实有原题 怎么说呢 光看ppt是不太行的 因为有的知识点出的很细。 可以到刷题神器上看看做做题 简单举几个例子 比如这种是吧 选择题跟判断题也是到网上找找题做 确实碰到了原题目 是吧 …

hahabet05:com浅谈大数据一之认识大数据

浅谈大数据一之认识大数据 ***数据,相信在大部分人的脑海中会有一个大概的意识。没错,数据并不是一个新的概念,在这几天年的发展中,人类一直在利用着数据做着记录,而数据的价值,特别是大数据的价值却是近几…

话题讨论征文--谈论大数据时我们在谈什么 获奖名单公布

从社会发展趋势的角度,很明显大数据会是目前肉眼可及的视野范围里能看到的最大趋势之一。从传统IT 业到互联网、互联网到移动互联网,从以智能手机和Pad 为主要终端载体的移动互联网到可穿戴设备的移动互联网,然后再到万物互联的物联网&#x…

从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集

选自Analytics Vidhya,作者:Pranav Dar,机器之心编译。 本文介绍了 25 个深度学习开放数据集,包括图像处理、自然语言处理、语音识别和实际问题数据集。 介绍 深度学习(或生活中大部分领域)的关键在于实践…

程序人生 - 祝贺登榜《大数据领域内容榜》NO.20

博客文章传送门:LeetCode(数据库)- 报告系统状态的连续日期

【大数据模型】LeonardoAi让心中所想跃然纸上

汝之观览,吾之幸也! 本文主要聊聊LeonardoAi绘图工具 一、注册Discord账号 不管LeonardoAi还是midjourney,都需要注册一个Discord账号,Discord是一个社区软件,在这里可以进行讨论和交流使用心得 LeonardoAi官网地址 …

《数据分析咖哥十话》包邮送3本

文末留言包邮送三本 小雪求职记 入秋以来,市场就开始不景气,我们的女主人公小雪从一家互联网公司的运营岗毕(cai)业(yuan)以来,三个月都没接到任何面试。冬天到了,表姐小冰告诉她&am…

微信小程序通讯地址授权拒绝后的处理方式

在小程序开发时,在用户拒绝获取通讯地址的授权后,在一段时间内将无法在弹出授权提示导致无法获取通讯地址。通过看微信的api文档,发现其中有一个wx.openSetting()方法可以打开设置页面进行授权。但wx.openSetting()方法打开的设置页面只能显示…

微信第三方平台对接小程序发版

微信第三方平台对接小程序发版(工作笔记) 微信第三方平台是商家把公众号或小程序代交给服务商来管理,当商家把小程序授权给第三方平台后,同时授权小程序开发与数据分析,小程序后台就无法发版,必须开发人员…

针对小程序wx.getUserProfile接口将被收回后做出的授权调整

小程序文档中提出的调整说明 调整说明: 自 2022 年 10 月 25 日 24 时后(以下统称 “生效期” ),用户头像昵称获取规则将进行如下调整: 自生效期起,小程序 wx.getUserProfile 接口将被收回:生效期后发布…

【微信小程序】图片违法违规内容鉴别

微信小程序通过云调用校验一张图片是否含有违法违规内容。官方参考文档 选择图片 wx.chooseImage({count: 6,sizeType: [compressed], // 可以指定是原图还是压缩图,默认二者都有sourceType: [album, camera], // 可以指定来源是相册还是相机,默认二者都…

小度智能音箱=高灵敏度窃听器

智能音箱的运行原理:录制用户房间的声音,上传至百度语音识别服务器,语音识别服务器根据识别结果向用户反馈相应的语音内容。 手机APP无时不刻都在窃取用户信息,那么智能音箱呢? 智能的音箱的原理决定着音箱自身无时不…

小度和天猫精灵哪个好?这次我站小度

之前家里已经有一个天猫精灵了在客厅,想买一个智能音箱放在卧室,然后就入手了一个小度在家。以前只有一个音箱没有对比,也就没有伤害,但是两个音箱都在家使用,才知道原来还是小度在家要好很多。 首先就说音质吧&…

亲测89元小度智能音箱,这或许是国民级智能音箱应有的姿态

作者|震霆 出品|遇见人工智能 公众号|GOwithAI 会场突然好一阵躁动,仔细一看,原来是蔡康永来了! ▲图注:蔡康永现身“小度智能音箱发布会” 他来干嘛?难道不是走错…

小度C1可以改语言吗,小度音箱怎么更改唤醒词

小度音箱行业版2.3.6安卓版 类型:生活服务大小:13.6M语言:中文 评分:5.0 标签: 立即下载 小度音箱是通过语音进行唤醒的,唤醒词是默认的,用户说唤醒词来唤醒小度音箱,有小伙伴想更改…

大学里挂了一科MySQL_那些在大学中,学生容易“挂科”的科目,学生:挂柯南也帮不了我...

文/ 高中时期的课业繁重,为了考上家长和老师口中,大学中的“伊甸园”,为此很多学生不得不背负沉重的学习压力努力向前。 记得上高中的时候,上学的压力很大,而家长和老师总是将大学描绘的“生动多彩”。于是我们看着理想…

linux shell两条命令,Linux最常用的18个Shell命令

有些人仍然会有这中愚蠢的想法,他们认为使用Linux就必须使用Linux shell命令。胡说!你可以不懂得任何Linux命令,比如说ps,grep,ls等,但是你仍然可以使用很多现代的Linux桌面发行版。 Linux的系统管理员与桌…

c语言游标使用案例,深入显出数据结构C语言版(6)——游标数组及其实现

深入浅出数据结构C语言版(6)——游标数组及其实现 在前两次博文中,我们由表讲到数组,然后又由数组的缺陷提出了指针式链表(即http://www.cnblogs.com/mm93/p/6576765.html中讲解的带有next指针的链表)。但是指针式链表也不是完美无缺的,在某些…

华为谷歌android 6.0是什么,盘点那些用上Android 6.0的手机

目前市面上大多数智能手机运行的都是Android系统,这些年来Android系统也是在不断地升级中。终于在今年的9月30日,广大用户迎来了Android 6.0版本,这个代号为棉花糖的新系统在UI设计和系统交互方面做出了很大的提升。 不过,大家也都…