中国第一个 Apache 顶级开源项目的突围之路!

9e26838ec345c2744aad90371c3a1960.gif

【CSDN 编者按】近些年开源大热,开源创业之风随之四起。作为近两年特别火的商业方向,开源创业者如何才能在一片红海中乘风破浪,在行业中占据一席之地?第一个由中国人主导贡献到 ASF 的顶级开源项目 Apache Kylin 做出了有效探索,本文作者 Kyligence 联合创始人兼 CTO、 Apache Kylin 联合创建者及 PMC 李扬,深入地分享了成立于 2016 年的 Kyligence 在开源创业“非功能性价值”探索之路上的思考与实践。

作者 | 李扬       责编 | 何苗

出品 | 《新程序员》编辑部

8cb4bbf3de21779ebb7dabcc138db4ab.png

如果用一个词形容目前的开源市场,想必就是“热潮”了。作为行业中的一员,我很欣喜能见证开源被热烈关注。互联网、云计算、大数据、物联网、人工智能等新技术不断发展,并与开源逐渐结合,为丰富的应用场景提供了支持。开源,作为软件行业创新引擎的地位不断增强,逐渐发展成强大的技术创新模式。如今,金融、零售、制造、电信等行业纷纷拥抱开源,开源已成为一种重要的科技创新渠道。本文将从开源项目 Apache Kylin 及其开源商业版 Kyligence 的创业和实践出发,分享经验,希望有所裨益。

44a4aea222e71592ffe8cb37bc4268f0.png

开源发展,已经从蓝海变为红海

Apache Kylin 起步较早,自 2015 年毕业于 Apache 软件基金会( ASF ),成为第一个由中国人主导贡献到 ASF 的顶级开源项目,到目前全球有超过 1500 家公司正在使用 Kylin 。本质上说,它的核心是多维数据库,是一种特殊的 OLAP 引擎。我们期望通过智能化的技术与产品,让企业利用价值数据实现数字化转型,从而达成改变人类数据使用习惯的愿景。

正因身在开源以及开源商业化一线,我们能更直观地感受到开源市场的变化。随着开源项目爆发式增长,开源贡献者规模快速崛起,开源商业化公司市场也空前活跃。以纽约最大的风投公司 FirstMark 合伙人 Matt Turck 统计的 AI & DATA Landscape 为依据,如图1所示,可以看到很多垂直赛道中的开源项目已经暴增,从蓝海变成红海。

ee4ae11206d956a21c0c34691220b101.png

图 1 AI & DATA 全景图局部

在 Apache Kylin 专注的开源 OLAP 领域,从 2019-2021 近三年看,该领域出现的新项目已经呈指数级放量增长。我时常开玩笑,记得 2015 年 Kylin 从 Apache 软件基金会毕业后,行业里好像没有竞争对手,只有我们一家在解决这个问题。到最近不过短短几年间,美国和国内新涌现了很多不错的初创公司。

另外,从中国大环境来看,利好消息是:政策正在从战略上积极鼓励企业开源。《中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要》首次把开源纳入顶层设计,支持数字化底层技术建设,不断培育数字化发展新动能。

从《 2021 中国开源发展蓝皮书》调研情况来看,来自中国开发者、企业和科研机构的开源贡献在全球持续增加,获得越来越多的尊重和认同,中国开源的美誉度逐年提升。中国在全球开源生态中的整体地位也将同步提高,在一些优势领域将逐步占据领导地位。更重要的是,开源项目及基于开源的商业化产品逐渐在重要行业落地和使用,这不仅意味着开源已经从技术开源到产业开放,也代表着市场对开源的接受度大大提升,意义深远。我也不得不感叹,技术的精进、变革终究还是要到应用场景中去,这才是技术发展的“宿命”。

“数据是未来的石油”这句话大家肯定不陌生,用数据来驱动业务增长将是未来企业精细化运作的主要动力。但是因为数据源繁杂、技术间整合和平台间集成带来的难度,使得企业数据管理和分析的道路非常曲折。目前,开源项目 Apache Kylin 的用户主要来自海内外金融、零售、互联网、制造、通信等企业,而金融或是互联网企业一年在数据基础设施上的投入至少是千万到亿元级别。

基于数据驱动业务增长的行业需求与痛点,数据将被进一步地放量使用。当数据量暴增,企业该如何利用技术处理海量数据?IT 成本该怎么优化?IT 组织架构该如何调整以便于公司职员访问与使用?这些问题背后仍然有很多技术难题需要克服。

cd286a603413d405ee8112d511e613c2.png

开源创业的“非功能性价值”探索

而今开源在技术创新、效率提升、成本降低等方面的优势进一步凸显,并成为各领域的技术底座。与此同时,我国数字化场景大爆发带来的信息技术栈需求缺口也在进一步扩大。开源作为技术创新引擎,将不断推动各领域技术发展,满足各类用户对“创新技术+敏态迭代”的需求。虽然开源讨论如火如荼,但新兴技术或者新兴领域的发展,无论技术层、市场层还是产品层,往往面临着人才短缺的问题。

对于开源发展的阻力,大家可以换个角度看。首先,人才问题也许不是人本身的问题,而是成本问题。有需求的企业需要用自己的技术人员来覆盖使用开源软件的成本,还是应该通过采购企业级开源商业软件来获得稳定可靠的服务?这是一大选择;其次,开源渗透进企业的另一大阻力是技术选择。前面我们也提到,目前的市场情况是开源项目种类繁多,且竞争激烈。毫不夸张地说,单就数据分析领域就有近二十个开源技术备选项。每个技术可能有开源版和企业版,这样一来企业进行技术选型以及结果评估往往需要花费不小的力气。以上两大选择都是我们实际接触到的“企业的纠结”。

开源以及开源商业化是市场环境中的常规路径,从创业者角度来看,我们并不焦虑,只需要将两个项目确定好边界,就能找到自己的立命之本。

以开源为基础,其技术发展的立命之本是什么?安全、可靠、稳定。

大家能够想象硬件也开源吗?其实硬件也有自己的开源市场。有没有这样一种可能:一台整车从硬件的设计到下面软件的架构,全是开源的?如果存在这种车,假如可以实现 3D 打印,你会打印出这样一台车供自己使用吗?我估计一般是不会有人这么做的。为什么?因为它不满足安全、可靠、稳定的刚需条件。回到开源的供应链条上,终端消费者会为什么付费?个人观点,他们不是为了一个功能付费。在数据分析领域,可替代功能性方案已经存在,企业用户最后都是在为系统的安全、稳定、可靠而付费,也就是为了非功能的部分而付费。

企业级的采购同样需要考虑“非功能性价值”,除了技术选型、人才支持、功能以外的“安全、稳定、可靠”价值也被看重。复杂度本身就是“安全、稳定、可靠”的敌人,在这个新高度上,能够解决非功能性问题的厂商会有更大的获利空间。

在云原生时代,数据使用与管理需求正在发生巨大的改变。对企业而言,如果平台不能“上云”,会越来越难以适应外界环境随时可能产生的剧烈变化。如何满足企业数据资产管理、固定/自助式分析、数据服务等需求就变得更加紧迫,因此让数据的使用门槛一降再降,且弹性灵活的云原生架构变得炙手可热。那么,开源创业企业如何满足这一类价值需求?我们将以一家云上企业的服务经验为例,分析其场景和痛点问题,希望能给部分 SaaS 企业以参考价值。

该企业是一家建站 SaaS 服务大型供应商,用户数超百万。这是一个典型的网站流量分析场景,场景业务模型相对稳定,但是它的技术挑战比较大。如图 2 所示,该企业早在 2017 年开始用 Apache Kylin 建设名为 Analytics Platform 的工具,其中的能力包括点击流分析、网页的 PV、UV、访问设备、来源等这些经典的客户流量,网站行为包括留存的分析场景和模型。由于全球客户数量众多,而 C 端用户对于查询响应速度的容忍度极低,绝大多数查询需要在一两秒内返回,这也是 To-C SaaS 供应商在提供数据服务时面临的共性挑战。

dc807dde0111fa133e9e49e7d4a5c583.png

图 2 SaaS 企业痛点和诉求分析图

此外,在用户完成建站后,后台的数据查询报表服务 Analytics Platform 会成为一个提升用户留存的重要触点。由于用户以非技术人群为主,需要的是简单易 用、跟产品结合度高的分析工具,而第三方分析工具往往较为复杂、学习成本高,因此用户对平台自带的 Analytics Platform 依赖度较高。提供这样的分析服务的运维难度也很大,为了服务不中断,需要持续 7×24 小时维护。为保证用户的满意度和留存率,平台必须确保数据服务的高稳定性。开源 Kylin 的工具和服务在可靠性方面相对而言会更依赖企业本身的技术能力,需要企业不断优化总体成本(TCO)。这就要求企业既要考虑云上的资源成本,又要投入大数据技术人员的成本,也就是在传统的烟囱式建设下需要很多的数据工程师。

经 Kyligence 服务团队评估与测试,企业决定迁移到 Kyligence Cloud 平台。其非功能性价值优势如图 3 所示。

da4f2fc0127a8c3aa4facbe69d86a89a.png

图 3 场景架构图前后对比

  • 释放 IT 生产力。可通过 SQL 的查询来自动优化业务模型。在模型使用过程的任意时间段,均可以人工灵活调整模型的设计,如增减关系表或分析维度、指标等。

  • 成本优化。传统的部署方式即云上的 Hadoop+Kylin,部署后总体运营成本缩减主要来源是 Hadoop 集群优化,以云原生架构替代 Hadoop 的传统大数据层,减少了很多硬件成本和大量的运维成本。

  • 有效支撑高并发。Kyligence Cloud 背后的多维模型下的预计算能力可提供稳定支撑。当查询计算都预先完成,在线服务时的计算量就能够保持稳定,并且与原始的数据量几乎无关。

综上来看,赋予企业业务数字模型的能力,为企业实现自动化的数据服务和管理,是满足其功能性价值需求以外,开源创业企业需要格外关注的非功能性价值点。

5dc239bf3cd4236aa20e1a20becd766a.png

找准定位是关键

开源技术发展要突破重重技术阻力,而开源创业则需要树立能力边界,找准定位。

找准定位分为两种情况,一是找准自身的优势,二是找准服务目标/市场。前面我们曾谈到人才问题,其实潜在客户分成两大类,一种是科技型行业,像互联网、汽车等。这类行业有自己的技术主心骨,不太会向外部采购技术。其企业形象就是技术型的公司,除非十分必要,否则会尽量避免技术采购。另外一种是传统行业,其定位是解决行业问题,如金融、能源、零售等。它的价值是业务价值,所以技术对它来说是一种支撑,是一种基础设施,只要技术能够真正解决安全、稳定、可靠的问题,它愿意为此付费。因此创业需要树立最有价值的非功能性的部分,也就是企业需要找准定位,找到这部分增值优势。

从诞生以来,Kylin 一直都有关系型数据库的能力,也常常与其他关系型 OLAP 引擎对比,但它真正与众不同的是多维模型和多维数据库能力。在 2022 年,我们从Kylin 能力与优势、开源与开源商业版定位与目标、行业趋势与需求的角度进行了一次深刻的梳理。如图 4 所示,考虑到 Kylin 的本质和未来广泛的业务用途(不仅是技术用途),团队明确定位 Kylin 5 是一个集统一、灵活、高性能、可扩展、云原生等特点于一身的大数据分析平台,用户可以在此完成众多数据分析,对接、支持、替换多种数据源,查询接口与计算引擎等工作。Kylin 也将成为企业海量数据分析和指标管理的坚实可靠底座,让普通人看得懂和用得起大数据,最终实现数据民主化。

5597db499c31f0ccc3341cf6757b2ee8.png

图 4 橙色区域为 Apache Kylin 关注重点(图片来源:Apache Kylin)

除了产品和技术定位之外,创业过程中客户服务也非常重要。开源商业版Kyligence 要求“稳定第一、安全第零”。每当一个新安全漏洞出现,公司都会响起一级的红色警报,整个产研侧第一时间调动所有的力量解决问题,并告知客户此安全漏洞是否与客户现在的生产环境存在关系。若没直接影响,我们仍会进行多方面的复查和方案准备,防患于未然。如有影响,我们会即时响应并解决。

总结来看,开源创业需要多思考“企业的核心价值是什么?帮客户解决的是什么问题?”最常见的误区是认为自己的核心价值是能为客户提供一个现在没有的技术。这个认知可能是对的,但它一定很短暂,在开源充分的协作和信息互通之下,技术会飞快进步,任何一项新技术都可能快速被赶上。或许大家可以深度思考一下自己

在整个开源软件生态里的价值,能够吸引用户付费的价值通常不是一个功能点,而常常是一个非功能性的部分,找到这个非功能性价值,你的开源创业或许会变得轻松一点。

—————— 推荐阅读 ——————

《新程序员·005:开源深度指南&新金融背后的科技力量》特别策划了“开源深度指南”和“新金融背后的科技力量”两大专题。邀请到当今开源世界的先锋人物,包括Python之父Guido van Rossum,MySQL之父Michael "Monty" Widenius,Apache之父、OpenSSF开源安全基金会总经理Brian Behlendorf,MongoDB CTO Mark Porter、凝思董事长宫敏、Linux内核守护者吴峰光等,更有国内外开源基金会、知名企业代表,从开源安全合规、企业内部开源、开源技术创新、开源行业落地等多方面,为开源背后的开发者、企业、开源组织及开源社区提供更清晰的开源生态建设与升级版开源发展全景式图鉴。

而在金融专题中,来自中国工商银行、邮政储蓄、中信银行、广发银行、中国人民银行、平安科技、微众银行、蚂蚁集团等十数家传统金融机构和头部金融科技公司的技术专家为我们带来了关于各类新一代颠覆性技术的深入讨论和案例分析。深入解答开发者应该如何更好融入金融产业,以及金融科技的人才培养之道,真正做好金融科技的技术创新和数字化转型。

8c1b0547f51c3bb195e64ee56716ecd2.png

欢迎大家扫描订阅《新程序员》

17c9769deb6c41633240473d964b83e3.gif

《2022-2023 中国开发者大调查》重磅启动,欢迎扫描下方二维码,参与问卷调研,更有 iPad 等精美大礼等你拿!

9674d723813cabe051400e6deaf6f9b5.png

 
 

d74ef3d905b5fb4c59c9c02ef66789ad.gif

 
 
☞年终反思潮!李彦宏:“马化腾说的问题,百度也都有……”
☞以防作弊,ChatGPT 遭教育部“拉黑”:师生禁用!
☞中国开源已成国际“第二梯队”佼佼者

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/34463.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何让AI为你所用?——ChatGPT的实际应用及训练技巧

ChatGPT:90%以上人都用不好的AI神器,通过本文让你超过90%的使用者 自从2022年11月30日ChatGPT横空出世,它已经在国内大火了两个多月。但是,无需为此感到焦虑,因为人类永远比AI更加强大。与大多数博主炒作的不同&#…

iOS摸鱼周报 第五十期

本期概要 话题:WWDC 22 Call to Code面试模块:事件响应与传递优秀博客:复习 iOS 的 rebase 和 bind学习资料:闲话 Swift 协程开发工具:AppleParty 是三七互娱旗下37手游 iOS 团队研发,实现快速操作 App Sto…

用chatGPT来NEW个对象让“码农”的节日不再仅仅只有1024(赶鸭子上架式的成长、无效不得不立的flag)

用chatGPT来NEW个对象让“码农”的节日不再仅仅只有1024 前言一、大部分的成长都是赶鸭子上架二、节日是为了告诉自己不孤单三、做不到也要立下的flag四、New个对象吧1.php定义一个科技工作者形象2.python定义一个科技工作者形象3.javascript定义一个科技工作者形象 总结 前言 …

Redis集群模式下使用config set 命令所有节点都会生效吗?

Redis集群模式下使用config set 命令所有节点都会生效吗? 问题: Redis集群模式下使用config set 命令所有节点都会生效吗? 实践检验真理: 前置准备 Redis版本:5.0.5版本 Redis集群模式:三主三从 操作步骤: 分别连接7001节点与7002节点,准备在7001节点使用”config get”…

文法和语言的形式定义——句型、句子

Def:设G[S],若S * x,则称符号串x为文法G[s]的句型,仅由终结符组成的句型称为句子。当x为一个句型时,则x∈(VN,VT)*,当x为一个句子时,则x∈VT*。 即如果是一个…

数字化转型助力教育医疗高质量发展,华为携手伙伴创新共享未来

5月8日,主题为“数字化转型助力教育医疗高质量发展,携手伙伴创新共享未来”的华为中国合作伙伴大会2023教育医疗专题峰会盛大召开。在此次峰会上,华为深入阐述了对教育医疗数字化转型助力高质量发展的理解,并与众多行业专家、合作…

全民开发者时代到来!华为云开发者日深圳站成功举办

摘要:2月25日,华为云开发者日HDC.Cloud Day2023年首场在深圳天安云谷成功举行。 本文分享自华为云社区《全民开发者时代到来!华为云开发者日深圳站成功举办》,作者: 华为云社区精选。 2月25日,华为云开发者…

你们的小爱同学还能用blinker点灯吗

小爱同学 一.前言 昨天一个朋友说他的小爱同学没有办法控制ESP8266,因为之前玩过之后有好一阵没有玩了,所有我用之前的代码跑了一下,用blinker软件可以控制完全没有问题,到小爱同学这里就是,帮你操作了,要…

一种简单的方法远程调戏小爱音箱触屏版

小爱音箱触屏版已经购买了一段时间了,一些功能都已经试过了,突然想起是不是可以远程使用小爱的功能呢?而且实现不能过于复杂,略作思考,直接动手: 思路如下: 使用带对讲功能的网络摄像机手机ap…

“智能语音助手”的竞品分析 —— 你好小悟小爱同学(4)

竞品分析假设 背景假设: 假设,我是负责“你好小悟”的一名产品经理,负责其中的“出行”模块。 现在“导航”作为一个高频的需求,而这个功能的体验在用户反映下来仍不怎么理想。我想提升“导航”功能的用户体验,所以想…

手机问题——语音让小爱同学学习用户对手机的操作并复现

文章目录 问题那么我们能否让小爱同学控制手机屏幕,完成我们事先录制的操作呢?日常有语音转文字,实时中英翻译,以及用语音控制屏幕的需求,小爱同学都可以办到吗?语音转文字中英文实时翻译语音控制屏幕 问题…

智能问答技术概览及在小爱同学的实践

一、引言 人通过获取和应用知识,能够实现对客观事物的认知和推理。从脑科学、神经科学的角度来说,人类的认知推理能力是一个非常复杂的系统,研究者对其机理的认识还非常有限。从人工智能的角度来说,研究者试图通过人工智能的技术去…

Tech talk丨情感对话技术:小爱同学治愈人心的底层逻辑

孤独是人生常态,不知道从什么时候开始,我们不再是那个高兴就笑、难过就哭的小朋友,而是习惯了什么都憋在心里,变成了一个沉默而压抑的大人。但生活也需要陪伴,在每一个愤怒、嫉妒、失望的瞬间,我们渴望被倾…

手机访问 Ai

官方GPT应用,感觉流程太复杂,需要美区id还需要升级系统,好不容易下载好了纯英文界面,gpt4功能也没联网,这里给大伙推荐个平替app,在ios应用商店搜 构构 即可使用已调教好的ChatGPT,很方便。 &a…

国外短信平台收不到验证码,怎么解决?

背景:国外短信平台,经常遇到验证码收不到的情况 如果您是一家海外企业或跨国公司,那么国外短信平台的使用一定不可或缺。无论您是要给客户发送营销信息,还是给员工发送公司通知,使用国外短信平台都能帮助您实现高效的…

【统计学习方法】EM算法实现之隐马尔科夫模型HMM

1 基本概念 1.1 马尔科夫链(维基百科) 马尔可夫链(英语:Markov chain),又称离散时间马尔可夫链(discrete-time Markov chain,缩写为DTMC),因俄国数学家安德…

NLP --- 隐马尔可夫HMM(EM算法(期望最大化算法))

期望最大化 (Expectation Maximization) 算法最初是由 Ceppellini[2] 等人 1950 年在讨论基因频率的估计的时候提出的。后来又被 Hartley[3] 和Baum[4] 等人发展的更加广泛。目前引用的较多的是 1977 年 Dempster[5]等人的工作。它主要用于从不完整的数据中计算最大似然估计。后…

Python用MCMC马尔科夫链蒙特卡洛、拒绝抽样和Metropolis-Hastings采样算法

最近我们被客户要求撰写关于MCMC的研究报告,包括一些图形和统计输出。 我们将研究两种对分布进行抽样的方法:拒绝抽样和使用 Metropolis Hastings 算法的马尔可夫链蒙特卡洛方法 (MCMC)。像往常一样,我将提供直观的解释、理论和一些带有代码…

机器学习笔记马尔可夫链蒙特卡洛方法(二)马尔可夫链与平稳分布

机器学习笔记之马尔可夫链蒙特卡洛方法——马尔可夫链与平稳分布 引言回顾:蒙特卡洛方法马尔可夫链与平稳分布马尔可夫链平稳分布细致平衡 关于平稳分布的补充马尔可夫链的本质平稳分布的收敛性证明 相关总结 引言 上一节介绍了蒙特卡洛方法的具体思想 以及一些具体…

大气模型软件:WRF、CMAQ、SMOKE、MCM、CAMx、Calpuff、人工智能气象、WRFchem、PMF、FLEXPART拉格朗日粒子扩散、WRF-UCM、EKMA

推荐给大家一些大气科学相关的模型软件,今天主要整理了一些需求量较高的,大家可以详细了解。零基础的可以点击此链接 >>零基础学习大气污染模式(WRF、WRF-chem、smoke、camx等) 目录 一、(WRF-UCM)…