大模型更需要大数据,星环科技的跃升之路

7094483c51bac7e7024a476951f6a88e.jpeg

6074878b14bf2903930c67d5aa023e9d.jpeg

针对AI大模型,又一家中国公司果断出手了!

在5月26日上海举行的“向星力·未来数据技术峰会”(FDTC)上,星环科技创始人、CEO孙元浩亲自宣布了业界首创的金融大模型“无涯”、大数据分析大模型SoLar“求索”等行业大模型的诞生。

“三化”: 

加速数智化转型的必由之路

其实从2022年底ChatGPT出现至今,AI应用便开启了新一轮加速。AI大模型引发了一场前所未有的“比拼”,尤其是中国厂商争先恐后推出自己的或通用或面向垂直领域的大模型。

对此,中金计算机首席分析师、研究部副总经理于钟海形象地比喻说,未来的大模型市场会像一个冰激凌蛋筒,上面的几个冰激凌球代表面向金融、医疗、教育、政务等几个关键行业领域的垂类大模型。因为这些行业的场景足够大、足够深,能够产生强大的激励,促进初创企业、行业巨头结合自身及行业的Know-how开发出垂类大模型。而下面的蛋筒则代表通用的大模型。“或许中国的每个巨头企业都会拥有自己的大模型,但最后所有人经常用的会像中国的公有云一样,最多不超过三个。”于钟海如是说。

从市场和应用的发展趋势看,今天百花齐放的AI大模型市场最终将走向收敛,但是由大模型激发的AI应用无疑会成燎原之势,无所不及,无处不在。在这样的市场大势下,AI普惠化将是一个长久的命题。作为AI生态中的一份子,无论是AI大模型的开发者,还是为大模型落地应用提供支撑的云厂商、大数据厂商等,都必须找准自己的定位。以金字塔为例,最顶端是少数的大模型的开发者和拥有者,中间层数量众多的是为大模型提供各种资源和能力支持的方案和工具厂商及服务商,最下面也是数量最多的则是千行百业使用大模型的用户。中间层的方案和工具厂商及服务商起到的是关键的承上启下的作用,既要为大模型提供足够的算力、数据,又要面向多样化的行业需求,提供场景化的应用方案支持。

星环科技显然是定位于中间层的大数据厂商。一方面,在大模型开发方面,星环科技会“适可而止”,将专注于行业大模型,比如“无涯”“求索”等;另一方面,孙元浩在回答记者提问时也明确表示,星环科技主要是将大模型作为对现有产品和业务的增强,而不是借此开辟新的赛道,比如通过提供多年来持续完善的LLMOps工具,帮助客户训练大模型。在引入大模型后,星环科技现有的业务不会有太大变化。

更进一步,星环科技提出了将自身的创新技术与业务场景深度融合,致力于实现数据处理的“智能化、多模态、平民化”的“三化”目标。对于星环科技来说,“三化”既是目标,又是赋能工具;对于行业用户来说,“三化”则是AI大模型时代企业加速实现数智化转型升级的必由之路。

智能化:

人人都能拥有自己的专属大模型

“无涯”、SoLar“求索”行业大模型无疑是星环科技在大模型时代攻城拔寨的“桥头堡”。

首先来看“无涯”,它是一款面向金融量化领域、超大规模参数量的生成式大语言模型,基于星环科技的图数据库、深度图推理算法等,使用了上百万的专业金融语料。目前,“无涯”构建了包括政策、舆情、ESG、风险、量价、产业链等在内的六类大模型基础因子集,擅长处理金融量化领域的各类问题,如政策和研报分析,对股票、债券、基金、商品等各类市场事件进行全面复盘、传播和推演,还能生成另类的策略因子集合,构建立体的归因解释体系等。

孙元浩介绍说:“之所以率先推出面向金融领域的大模型,因为我们在金融行业拥有多年的技术和经验积累,包括丰富的资讯来源、大量标注好的语料,并且做过量化因子的开发,同时发挥自身独特的技术优势,将多模感知、事件驱动、深度图计算相结合,从时间和空间、深度和广度等多个方面扩展投资研究的视角,实现了全新的智能量化投研新范式。‘无涯’不仅具有极强的理解能力,能够执行特定的金融任务,而且基于量化策略,可以直接用来做示范交易,是现在就能够真正落地应用的大模型。”

再来看大数据分析大模型SoLar“求索”,就像它的名字一样,目前它还在持续完善、优化之中。星环科技基于在SQL编辑器方面的多年经验,并结合大语言模型推出的SoLar“求索”,无愧为数据查询和分析的智能副手,为数据工程师、数据科学和业务人员提供了更好的使用体验。由于SoLar“求索”能够使用自然语言描述涉及多种数据模型的复杂业务需求,还可借助星环大数据平台特有的“多模型”技术,对不同模态(比如图数据、文本数据、结构化数据)的数据进行关联分析和展示,即使是非专业用户在不需要学习和掌握数据库编程语言的前提下,也能通过自然语言自由地按需查询数据。

孙元浩表示,领域大模型最直接的好处是能够提升数据处理的自动化程度。星环科技的主业就是大数据平台的开发,所以拥有大量的测试集,而且自己写编译器,生成SQL。这些最核心的技术优势与大模型碰撞出的火花,就产生了让数据分析平台更加智能化的SoLar“求索”。

“无涯”、SoLar“求索”的推出,其实是星环科技顺势而为:一是,因为这两者与星环科技的主营业务强相关;二是,无论是面向金融客户,还是在大数据分析领域,星环科技都有多年的技术开发和实践经验,这些积累在大模型的“催化”下,释放出了全部潜能;三是,从客户的需求来看,确实比较急迫地想尝试构建自己的大模型,改进现有应用,而星环科技为这些客户打造了成功的样板,生动阐释了打造自己专属大模型的可能性。

但就像孙元浩所说,大模型只是为了增强星环科技现有的产品,星环科技的主营业务还是“大数据基础软件”,而大模型只是一个新的加速引擎。为了让这个加速引擎能够被客户所用,星环科技致力于提供一系列的支撑工具,并乐此不疲。

比如,星环科技为客户提供了大模型训练工具Sophon LLMOps,帮助企业构建自己的行业大模型。作为一个机器学习模型全生命周期管理的工具平台,Sophon LLMOps针对大语言模型及其衍生数据、模型、应用问题,提供了相应的增强,形成了强大的LLMOps工具链,包括样本仓库能力、模型运维管理能力、大语言模型和其他任务的编排和调度和上线能力等。

归纳来说,星环Sophon LLMOps主要解决了客户的三个核心痛点问题:提供一站式工具链,帮助客户借助通用大语言模型进行训练、微调,从而得到满足自身业务需求的领域大语言模型;帮助客户将原型的大语言模型应用,成功投入到实际的生产应用中;帮助客户运营,使得应用中的大语言模型和大模型能够持续提升。

“当前,基础大模型与行业落地应用之间的鸿沟非常大,是必须突破的行业壁垒。”孙元浩表示,“我们的基本策略是提供一系列工具,让我们的客户、合作伙伴,根据其自身的行业知识和积累,能够更加快速地打造出自己的模型,并且在上面开发自己的应用。我们看到,金融行业的一些头部企业已经在快速地落地大模型应用。”


19a76a0ab0ad3855dec684166c716ce1.jpeg

多模态:

人人都需要一个个性化AI助理

孙元浩表示,进入大模型时代,数据处理将更快地从单一模态向多模态进化,企业数据分析将进入新的次元。多模态就是研究如何将文本、图像、视频、音频,甚至是传感器数据,乃至结构化的数据进行融合、优化处理。

向量数据库顾名思义,就是专门用来存储和查询向量的数据库,其存储的向量就来自于对文本、语音、图像、视频等多模态信息的向量化。向量数据库不仅能够完成添加、读取查询、更新、删除等基本操作,还能对向量数据进行更快速的相似性搜索,其商业价值显著提升。东北证券发布的《向量数据库,AI时代的Killer App》报告指出,AI化的本质就是向量化。向量数据库可以使得大模型保持准实时性,并提高大模型的适用性,从而使得大模型能够动态调整。向量数据库将为AI的腾飞插上翅膀。

顺应这一趋势,星环科技在本次大会上宣布推出自研的向量数据库Transwarp Hippo,以扩展大语言模型的时间和空间维度。对于用户来说,使用星环科技的向量数据库+分布式图数据库,可以构建基于大模型的应用,从而拥有自己个性化的AI助理。

Transwarp Hippo作为一款企业级云原生分布式向量数据库,支持存储、索引以及管理海量的向量式数据集,能够高效地解决向量相似度检索以及高密度向量聚类等问题。与开源的向量数据库不同,星环自研的Transwarp Hippo具备高可用、高性能、易拓展等特点,支持多种向量搜索索引,且支持数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能,能够很好地满足企业针对海量向量数据的高实时性查询、检索、召回等需求。

“我们发现,在应用大模型时,将向量数据库与图数据库相结合是一条事半功倍的捷径。”孙元浩表示,“在实际应用中,仅依靠一个向量数据库是远远不够的,需要各种模型的数据库。因此,在技术路线的选择上,我们希望通过一个平台,支持尽量多的模型,这是刚需。”

除了最新的向量数据库以外,星环科技在本次大会上还推出了多款数据库新品,包括面向图智能、业务分析的多模型企业级分布式图数据库StellarDB 5.0,面向多元场景的高性能分布式时序数据库TimeLyre 9.1,以及时空数据库Spacture等。

大模型的出现将对数据库未来的发展带来哪些影响呢?数据库作为大数据的关键支撑因素,在大模型大行其道的今天,像LLMOps、DataOps等都需要对数据进行有效整理,所以对数据库的需求会显著增加。尤其是向量数据库,已经成为业界投资的一个热点。星环科技也是从三四年前就开始了向量数据库的研发,Transwarp Hippo的推出可谓厚积薄发。另外,孙元浩特别强调了支持多模态数据的重要性。星环科技一直在倡导并大力推动多模型数据库的应用,其产品原来就可以支持10种模型,现在又增加了新的模型,能够支持更多的非结构化数据存储。

从数据库技术的发展来看,现在数据库的存放都采用SQL接口,需要专业的IT人员进行数据分析。由于AI大模型的引入,未来的数据库或许可以提供一个自然语言助理,非IT人员也可以通过自然语言进行数据的操作与分析。这对于数据库应用将是一个极大的推动。

平民化:

人人都能成为数据科学家

所谓数据处理平民化,就是非IT专业人员无须借助复杂的工具,也能快速处理数据。这其实是AI演进的一个极大的驱动力。在形形色色的通用大模型和垂类大模型推出后,如何将这些大模型与更多的行业业务场景相结合,有效促进业务的创新成为关键任务。星环科技希望通过快速的产品创新、商业创新和生态创新,真正实现数据处理的平民化,也即AI的普惠化。

从产品层面看,星环科技的大数据基础平台TDH,能够打破湖仓集的边界,让更多人可以访问实时+历史/原始+加工后的数据。比如,星环大数据基础平台TDH 9.3推出了新一代湖仓集存储格式Holodesk,一份数据满足数据湖的离线实时接入、数仓的复杂加工以及数据集市的分析需求,避免数据冗余,减少数据流转,提升业务综合性能与时效性;TDH 9.3还实现了多模型统一架构迭代升级,并全新发布向量模型存储,10大存储引擎共支持11种模型数据统一存储管理,支持统一查询处理语言完成跨模型数据流转与关联分析,业务开发更加便捷。

星环数据云平台TDC升级到了3.2。TDC 3.2支持星环TDH底座就地升级到星环TDC,利用云化统一管理资源池,实现大数据系统产品、计算、存储资源池化,提高调度资源的灵活性和利用率.

为了让数据流通更便利、更安全、更可控,星环科技还推出了数据要素流通产品Navier 3.1

从实现国产化替代的角度看,孙元浩表示:“在国产大数据技术栈方面,通过十多年的不断打磨,我们已经做得比较成熟,在技术上已经可以完美地替代国外的大数据产品,并且在功能和性能上也基本领先国外产品接近一代。如今,国产大数据平台的替代步伐正不断加快,星环科技推出的众多创新产品,能够替换国外的商业和开源大数据平台、数据库等基础软件产品,并且拥有大量成功的应用案例,为用户创造了新的价值,加速了数据处理的平民化。”

比如,星环分布式分析型数据库ArgoDB强化了实时分析能力,构建安全高效的国产化多模引擎,一站式满足用户数据仓库、数据集市、实时数仓、OLAP、AETP、联邦计算等需求,可以在批处理和OLAP、Ad hoc分析等场景中替代Oracle/DB2/TD/SAP HANA等国外产品;星环分布式图数据库StellarDB可以在图查询、图分析等场景替代开源图数据库Neo4j;星环科技自研的高性能时序数据库TimeLyre能够替代开源时序数据库InfluxDB,解决开源时序数据库不支持复杂分析,服务极其不稳定,以及缺乏安全可控性等问题。

从生态方面看,星环科技始终秉承“平台+生态”的发展理念,与软件开发商、硬件开发商、系统集成商等生态伙伴通力合作,打造大数据基础软件产品应用的生态体系,以提升竞争力。目前,星环科技拥有超过600家生态合作伙伴,涵盖系统集成、咨询交付、服务、ISV及行业应用等。

英伟达CEO黄仁勋在最近举行的Computex论坛上表示,人工智能将使所有人只需对着电脑说话,就能变身程序员。在大模型的带动和促进下,人工智能应用的普惠化必将加速到来。在智能数据分析领域,人人都成为数据科学家将不再是一句空话。


「往  •  期  •  精  •  选」

Snowflake与星环科技殊途同归

“星环”有料 “图”创未来

英特尔+星环科技 | 数据云的硬核心与软实力

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/18779.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智能仿写软件-智能伪原创改写软件

智能仿写工具:营销创意的必备利器 在当今快节奏和不断发展的商业环境中,企业营销人员需要在短时间内产生大量有创意和高质量的内容。因此,智能仿写工具作为营销策略的一种创新方法而出现,可以帮助企业的写作团队更快速地生成文章…

从 ClickHouse 到 Apache Doris,腾讯音乐内容库数据平台架构演进实践

本文将为大家分享腾讯音乐内容库数据平台的数据架构演进历程与实践思考,希望所有读者从文章中有所启发。 作者 | 腾讯音乐内容库数据平台 张俊、代凯 责编 | 王子彧 出品 | CSDN(ID:CSDNnews) 腾讯音乐内容库数据平台旨在为…

【企业架构设计实战】6 数据架构

什么是数据架构? 数据架构将业务需求转化为数据和系统需求,并寻求管理数据及其在企业中的流动。 数据架构定义 根据 The Open Group Architecture Framework (TOGAF),数据架构描述了组织的逻辑和物理数据资产和数据管理资源的结构。它是企业架构的一个分支,包括管理组织中数…

数据平台之数仓模型设计

文章目录 前言一、维度建模基本概念1.1 事实表1.2 维度表 二、维度建模三种模式2.1 星型模型2.2 雪花模式2.3 星座模式 三、ChatGPT代替Sql Boy3.1 简单案例3.2 复杂案例 四、总结 前言 看到几篇不错的文章,自己总结合并了分享给小伙伴 金博尔和恩门共同开创的数仓…

数据迁移工具,用这8种就够了!

前言 最近有些小伙伴问我,ETL数据迁移工具该用哪些。 ETL(是Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业应用来说,我们经常会遇到各种数据的处理、转换、迁移的场景。 今天特地给大家汇总了一些目前…

Kyligence Zen 简直就是一站式指标平台的天花板

一、Kyligence Zen是什么? 1、Kyligence Zen是做啥的? Kyligence Zen是一款指标分析和管理的工具,是基于 Kyligence 核心 OLAP 能力打造,Kyligence Zen 提供集业务模型、指标管理、指标加工、数据服务于一体的一站式服务&#x…

一文讲清数据集市、数据湖、数据网格、数据编织

本文介绍数据仓库、数据集市、数据湖、数据网格和数据编织相关概念和使用案例,帮助你选择并利用好数据的力量来完成明智的决策。 微信搜索关注《Java学研大本营》 在今天的数字时代,企业每天都在应对来自四面八方的海量数据。随着对强大的数据管理和分析…

朱金宝:数据治理产品发展趋势及Datablau产品最新动态

在刚刚结束的2023数据治理新实践峰会上,Datablau数语科技联合创始人&CTO朱金宝先生分享了对数据治理产品发展趋势的深度思考及Datablau新产品预览,并在现场发布了两款最新工具。 以下是朱金宝先生的演讲实录,为了方便阅读,小…

AIGC文生图:stable-diffusion-webui部署及使用

1 stable-diffusion-webui介绍 Stable Diffusion Web UI 是一个基于 Stable Diffusion 的基础应用,利用 gradio 模块搭建出交互程序,可以在低代码 GUI 中立即访问 Stable Diffusion Stable Diffusion 是一个画像生成 AI,能够模拟和重建几乎…

Elastic 发布 Elasticsearch Relevance Engine™ — 为 AI 革命提供高级搜索能力

作者:Matt Riley 今天我们将向大家介绍 Elasticsearch Relevance Engine™(ESRE™),这是一种创建高度相关的 AI 搜索应用程序的新功能。ESRE 建立在 Elastic 在搜索领域的领导地位以及超过两年的机器学习研究和开发基础之上。Elas…

人工智能轨道交通行业周刊-第45期(2023.5.15-5.21)

本期关键词:动车洗澡、热备列车、火车司机室、无缝线路、图像分割、自动标注 1 整理涉及公众号名单 1.1 行业类 RT轨道交通人民铁道世界轨道交通资讯网铁路信号技术交流北京铁路轨道交通网上榜铁路视点ITS World轨道交通联盟VSTR铁路与城市轨道交通RailMetro轨道…

利用ChatGPT完成深度学习分类任务

利用ChatGPT完成深度学习分类任务 一、任务背景 ​ 关于早期诊断NEC(坏死性小肠结肠炎(Necrotizing enterocolitis,NEC))和及时干预一直是临床关注的重点和难点问题。现在手上有相关的临床数据集,我们想要…

chatgpt赋能python:如何使用Python绕过反爬虫机制提高SEO排名

如何使用Python绕过反爬虫机制提高SEO排名 在现代互联网时代,网站把自己的内容都用高墙围了起来,就是防止别人复制内容或者爬虫程序对网站造成损害。但是, SEO优化却需要搜索引擎对网站爬取,并且通过搜索引擎渠道引入流量&#x…

识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!

Datawhale干货 AI生成检测器,编辑:机器之心 AI 造假的成功率很高,前几天「10 分钟骗 430万」还上了热搜。在最热门的大语言模型上,研究人员最近探索了一种识别方法。 随着生成式大模型的不断进步,它们生成的语料正逐步…

chatgpt赋能python:Python如何绕过检测封号的技巧

Python如何绕过检测封号的技巧 Python作为目前最受欢迎的编程语言之一,广泛应用于各种领域。在SEO领域中,Python也发挥着重要的作用,但是在不当的使用下,可能会被搜索引擎检测到并封号。在本文中,我们将介绍几种Pytho…

无际Ai官网ChatGPT4和3.5的真实功能测评

生活是我们每个人都必须面对的现实。它涵盖了各种方面,包括我们的工作、家庭、朋友和爱好等等。在这个充满挑战和机遇的世界中,我们必须学会如何平衡自己的需求和责任,并适应不断变化的环境。无论你处于生命的哪个阶段,生活都是一…

2022机器学习阶段性复盘

2022机器学习阶段性复盘 文章目录 2022机器学习阶段性复盘一、业务洞察1.1 业务调研1.2 采样策略 一、特征工程1.1 特征筛选之iv_psi1.2 特征筛选之启发式搜索1.3 时间特征的曲率变换1.4 多重共线性特征的剔除1.5 什么样的特征适合树模型或LR模型1.5 什么样的特征是稳定可泛化特…

音乐推荐算法+ChatGPT歌词创作

不知道有没有小伙伴喜欢这个项目,今天刚完成,哈哈哈。 体验地:http://make.forwardforever.top:614 账号:root 密码:123 账号:root2 密码:456 主页: 曲库: 评论功能: …

使用LSTM预测股价,特征:19个指标5天历史数据

LSTM介绍 LSTM是具有时间特性的神经网络,我们利用LSTM预测时间序列——股价。 从文本到股价,LSTM的输入特征和网络结构都有哪些变化呢? 我们先看一个简单的RNN结构。与普通的全连接层神经网络的权重更新沿着一层层隐藏层网络不同&#xff0c…

北大朱松纯教授:做智能时代的先知、先觉、先行者

本文转发自北京大学智能学院,文章根据朱松纯教授2023年7月1日在北京大学智能学院2023年毕业典礼上的即兴讲话整理而成。 做智能时代的 先知、先觉、先行者 ——在智能学院2023届毕业典礼上的讲话 朱松纯 2023年7月1日 尊敬的各位来宾、各位老师,毕业班同…