商汤日日新大模型90天大升级!CEO现场整活,主打突破想象力

金磊 发自 WAIC
量子位 | 公众号 QbitAI

商汤“日日新”AI大模型,如其名,真的做到了日日新。

这不,从发布到现在,时隔仅仅3个月,商汤便正式宣布:

商汤日日新(SenseNova)大模型体系全面升级。

那么这个升级版本又有哪些优化?

话不多说,直接上结果。

例如基于日日新的千亿参数语言大模型商量2.0(SenseChat),在三个全球权威测评基准中的表现,均超越了ChatGPT

8643d2f84a25f4985d64dc443e095563.png
各大语言模型在MMLU、AGIEval、C-Eval三个评测基准中得分情况

除此之外,基于日日新的其它各大AIGC平台,这次也一口气也都来了个大升级:

  • 秒画3.0(SenseMirage):参数量提升至70亿量级,实现专业摄影级图片细节刻画。

  • 如影2.0(SenseAvatar):语音和口型流畅度提升30%以上,实现4K高清视频效果。

  • 琼宇2.0(SenseSpace):空间重建效率提升20%,渲染性能提升50%。

  • 格物2.0(SenseThings):渲染精度大幅提升,对物品纹理及材质的还原达到毫米级精细度。

在现场,商汤CEO徐立也拿着秒画3.0搞起了花活:

人没去CVPR 2023现场领奖(商汤斩获今年最佳论文),那就直接让秒画来生成。

1feb307d43e2a51fcbe1819fc52e6ea0.png

不会弹吉他、不会画画,没关系,继续生成:

ec5f2a8c5765d4419f5d069e3b1e5153.png

咱就是说,城会玩儿了。

8e655c70e46cd89fdf08aa77bb0c9ae6.gif

那么全新升级的日日新,更多产品的具体表现如何?我们继续往下看。

不只是超越了ChatGPT这么简单

让老子和孔子对话

整体来看,商量的模型基础能力在2.0版本有了大幅的提高,这点我们从上文提到的性能超越ChatGPT便可有直观感受。

在模型的体系方面,商汤除了推出商量2.0(SenseChat XL)之外,还推出了一个商量S版(SenseChat S),也就是小模型版本。

徐立便在现场展示了用这两个模型展示了一波“孔子对话老子”的情景:

247dc3c718013438db829dada09f5804.png

在语言方面,它新增了一些地区语言,例如阿拉伯语和粤语等;以及支持简体中文、繁体中文、英语等多种语言交互。

同样是这场“孔子对话老子”,粤语版本是这样的:

651d76889db8e956e0a5c5b1bc10adec.png

同时,商量2.0还突破了大语言模型输入长度的限制。

例如给它一个指令:将超长的英文文本总结为中文概要,商量2.0便可立即执行这样复杂的任务。

不仅如此,用户还可以基于此进一步进行多轮对话:

290fa3d7c628a891103af13f790fc51a.png

最后,商量2.0还发布了一个“外挂”——知识库挂载

无需训练模型,就可以快速融合知识生成;搭配企业知识库可以快速解决相关领域问题。

87d22214fd8ea61997ac497efc349758.png

生成摄影级图像,提示词可以自动补充了

在文生图方面,商汤的秒画升级到了3.0版本,从功能升级的内容上来看,主打的就是一个“突破想象力”。

b57f3e5be1e403c9b4920c8c6af138cf.png

例如在轻量级方面,现在每个人都能通过拖拽的动作,在10分钟内微调模型,并且定制化个人专属的生成AI。

我们在上面提到的徐立“搞花活”便是个很好的例子。

“智能化”方面,根据提示词(prompt)来生成AI绘画作品不会再变得很繁琐,因为现在就连提示词都可以自动补充了。

以往我们想让AI生成一条龙,可能就会输入“中国龙”、“蓝色摆件”、“珠宝风格”,但往往由于提示词过于简单,并不能达到特别精细的效果。

而现在,同样是只输入这三个短语,秒画3.0会自动对提示词做补充,然后生成更为惊艳的作品:

042d44320a732bdfff04ac0e7127f7a4.png

再来感受一下提示词“阳光下的塑料袋”,在被自动扩充后的效果:

0c698f9ad32d314ca27e5e59db4dc595.png

最后在效果方面,秒画3.0现在生成的图像,无论是成片水准还是细节与元素,都能够达到影视级的效果。

ee86703bf283339296ac8d66556c6833.png

除了单打独斗的能力之外,当商量2.0和秒画3.0结合之后的多模态大模型,也衍生出了一种新玩法——热点事件理解

在对话过程中“喂”它一张图片或视频,便可以看图说话,更加深入且精准的描述素材中的内容。

59bbe8a19064e0b70646ec4743c1eacb.png

延参法师也“来现场”了

数字人方面的如影2.0也是本次商汤产品大升级的重点。

这不,在现场商汤便展示了延参法师等知名人物的数字人效果,无论是声音(口音)亦或是神情,真的可以说是栩栩如生。

还有包括主持人张泉灵、经济学家任泽平、上交大教授季卫东等等,堪称上演了一出“百变大咖秀”。

语言方面,如影2.0打造的数字人在英语、日语、西班牙、阿拉伯语等多语种的精准度提升30%以上,而且口型和语音匹配得更加自然。

生成效果方面,如影2.0支持实现影级4K高清视频的输出,可以让成片更加精良。

68fa4aa66ac62c2d74d89d8f338f8f3c.gif

如影的升级也同样带来了一种新玩法——

现在,用户可以通过输入提示词自动生成与描述匹配的专属数字人形象了!

而且还是可以实现数字人歌唱功能的那种。

这便极大地降低了虚拟网红、数字人短片等内容生成的门槛。

无论1万平米还是1毫米都能hold住的3D重建

最后在3D重建、数字孪生领域,商汤同样带来了大升级——琼宇2.0格物2.0

先来看下这样一个恢弘的场景:

ce94aa5471b1ff8c7f4c17043c6340b8.gif

如果不说这是琼宇2.0 3D重建的结果,或许很多小伙伴都会以为是航拍的视频了。

据了解,琼宇2.0目前已经实现了厘米级三维重建精度,室外每1万平米精度达5厘米,室内每1000平米精度达1厘米。

同时,重建效率提升20%,渲染性能提升50%,100平方公里场景的建图时间仅需38小时即可完成(1200 TFLOPS/秒算力支持)。

除了这种宏观场景的3D重建之外,在微观层面上的3D重建能力,随着格物迭代到2.0版本也有了大幅提升——

对物品纹理及材质的还原达到毫米级精细度,能够带来更清晰、更真实的产品细节体验。

更重要的是,格物2.0还突破了高反光和镜面物体采集这种老大难的问题,是无需贴纸或标签,即可精确还原商品的外观和特征的那种。

11389a85f8bc1903d959bee7a4d45be3.gif

不难看出,日日新大模型在步入2.0时代之后,各项AIGC平台的能力都有了显著的提升。

那么接下来的一个问题便是:

如何在3个月内做到的大升级?

早在三个月前,商汤站在AGC新时代下,围绕数据、算法和算力三要素给出了一个新公式:

计算量(GPU数量 x 运行时间 x 并行效率 )= 模型参数量 x 处理数据量

我们先来看下等式右边的两个因素:

模型参数量要足够多,才能实现AI智慧的涌现,而这也带来了对算力的剧增,需要更高的并行效率,才能有效支持大参数模型训练。

数据方面,高质量自然语言数据逐渐稀缺,而视觉数据相较自然语言在数量、质量、容纳信息等方面有多种优势,能够使得AI更好地理解世界。

二者的深度结合,便有了等式左边的计算量;而之于这两者,商汤有自己的一套“打法”——

大模型+大装置。

首先便是大模型方面,日日新虽然是商汤于数月前发布,但它并非是这一波AIGC热潮中一蹴而就的产物。

因为早于5年前,商汤便已经着手于此,而且在2019年便使用上千张GPU进行单任务训练,推出了10亿参数规模的视觉模型,算法效果达到了当时业界最佳。

在后来的2021年至2022年期间,商汤还训练并开源了30亿参数的多模态大模型“书生”

因此,商汤能够迅速推出千亿参数大模型并实现版本迭代,可以视为是长期以来各种“小作业”的汇总而成的“大作业”。

其次是在大装置方面,也就是商汤在大算力中的“打法”,它与自身大模型的发展也有异曲同工之妙——同样也是早有布局。

在2022年1月,商汤交付使用了首付高达56亿元的人工智能计算中心(AIDC),而且是“出道”即成为亚洲最大的AI超算中心之一。

一年前它的算力就已经高达了3740 Petaflops,可以轻松应对万亿参数的大模型;而时隔仅1年,这个数值便翻了一小番,达到了5000 Petaflops。

这又是什么概念呢?

举个例子,在如此大装置的加持之下,它可以以最大4000卡规模集群进行单任务训练,并可做到七天以上不间断的稳定训练。

……

总而言之,有大数据、有大算力、有大模型,所以商汤能让日日新在3个月内完成版本迭代也就不难理解了。

但有一说一,这还是“商汤速度”的一隅而已。

大模型的落地也在提速

“商汤速度”的另一面,正是体现在了落地应用上。

如果你认为日日新的全面升级只是一个“提出”和“宣布”的动作,那就大错特错了,因为它已经是“上岗”了的那种。

例如结合商量2.0和秒画3.0的能力,商汤在移动端给客户带来了多种交互方面的“解法”。

针对信息获取的问答交互、生活场景的知识交互、语言和图像生成的内容交互等等,正因为商汤的大模型拥有轻量化版本,所以可以轻松在移动端上部署。

094a237ff098852663efd425ce16b4a9.png

再如琼宇2.0为济南马山镇区域开发、合肥中国视界园区、上海瑞金医院等真实线下场景,打造了相对应的数字孪生,使得运营效率得到了大幅提升。

商汤还通过大模型能力为电网巡检带来长尾故障识别、复杂缺陷判断等智能解决方案。

而且商汤产品的升级,并非是单打独斗的那种,而是强强联手出奇迹。

例如我们刚才提到的“热点事件理解”便是其中之一,除此之外,商汤在智能汽车领域的绝影,更是融合了多个“看家本领”。

例如多模态大模型(多模态感知)、语言大模型(车舱大脑)、知识融合(专属记忆模块)和AIGC大模型(定制数字人)等等。

790580ad370b80581937ca144faf6e90.png

也正如徐立在现场所述:

大模型的突破掀起了人工智能的新一轮技术革命,随之而来的是产业需求呈现爆炸式增长,全新的应用场景和应用模式正迅速涌现。

商汤希望通过‘大模型+大装置’持续推动AI基础设施能力的跃进提升,不仅打造通用能力更加强大的基础模型,也进一步高效融合不同垂直领域的专业知识,构建更懂行业、更具专长的专业大模型,从根本上降低大模型的下游应用成本和门槛,让大模型的产业价值在千行百业中绽放。

总而言之,现在的大模型之战,不仅是拼技术迭代的速度,更是拼应用和落地的速度。

—  —

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/36384.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一张快照就能还原出一段视频!AAAI 2023论文提出快照压缩成像新算法 | 开源

飞晔 投稿量子位 | 公众号 QbitAI 随着光学算法发展,如今我们用低维传感器也能“捕获”高维信号了。 举个例子,这是我们用2D传感器拍到的一张“照片”,看起来充满了噪声数据: 然而,正是通过这张“照片”所包含的数据&a…

微信春节大数据出炉:《三体》阅读量第一 ;曝iOS 17应用商店将向第三方开放;斯坦福大学推出DetectGPT|极客头条

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&…

chatgpt赋能python:Python如何输出彩色的文字

Python如何输出彩色的文字 介绍 Python是一种高级编程语言,它广泛用于数据处理、人工智能、机器学习等各种领域。在Python编程中,输出信息是非常重要的部分。而有时,我们可能希望将输出的信息以不同的颜色呈现,以便更好地区分不…

视觉媒体通信——无损视频播放器

0 前言 我想,看这篇文章的朋友十有八九是在大三下选了这门课。那么我首先祝贺你们,即将结束美好的大学时光。以前听说这门课很难,但是这门课最大的诱惑就是没有期末考试~,所以我当初就选了。我也很担心自己不会做,但是…

chatgpt赋能python:Python绘制彩色线条的详细教程

Python绘制彩色线条的详细教程 简介 Python作为一门高级编程语言,可以用于许多不同领域的应用程序。其中,绘图是Python中很有用的一个应用领域。本文将介绍如何使用Python绘制彩色线条的方法,以及这对于数据可视化有多么重要。 方法 使用…

chatgpt赋能python:Python彩色转黑白简介

Python彩色转黑白简介 Python是一种高级编程语言,提供了许多内置功能和库来进行图像处理。其中之一就是彩色转黑白。彩色图像是RGB(红色,绿色和蓝色)通道的混合,而黑白图像则只有灰度值。 在本篇文章中,我…

chatgpt赋能Python-python_print_彩色

Python打印彩色文本:给你的代码添加亮丽的色彩 如果你是一位具备10年Python编程经验的工程师,那么你一定知道在Python中如何使用print函数输出文本。但是,你是否知道如何打印出彩色的文本?这样一来,你的代码就会变得更…

chatgpt赋能python:Python彩色字体介绍

Python彩色字体介绍 Python是一种高级编程语言,启发式风格的语法使其成为学习编程的理想选择。本文将介绍如何在Python代码中使用彩色字体。如果您是Python编程初学者,这篇文章将对您有所帮助。 什么是彩色字体? 彩色字体是一种添加颜色信…

chatgpt赋能python:Python彩色图像处理

Python彩色图像处理 Python是一门富有表现力语法和丰富库的语言,因此它成为了许多图像处理和计算机视觉任务的首选语言。其中,Python彩色图像处理已经被广泛应用,如图像滤波,图像分割,图像增强等。本文将介绍Python彩…

chatgpt赋能python:Python绘制彩色蟒蛇

Python绘制彩色蟒蛇 如果你曾经看过蟒蛇的图片,那么你会发现这种动物的图案非常独特。如何使用Python编程语言,绘制出这种非常具有特征的蟒蛇形状呢?在这篇文章中,我们将会介绍如何使用Python绘制彩色蟒蛇的方法。 加载必要的库…

chatgpt赋能python:Python色彩空间转换-介绍

Python 色彩空间转换 - 介绍 在图像处理中,色彩空间指的是颜色表示的方式。常见的色彩空间有 RGB、HSV、YUV 等。在图像处理中,经常需要进行不同色彩空间之间的转换。Python 提供了强大的图像处理库 Pillow,可以进行色彩空间的转换。 Pytho…

Unity实战篇 | 接入 声网SDK 实现 音频通话 —— 自己动手做一个 语音聊天房

目录 🐱‍🏍前言🎂Unity 接入 声网SDK 实现 音频通话第1️⃣步,创建声网应用第2️⃣步,获取相应的SDK第3️⃣步,将SDK接入Unity中第4️⃣步:搭建一个测试场景,编写测试代码第5️⃣步:音频通话API第6️⃣步:效果测试🎨总结🐱‍🏍前言 最近正好在网上看到声网…

声网Agora Lipsync技术剖析:通过实时语音驱动人像模拟真人说话

元宇宙的火热让人们对未来虚拟世界的形态充满了幻想,此前我们为大家揭秘了声网自研的3D空间音频技术如何在虚拟世界中完美模拟现实听觉体验,增加玩家沉浸感。今天我们暂时离开元宇宙,回到现实世界,来聊聊声网自研的 Agora Lipsync…

Audio2Face-语音驱动虚拟人表情

任务: 输入自己的音频,导入maya模型,让maya模型通过音频驱动说话 教程: https://www.bilibili.com/video/BV1rZ4y1R7H4/?p2&spm_id_frompageDriver&vd_sourceef114f70c3fd4d5394f12dbd3d022bbe 一.下载和安装 1.首先…

chatgpt赋能python:Python与电影评分

Python与电影评分 近年来,越来越多的人选择通过网络来观看电影。然而,在选择一部电影时,看到的只是电影名称和海报。这时就需要借助电影评分来给自己做出更明智的选择。Python作为一门流行的编程语言,它的应用程序提供了许多有用…

让Ai来告诉你Linux应该怎么学

今天在slack上添加了Claude,他属于ChatGPT的最强竞品,支持中文,体验非常舒适,也并不像国内某些自建AI那样弱智。 至于Linux要怎么学,就让Claude来回答吧。 你能告诉我Liunx应该怎么学吗? 学习Linux,我有…

推荐四款最易上手的电脑版视频编辑软件

视频编辑软件可以剪切并保存一段视频中的精彩部分,从而制作出美丽的视频,让观众欣赏到最有价值的部分。当然,无论是为天猫店铺录制视频,还是自定制作超强特效的科幻视频,都是可以通过视频编辑软件来完成。那么&#xf…

推荐三个可以裁剪视频的软件给你

相信大家在制作视频的过程中都会遇到这种情况:拍摄的画面杂糅了许多其它的物体或着是路人,导致画面看起来非常的杂乱,这时候就需要我们借助一些软件来对视频的画面进行裁剪了,使我们能够保留视频画面的主体内容,方便对…

想知道怎么裁剪视频?这几个方法亲测好用

现在的互联网非常发达,我们可以在网上很快很容易就找到各种视频进行学习。不过有些网课视频的重点内容比较分散。为了不占用我们过多的存储空间,且达到高效学习的目的,我们可以通过裁剪视频,把需要的部分留下来,这样就…

用计算机视频剪辑方面的术语,电脑端做视频剪辑哪个软件好用?

Smile 于 2020/12/01更新 剪辑大师 摘要 易我剪辑大师是个非常强大的剪辑视频软件,功能包含添加字幕、音乐、滤镜或转场特效等,且它的界面对于初学者来说相当友好,不会出现让使用者看不懂的术语,绝对可以轻松上手。 随着抖音、快手…