彻底开源,免费商用,上海AI实验室把大模型门槛打下来

终于,业内迎来了首个全链条大模型开源体系。

大模型领域,有人探索前沿技术,有人在加速落地,也有人正在推动整个社区进步。

就在近日,AI 社区迎来首个统一的全链条贯穿的大模型开源体系。

虽然社区有LLaMA等影响力较大的开源模型,但由于许可证限制无法商用。InternLM-7B 除了向学术研究完全开放之外,也支持免费商用授权,是国内首个可免费商用的具备完整工具链的多语言大模型,通过开源开放惠及更多开发者和企业,赋能产业发展。

img

WAIC 上书生・浦语的发布。

今年世界人工智能大会 WAIC 上,上个月初「高考成绩」超越 ChatGPT 的「书生」大模型来了次重大升级。

在 7 月 6 日的活动中,上海 AI 实验室与商汤联合香港中文大学、复旦大学、上海交通大学及清华大学共同发布了全新升级的「书生通用大模型体系」,包括书生・多模态、书生・浦语和书生・天际三大基础模型。其中面向 NLP 领域的书生・浦语语言大模型迎来了 104B 的高性能版和 7B 的轻量级版

相较初始模型,104B 的书生・浦语全面升级,高质量语料从 1.6 万亿 token 增至了 1.8 万亿,语境窗口长度从 2K 增至了 8K,支持语言达 20 多种,35 个评测集上超越 ChatGPT。这使得书生・浦语成为国内首个支持 8K 语境长度的千亿参数多语种大模型。

而在全面升级的同时,更值得关注的是书生・浦语在开源上的一系列动作。

此次书生・浦语将 7B 的轻量级版 InternLM-7B 正式开源,并推出首个面向大模型研发与应用的全链条开源体系,贯穿数据、预训练、微调、部署和评测五大环节。其中 InternLM-7B 是此次开源体系的核心和基座模型,五大环节紧紧围绕大模型开发展开。

上海 AI 实验室开放其整套基础模型和开发体系。大模型的研究,第一次有了一套开源的、靠谱的全链条工具。

模型 + 全套工具,开源真正实现「彻底」

此前,AWS 等国内外公司纷纷推出了基础大模型技术平台。基于大厂的能力,人们可以构建起生成式 AI 应用。相比之下,基于上海 AI 实验室的基座模型和全链条开源体系,企业、研究机构/团队既可以构建先进的应用,也可以深入开发打造各自垂直领域的大模型。

在上海 AI 实验室看来,基础大模型是进一步创新的良好开端。「书生」提供的并非单个的大模型,而是一整套基座模型体系,在全链条开源体系加持下,为学界和业界提供了坚实的底座和成长的土壤,从底层支撑起 AI 社区的成长,并且与更多的探索者共同建设「枝繁叶茂」的生态。

img

因此,就此次书生・浦语的开源而言,它是一套系统性工程,旨在推动行业进步,让一线开发者更快获取先进理念和工具。用「全方位开源开放」来形容可以说名副其实,模型、数据、工具和评测应有尽有。相比业界类似大模型平台,书生・浦语首个实现了从数据到预训练、微调,再到部署和评测全链条开源。

轻量化模型,性能业界最强

书生・浦语的 7B 轻量级版 InternLM-7B 不仅正式开源,还免费提供商用。作为书生・浦语开源体系中的基座模型,它为上海 AI 实验室未来开源更大参数的模型做了一次探索性尝试。

我们了解到,InternLM-7B 为实用场景量身定制,使用上万亿高质量语料来训练,建立起了超强知识体系。另外提供多功能工具集,使用户可以灵活自主地搭建流程。目前 GitHub star 量已经达到了 1.5K。

img

开源地址:
https://github.com/InternLM

InternLM-7B 的性能表现如何呢?上海 AI 实验室给出的答案是:在同等参数量级的情况下全面领先国内外现有开源模型

我们用数据来说话。对 InternLM-7B 的全面评测从学科综合能力、语言能力、知识储备能力、理解能力和推理能力五大维度展开,结果在包含 40 个评测集的评测中展现出卓越和均衡的性能,并实现全面超越。

img

下图展示了在几个重点评测集上,InternLM-7B 与国内外代表性 7B 开源模型(如 LLaMA-7B)的比较。可以看到,InternLM-7B 全面胜出,在 CEval、MMLU 这两个评价语言模型的广泛基准上分别取得了 53.25 和 50.8 的高分,大幅领先目前业内最优的开源模型。

img

InternLM-7B 在开放评测平台 OpenCompass 的比较结果。

书生是如何做到的?在接受机器之心专访时,上海 AI 实验室林达华教授向我们介绍了致胜之道

与以往在单项或数项基准上达到高水平的模型不同,InternLM-7B 是一个基座模型,它不是针对某个特定任务或领域,而是面向广泛的领域提供比较强大和均衡的基础能力。因而强调各方面能力的均衡是它的一大特点。

为了实现均衡且强大的能力,InternLM-7B 在训练和评估过程中使用了创新的动态调整模式:在每训练一个短的阶段之后,便对整个模型全面评估,并根据评估结果及时调整下一阶段训练数据分布。通过这套敏捷的闭环方式,模型在成长过程中始终保持能力均衡,不会因数据配比不合理而导致偏科。

同时,InternLM-7B 在微调体系上也有明显升级,使用了更有效的微调手段,保证模型的行为更加可靠。

除了以上模型技术层面的升级,InternLM-7B 还具备可编程的通用工具调用能力。以 ChatGPT 为例,大模型可在解方程、信息查询等简单任务上调用工具来实现更准确有效的结果,但在复杂任务上需要调用更多机制才能解决问题。

InternLM-7B 具备了这种通用工具调用能力,使模型在需要工具的时候自动编写一段 Python 程序,以综合调用多种能力,将得到的结果糅合到回答过程,大幅拓展模型能力。

正是在训练 - 评估 - 训练数据分布调整闭环、微调以及工具调用等多个方面的技术创新,才让 InternLM-7B 领跑所有同量级开源模型变成了可能。

大模型开源,就需要全链条

在书生・浦语全链条开源体系中,不仅囊括了丰富多元的训练数据、性能先进的训练与推理框架、灵活易用的微调与部署工具链,还有从非商业机构的更纯粹学术和中立视角出发构建的 OpenCompass 开放评测体系。

与同类型开源体系相比,书生・浦语的最大特点体现在链条的「长」。竞品工具链可能会覆盖从微调到部署等少量环节,但书生・浦语将数据、预训练框架、整个评测体系开源了出来。而且链条中一个环节到另一个环节,所有格式全部对齐,无缝衔接。

上海 AI 实验室围绕书生・浦语大模型打造了五位一体的技术内核。除了大模型本身,值得关注的还有预训练环节开源的面向轻量级语言大模型训练的训练框架 InternLM-Train 以及评测环节的开放评测平台 OpenCompass

img

书生・浦语全链条工具体系。图源:https://intern-ai.org.cn/home

我们知道,在现有 AI 大模型开发范式中,预训练 + 微调是主流。可见预训练对于大模型的重要性,很大程度上决定了模型任务效果。而其中底层的预训练框架要在能耗、效率、成本等方面尽可能做到节能、高效、低成本,因此框架的创新势在必行。

书生・浦语开源了训练框架 InternLM-Train。一方面深度整合了 Transformer 模型算子,使得训练效率得到提升。一方面提出了独特的 Hybrid Zero 技术,实现了计算和通信的高效重叠,训练过程中的跨节点通信流量大大降低。

得益于极致的性能优化,这套开源的体系实现了千卡并行计算的高效率。InternLM-Train 支持从 8 卡到 1024 卡的计算环境中高效训练 InternLM-7B 或者量级相仿的模型,训练性能达到了行业领先水平。千卡规模下的加速效率更是高达 90 %,训练吞吐超过 180Tflop,平均单卡每秒处理 token 也超过 3600。

如果说预训练决定了大模型的「成色」,评测则是校验大模型成色的关键一环。当前由于语言大模型的能力边界极广,很难形成全面、整体的评价,因而需要在开放环境中逐渐迭代和沉淀。

书生・浦语开源体系上线了 OpenCompass 开放评测体系,更纯粹学术和中立视角之外,它的另一大特点是基准「全」。除了自己的一套评测基准,OpenCompass 还整合了社区主流的几十套基准,未来还将接纳更多,从而让开源模型更充分地彼此较量。

img

图源:https://opencompass.org.cn/

具体地,OpenCompass 具有六大核心亮点。从模型评测框架来看,它开源可复现;从模型种类来看,它支持 Hugging Face 模型、API 模型和自定义开源模型等各类模型的一站式测评,比如 LLaMA、Vicuna、MPT、ChatGPT 等。InternLM-7B 正是在该平台上完成评测。

从能力维度来看,它提供了学科综合、语言能力、知识能力、理解能力、推理能力和安全性六大维度。同时提供这些能力维度下的 40+ 数据集、30 万道题目,评估更全面。

林达华教授认为,能力维度的广度和复杂度是模型评测面对的最大挑战。一方面要充分考虑如何从不同的维度进行评价,一方面当要评测的指标变多的时候,还要兼顾如何以负担得起的方式去评测。

此外,OpenCompass 非常高效,一行命令实现任务分割和分布式评测,数小时内完成千亿模型全量评测;评测范式多样化,支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板轻松激发各种模型最大性能;拓展性极强,轻松增加新模型或数据集、甚至可以接入新的集群管理系统。

目前,OpenCompass 上线了 NLP 模型的评测,也即将支持多模态模型的评测。

随着 OpenCompass 平台的影响力增加,上海 AI 实验室希望对于大模型基准的评测也会对整个领域起到带动作用。与此同时,在构建 AI 标准化的大模型专题组中,上海 AI 实验室也与很多厂商形成了良好的合作关系。

img

在大模型快速演进的关键时期,标准制定与实施是推动产业进步的现实需求,也将为产业的可持续发展指明方向。

林达华教授表示:「创新是人工智能技术进步的源动力,而基座模型和相关的工具体系则是大模型创新的技术基石。通过此次书生・浦语的高质量全方位开源开放,我们希望可以助力大模型的创新和应用,让更多的领域和行业可以受惠于大模型变革的浪潮。」

做真正有影响力的工作

值得一提的是,上海AI 实验室成立的时间并不长——成立于 2020 年 7 月。作为一个新型研发机构,其主要开展重要基础理论和关键核心技术。得益于其原创性、前瞻性的科研布局,以及强大的科研团队,实验室近期在多个关键领域实现重大突破。

「我们坚持上下游协同,做出的大模型第一时间在团队中进行分享,在应用中得到反馈,进而持续迭代,」林达华介绍称。

上海 AI 实验室的技术领先,还在于做好三个方面的事:不设定发表论文或盈利的 KPI,做真正前沿有影响力的工作;开放创新空间,鼓励团队间积极交流,勇于尝试不同的方向与想法;最后,实验室为研究团队提供了海量数据和算力作为支持。

此次书生・浦语的开源体系降低了大模型技术探索和落地的门槛,对于学界和业界而言意义重大,帮助更多研究结构和企业省去了基础模型构建的步骤,他们可以在已有的强大模型与工具体系的基础上继续演进,实现创新。

未来,上海 AI 实验室还将基于「书生・浦语」,在基础模型和应用拓展方面进行探索,努力构建适用于关键领域落地的基础模型。

书生开源体系可以大幅降低大模型技术探索和落地的门槛,如果你感兴趣,欢迎来试试。

书生官网链接:
https://intern-ai.org.cn/home

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/375245.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uniapp实现光标闪烁(配合自己的键盘)

前言 因为公司业务需要&#xff0c;所以我们... 演示 其实就是Chat自动打字效果 代码 键盘请看这篇文件 <template> <view class"list"><view class"title"><text>手机号码</text></view><view class"ty…

C#使用异步方式调用同步方法的实现方法

使用异步方式调用同步方法&#xff0c;在此我们使用异步编程模型&#xff08;APM&#xff09;实现 1、定义异步委托和测试方法 using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading; using System.Threading.Task…

centos安装数据库同步工具sqoop并导入数据,导出数据,添加定时任务

目录 1.安装jdk 1.1上传jdk安装包到/opt目录下并解压 1.2解压 1.3配置环境变量 2.安装hadoop 2.1.下载hadoop 2.2.解压hadoop 2.3配置环境变量 3.安装sqoop 3.1下载 3.2解压 3.3下载依赖包并复制到指定位置 3.3.1下载commons-lang-2.6-bin.tar.gz 3.3.2将mysql-c…

STM32 - 内存分区与OTA

最近搞MCU&#xff0c;发现它与SOC之间存在诸多差异&#xff0c;不能沿用SOC上一些技术理论。本文以STM L4为例&#xff0c;总结了一些STM32 小白入门指南。 标题MCU没有DDR&#xff1f; 是的。MCU并没有DDR&#xff0c;而是让代码存储在nor flash上&#xff0c;临时变量和栈…

Windows环境安装Redis和Redis Desktop Manager图文详解教程

版权声明 本文原创作者&#xff1a;谷哥的小弟作者博客地址&#xff1a;http://blog.csdn.net/lfdfhl Redis概述 Redis是一个开源的高性能键值对数据库&#xff0c;以其卓越的读写速度而著称&#xff0c;广泛用于数据库、缓存和消息代理。它主要将数据存储在内存中&#xff0…

Codeforces Round #956 (Div. 2) and ByteRace 2024(A~D题解)

这次比赛也是比较吃亏的&#xff0c;做题顺序出错了&#xff0c;先做的第三个&#xff0c;错在第三个数据点之后&#xff0c;才做的第二个&#xff08;因为当时有个地方没检查出来&#xff09;所以这次比赛还是一如既往地打拉了 那么就来发一下题解吧 A. Array Divisibility …

使用pip或conda离线下载安装包,使用pip或conda安装离线安装包

使用pip或conda离线下载安装包&#xff0c;使用pip或conda安装离线安装包 一、使用pip离线下载安装包1. 在有网络的机器上下载包和依赖2. 传输离线安装包 二、在目标机器上离线安装pip包三、使用conda离线下载安装包1. 在有网络的机器上下载conda包2. 传输conda包或环境包3. 在…

Oracle Record Variables 记录变量

Oracle Record Variables&#xff08;Oracle记录变量&#xff09;是Oracle数据库编程中PL/SQL语言的一个关键特性&#xff0c;它允许开发者将多个相关的、分离的、基本数据类型的变量组合成一个复合数据类型&#xff0c;类似于C语言中的结构体&#xff08;STRUCTURE&#xff09…

Nvidia Isaac Sim跟着教程学习1-加载sim资产包

我是跟着这篇博客学习的&#xff0c;大家可以去他这里面看&#xff0c;下面就是把我认为一些坑的地方提出来&#xff0c;大家借鉴。 学习博客 1.下载sim资产包 注意下载完四个包后&#xff0c;一定要放在Downloads文件夹下&#xff0c;不是默认的中文 下载 文件夹 然后随便在…

旷视AI开源新突破:上传照片即可生成表情包视频!

日前&#xff0c;旷视科技发布了一项新的开源AI人像视频生成框架——MegActor。该框架让用户只需输入一张静态肖像图片和一段视频&#xff08;如演讲、表情包、rap&#xff09;&#xff0c;便可生成一段表情丰富、动作一致的AI人像视频。生成的视频长度取决于输入的视频长度。与…

【深度学习】基于深度学习的模式识别基础

一 模式识别基础 “模式”指的是数据中具有某些相似特征或属性的事物或事件的集合。具体来说&#xff0c;模式可以是以下几种形式&#xff1a; 视觉模式 在图像或视频中&#xff0c;模式可以是某种形状、颜色组合或纹理。例如&#xff0c;人脸、文字字符、手写数字等都可以视…

基于LSTM的局部特征提取网络算法原理

目录 一、LSTM的基本原理与结构 1. LSTM的核心结构 2. LSTM的工作原理 二、基于LSTM的局部特征提取 1. 输入处理与序列表示 2. LSTM层处理与特征提取 3. 特征提取的优势与应用 三、实现细节与注意事项 1. 数据预处理 2. 网络结构与参数选择 3. 训练策略与正则化 4.…

2023Q1 A股市场投资者持股结构(测算值,流通市值口径)

https://pdf.dfcfw.com/pdf/H301_AP202305291587341564_1.pdf A股投资者结构全景图&#xff08;2023Q1&#xff09; 李立峰 SAC NO:S1120520090003 2023年05月29日 请仔细阅读在本报告尾部的重要法律声明 仅供机构投资者使用 证券研究报告 A股投资者结构总览 2 A股投资者结构 个…

数据结构(3.9_1)——特殊矩阵的压缩存储

总览 一维数组的存储结构 如果下标从1开始&#xff0c;则a[i]的存放地址LOC (i-1)*sizeof(ElemType); 二维数组的存储 二维数组也具有随机存储的特性 设起始地址为LOC 在M行N列的二维数组b[M][N]中&#xff0c;若按行优先存储&#xff0c; 则b[i][j]的存储地址的LOC (i*…

【Element-UI 表格表头、内容合并单元格】

一、实现效果&#xff1a; &#x1f970; 表头合并行、合并列 &#x1f970; &#x1f970; 表格内容行、合并列 &#x1f970; thead和tbody分别有单独的合并方法 二、关键代码&#xff1a; <el-table size"mini" class"table-th-F4F6FB" align&qu…

最好的照片恢复软件是什么?您需要了解的十大照片恢复工具

在当今的数字时代&#xff0c;丢失的珍贵照片可能是一件令人心碎的事情。无论是由于意外删除、文件损坏还是意外格式&#xff0c;对专业摄影师和普通拍照爱好者的影响都是巨大的。幸运的是&#xff0c;各种照片恢复软件解决方案可以帮助您恢复这些丢失的记忆。本文根据第一手经…

论文阅读--Simple Baselines for Image Restoration

这篇文章是 2022 ECCV 的一篇文章&#xff0c;是旷视科技的一篇文章&#xff0c;针对图像恢复任务各种网络结构进行了梳理&#xff0c;最后总结出一种非常简单却高效的网络结构&#xff0c;这个网络结构甚至不需要非线性激活函数。 文章一开始就提到&#xff0c;虽然在图像复原…

微调及代码

一、微调&#xff1a;迁移学习&#xff08;transfer learning&#xff09;将从源数据集学到的知识迁移到目标数据集。 二、步骤 1、在源数据集&#xff08;例如ImageNet数据集&#xff09;上预训练神经网络模型&#xff0c;即源模型。 2、创建一个新的神经网络模型&#xff…

python基础篇(9):模块

1 模块简介 Python 模块(Module)&#xff0c;是一个 Python 文件&#xff0c;以 .py 结尾. 模块能定义函数&#xff0c;类和变量&#xff0c;模块里也能包含可执行的代码. 模块的作用: python中有很多各种不同的模块, 每一个模块都可以帮助我们快速的实现一些功能, 比如实现…

概论(二)随机变量

1.名词解释 1.1 样本空间 一次具体实验中所有可能出现的结果&#xff0c;构成一个样本空间。 1.2 随机变量 把结果抽象成数值&#xff0c;结果和数值的对应关系就形成了随机变量X。例如把抛一次硬币的结果&#xff0c;正面记为1&#xff0c;反面记为0。有变量相对应的就有自…