【第1节】书生·浦语大模型全链路开源开放体系

目录

  • 1 简介
  • 2 内容
    • (1)书生浦语大模型发展历程
    • (2)体系
    • (3)亮点
    • (4)全链路体系构建
      • a.数据
      • b 预训练
      • c 微调
      • d 评测
      • e.模型部署
      • f.agent 智能体
  • 3 相关论文解读
  • 4 ref

1 简介

  • 书生·浦语 InternLM介绍
    InternLM 是在过万亿 token 数据上训练的多语千亿参数基座模型。通过多阶段的渐进式训练,InternLM 基座模型具有较高的知识水平,在中英文阅读理解、推理任务等需要较强思维能力的场景下性能优秀,在多种面向人类设计的综合性考试中表现突出。在此基础上,通过高质量的人类标注对话数据结合 RLHF 等技术,使得 InternLM 可以在与人类对话时响应复杂指令,并且表现出符合人类道德与价值观的回复

  • 2024.1.17 InternLM V2.0 已经升级成为v2.0 (笔记更新时间2024.4)

  • 重要链接汇总
    官方github地址 | 官方网址 | 【模型中心-OpenXLab 实战营优秀项目】 | 常见问题QA

2 内容

(1)书生浦语大模型发展历程

在这里插入图片描述

(2)体系

在这里插入图片描述
在这里插入图片描述

(3)亮点

在这里插入图片描述在这里插入图片描述主要表现在:

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

(4)全链路体系构建

在这里插入图片描述在这里插入图片描述

a.数据

万卷 : 官方地址
在这里插入图片描述

上海人工智能实验室(上海AI实验室)于2023年8月14日宣布开源发布“书生·万卷” 1.0多模态预训练语料。
据了解,“书生·万卷”的主要构建团队——OpenDataLab旨在建设面向人工智能开发者的超大规模、高质量、多模态开放数据服务平台,致力于打造国内公开数据资源的基础建设。
目前,该平台已建立共享的多模态数据集5500个,涵盖超过1万亿token文本语料、60亿张图像、8亿个视频片段和100万个3D模型。

在这里插入图片描述

b 预训练

在这里插入图片描述

c 微调

在这里插入图片描述
xtuner在这里插入图片描述

d 评测

在这里插入图片描述在这里插入图片描述

  • 重要链接和地址
    司南OpenCompass2.0评测体系官网:https://opencompass.org.cn/
    GitHub主页:https://github.com/open-compass/OpenCompass/

  • 本次发布的OpenCompass2.0,首次推出支撑大模型评测的“铁三角”:
    权威评测榜单CompassRank
    高质量评测基准社区CompassHub
    评测工具链体系CompassKit

基于全新升级的能力体系和工具链,OpenCompass2.0构建了一套高质量的中英文双语评测基准,涵盖语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等多个方面对大模型进行评测分析。通过高质量、多层次的综合性能力评测基准,OpenCompass2.0创新了多项能力评测方法,实现了对模型真实能力的全面诊断。

Alt

  • CompassRank:中立全面的性能榜单

在这里插入图片描述

作为OpenCompass2.0中各类榜单的承载平台,CompassRank不受任何商业利益干扰,保持中立性。同时,依托CompassKit工具链体系中的各类评测手段,保证了CompassRank的客观性。CompassRank不仅覆盖多领域、多任务下的模型性能,还将定期更新,提供动态的行业洞察。与此同时,OpenCompass团队将在榜单中提供专业解读,进一步帮助从业者理解技术深意,优化模型选择。

CompassRank 榜单地址:https://rank.opencompass.org.cn/home

  • CompassHub:高质量评测基准社区

CompassHub是面向大模型能力评测开源开放的基准社区,提供海量的面向不同能力维度和行业场景的评测基准。OpenCompass2.0欢迎评测用户在CompassHub上传各自构建的高质量评测基准,发布相应的性能榜单,汇聚社区力量助力大模型社区整体快速发展。

CompassHub社区地址:https://hub.opencompass.org.cn/home

  • CompassKit:大模型评测全栈工具链

OpenCompass2.0对广受欢迎的初代评测工具库进行了全面优化,推出大模型评测全栈工具链CompassKit,不仅提供完整的开源可复现评测代码,更提供了丰富的模型支持和高效的分布式评测策略。

CompassKit工具链地址:https://github.com/open-compass

CompassKit中包含:

OpenCompass升级版大语言模型评测工具:提供全面的大模型评测功能,包括广泛模型支持、高效评测速度、主观评测能力、数据污染检查和丰富的长文本评测能力。

VLMEvalKit多模态大模型评测工具:一站式多模态评测工具,支持主流多模态模型和数据集,助力社区比较不同多模态模型在各种任务上的性能。

Code-Evaluator代码评测服务工具:提供基于docker的统一编程语言评测环境,确保代码能力评测的稳定性和可复现性。

MixtralKit MoE模型入门工具:为MoE模型初学者提供学习资料、模型架构解析、推理与评测教程等入门工具。

e.模型部署

在这里插入图片描述

f.agent 智能体

在这里插入图片描述在这里插入图片描述
agentlego : 多功能、多模态的AI工具箱

3 相关论文解读

InternLM2 技术报告: https://arxiv.org/pdf/2403.17297.pdf

通义千问 - 文档解读

  • 摘要翻译:
    随着诸如ChatGPT和GPT-4这样的大型语言模型(LLMs)的发展,引发了关于通用人工智能(AGI)到来的讨论。然而,在开源模型中复制此类进展颇具挑战性。本文介绍了一款名为InternLM2的开源LLM,它通过创新的预训练和优化技术,在六个维度、三十个基准测试以及长程建模和开放式主观评估方面超越了其前身。InternLM2的预训练过程详尽阐述,突出了包括文本、代码及长程数据在内的多种数据类型的准备。该模型在预训练和微调阶段初始以4k令牌进行训练,随后提升至32k令牌,展现出在20万字符级别的“大海捞针”测试中的卓越性能。进一步地,通过监督精细调整(Supervised Fine-Tuning, SFT)和新颖的基于人类反馈的条件在线强化学习策略(Conditional Online Reinforcement Learning from Human Feedback, COOL RLHF),InternLM2解决了人类偏好冲突和奖励破解问题,并实现了对模型的校准。通过发布不同训练阶段和模型规模的InternLM2模型,我们为社区提供了有关模型演进的深入见解。

  • 各标题内容翻译:
    1.引言
    讨论大型语言模型的进步与开源领域面临的挑战,引出InternLM2模型的推出及其优势。
    2.基础设施
    描述InternLM2的研发基础设施,如InternEvo平台和模型结构设计。
    3.预训练
    细致说明预训练数据的来源与处理,包括文本数据、代码数据和长程上下文数据的准备。
    4.性能评估与分析

提供全面的语言模型在多个领域和任务上的表现评估与分析。
a.下游任务性能
b.全面评估:在一系列涵盖人文科学、社会科学、STEM等多个学科领域的多选题数据集(如MMLU)上进行基准测试。
c.语言与知识应用
d.推理与数学能力验证:涉及WinoGrande、HellaSwag和BigBench Hard等推理与数学相关的多项选择题数据集。
e.多编程语言编码能力
f.长程建模性能
g.工具利用能力

  • 文档内容相关亮点与优点分析:

InternLM2模型的主要亮点在于:

(1) 开源性:作为一款开源LLM,InternLM2在各种综合评测和基准测试中表现出优于前代模型的能力,这有利于学术界和产业界共同推进AI技术的发展和应用。
(2)预训练技术创新:采用多样化的预训练数据类型,并有效捕捉长程依赖关系,提升了模型在长文本理解和生成、跨领域知识运用等方面的表现。
(3)强化学习与校准:通过SFT和COOL RLHF策略对模型进行进一步校准,解决了大规模预训练模型在处理复杂情境下的人类偏好表达和奖励机制安全问题。
(4)表现优异:在阅读理解、开放域问答、多语言翻译等多种NLP下游任务上取得突出成绩,显示出强大的语言理解和知识应用能力。

  • 这篇技术报告的主要贡献有两个方面:

1.开源高性能的InternLM2模型:团队发布了各种规模的InternLM2模型,包括1.8B、7B和20B参数量级的版本,并且这些模型在主观和客观评价中均表现出色。为了便于社区分析SFT(监督微调)和RLHF(基于人类反馈的强化学习)训练阶段的变化,他们还提供了不同训练阶段的模型版本。

2.针对长上下文场景的设计与实践:InternLM2针对长序列上下文信息处理进行了特别优化,能够在一个200k的上下文窗口中近乎完美地识别“Needle-in-a-Haystack”测试中的目标元素。研究人员详尽介绍了在整个预训练、SFT以及RLHF各个阶段训练长上下文LLM的经验和方法。

3.全面的数据准备指南:团队详细记录了为LLM准备不同类型数据的过程,包括预训练数据、领域特异性增强数据、SFT数据以及RLHF数据,这将有助于社区更有效地训练大型语言模型。

通过上述贡献,InternLM2项目不仅展示了在众多基准任务上的优越性能,而且为如何分阶段地进行大规模语言模型的研发提供了一套完整的解决方案。

4 ref

1.书生·浦语大模型全链路开源开放体系(视频)
2.一文读懂司南大模型评测体系OpenCompass
3.通义千问

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/313399.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入理解GCC/G++在CentOS上的应用

文章目录 深入理解GCC/G在CentOS上的应用编译C和C源文件C语言编译C语言编译 编译过程的详解预处理编译汇编链接 链接动态库和静态库静态库和动态库安装静态库 结论 深入理解GCC/G在CentOS上的应用 在前文的基础上,我们已经了解了CentOS的基本特性和如何在其上安装及…

Python零基础从小白打怪升级中~~~~~~~多线程

线程安全和锁 一、全局解释器锁 首先需要明确的一点是GIL并不是Python的特性,它是在实现Python解析器(CPython)时所引入的一个概念。 GIL全称global interpreter lock,全局解释器锁。 每个线程在执行的时候都需要先获取GIL,保证同一时刻只…

IDEA plugins 好用的插件集

IDEA plugins RestfulToolkit 1. 安装插件 File–>Settings --> plugins --> RestfulToolkit 2.插件有点: 2.1、帮助把项目中的 RestURL 按照项目汇总出来,找到对应URL直接在IDEA上面进行请求测试。 2.2、开发Java Web页面项目,经…

学习笔记------时序约束之时钟周期约束

本文摘自《VIVADO从此开始》高亚军 主时钟周期约束 主时钟,即从FPGA的全局时钟引脚进入的时钟或者由高速收发器输出的时钟。 对于时钟约束,有三个要素描述:时钟源,占空比和时钟周期。 单端时钟输入 这里我们新建一个工程&#x…

【Proteus】51单片机对直流电机的控制

直流电机:输出或输入为直流电能的旋转电机。能实现直流电能和机械能互相转换的电机。把它作电动机运行时是直流电动机,电能转换为机械能;作发电机运行时是直流发电机,机 械能转换为电能。 直流电机的控制: 1、方向控制…

手撕AVL树(map和set底层结构)(1)

troop主页 今日鸡汤:Action may out always bring happiness;but there is no happiness without action. 行动不一定能带来快乐,但不行动一定不行 C之路还很长 手撕AVL树 一 AVL树概念二 模拟实现AVL树2.1 AVL节点的定义 三 插入更新平衡因子&#xff0…

vim相关指令

vim的各种模式及其转换关系图 vim 默认处于命令模式!!! 模式之间转换的指令 除【命令模式】之外,其它模式要切换到【命令模式】,只需要无脑 ESC 即可!!! [ 命令模式 ] 切换至 [ 插…

联合体共用体--第二十三天

1.结构体元素有各自单独的空间 共用体元素共享空间,空间大小由最大类型确定 2.结构体元素互不影响,共用体赋值会导致覆盖

javaWeb智能医疗管理系统

简介 在当今快节奏的生活中,智能医疗系统的崛起为医疗行业带来了一场革命性的变革。基于JavaWeb技术开发的智能医疗管理系统,不仅为医疗机构提供了高效、精准的管理工具,也为患者提供了更便捷、更个性化的医疗服务。本文将介绍一个基于SSM&a…

一些重新开始面试之后的八股文汇总

一、内存中各项名词说明 1、机器内存概念说明 linux中的free命令可以查看机器的内存使用情况,vmstat命令也可以 其中不容易被理解的是: 内存缓冲/存数(buffer/cached) 1.buffers和cache也是RAM划分出来的一部分地址空间 2.buff…

SQL优化——统计信息

文章目录 1、统计信息1.1、表的统计信息1.2、列的统计信息1.3、索引的统计信息 2、统计信息重要参数设置3、检查统计信息是否过期4、扩展统计信息5、动态采样6、定制统计信息收集策略 只有大表才会产生性能问题,那么怎么才能让优化器知道某个表多大呢?这…

移动硬盘故障解析:NTFS属性0字节,双击无法访问的数据恢复之道

一、故障现象:移动硬盘NTFS属性0字节,双击无法访问 在日常使用移动硬盘的过程中,有时我们会遇到一个令人困惑的问题:移动硬盘在接入电脑后,显示其属性为NTFS格式,但容量却显示为0字节,且双击无…

【Delphi 爬虫库 1】GET和POST方法

文章目录 1.最简单的Get方法实现2.可自定义请求头、自定义Cookie的Get方法实现3.提取响应协议头4.Post方法实现单词翻译 爬虫的基本原理是根据需求获取信息并返回。就像当我们感到饥饿时,可以选择自己烹饪食物、外出就餐,或者订外卖一样。在编程中&#…

airtest-ios真机搭建实践

首先阅读4 ios connection - Airtest Project Docs 在Windows环境下搭建Airtest对iOS真机进行自动化测试的过程相对复杂,因为iOS的自动化测试通常需要依赖Mac OS系统,但理论上借助一些工具和服务,Windows用户也可以间接完成部分工作。下面是…

软考中级工程师网络技术第二节网络体系结构

OSPF将路由器连接的物理网络划分为以下4种类型,以太网属于(25),X.25分组交换网属于(非广播多址网络NBMA)。 A 点对点网络 B 广播多址网络 C 点到多点网络 D 非广播多址网络 试题答案 正确答案: …

数据结构初阶:二叉树(二)

二叉树链式结构的实现 前置说明 在学习二叉树的基本操作前,需先要创建一棵二叉树,然后才能学习其相关的基本操作。由于现在对二叉树结构掌握还不够深入,为了降低学习成本,此处手动快速创建一棵简单的二叉树,快速进入二…

学习Rust的第5天:控制流

Control flow, as the name suggests controls the flow of the program, based on a condition. 控制流,顾名思义,根据条件控制程序的流。 If expression If表达式 An if expression is used when you want to execute a block of code if a condition …

list基础知识

list 1.list 的定义和结构 list 是双向链表&#xff0c;是C的容器模板&#xff0c;其接收两个参数&#xff0c;即 list(a,b) 其中 a 表示指定容器中存储的数据类型&#xff0c;b 表示用于分配器内存的分配器类型&#xff0c;默认为 list <int>; list 的特点&#xff1a;…

springboot中mongodb连接池配置-源码分析

yml下spring.data.mongodb 以前mysql等在spring.xxx下配置&#xff0c;现在springboot新版本&#xff08;小编3.2.3&#xff09;在spring.data.xxx下了&#xff0c;如下所示&#xff0c;mongodb的配置在spring.data.mongodb下&#xff1a; 连接池相关参数配置-源码分析 拼接在…

STM32应用开发——BH1750光照传感器详解

STM32应用开发——BH1750光照传感器详解 目录 STM32应用开发——BH1750光照传感器详解前言1 硬件介绍1.1 BH1750简介1.2 硬件接线 2 软件编程2.1 软件原理2.1.1 IIC设备地址2.1.2 IIC读写2.1.3 BH1750指令集2.1.4 BH1750工作流程2.1.5 BH1750测量模式 2.2 测试代码2.3 运行测试…