『2023北京智源大会』开幕式以及基础模型前沿技术论坛

『2023北京智源大会』开幕式以及基础模型前沿技术论坛

文章目录

  • 一. 黄铁军丨智源研究院院长
    • 1. 大语言模型
    • 2. 大语言模型评测体系FlagEval
    • 3. 大语言模型生态(软硬件)
    • 4. 三大路线通向 AGI(另外2条路径)
  • 二. Towards Machines that can Learn, Reason, and Plan(杨立昆丨图灵奖得主)
  • 三. 基础大模型——工程化打造Al中的“CPU" | 林咏华 | 智源研究院副院长
  • 四. Build an Al system: Applying Reinforcement learning withhuman feedback (RLHF) on LLM to advance customization
  • 五. 多模态预训练的进展回顾与展望丨中科院自动化所研究员丨刘静
    • 1. 多模态预训练的研究背景一为什么关注?
    • 2. 多模态预训练的研究进展 一 当前怎么做?
    • 3. 多模态预训练的几点思考一以后怎么做?
  • 六. Scaling Large Language Models: From Power Law to Sparsity丨谷歌研究科学家丨周彦祺
    • 1. Moore's Law and Power Law(摩尔定律和幂律)
    • 2. T5: Unified Text-to-Text Transformer T5(统一的文本到文本转换器)
    • 3. Scaling LLM with MoE(使用MoE扩展LLM)
    • 4. Advanced MoE techniques(先进的MoE技术)
    • 5. Q&A(谷歌周彦祺:LLM浪潮中的女性科学家多面手)
  • 参考文章

一. 黄铁军丨智源研究院院长

  • 通用人工智能(AGI)的三条技术路线:信息论模型(目前主流)、具身模型以及自然进化。

在这里插入图片描述

在这里插入图片描述

1. 大语言模型

  • 大模型大该2018年我们就开始了,大模型这个词在国内也是智源2021年首次提出。

在这里插入图片描述

  • 何为大模型?

在这里插入图片描述

  • 智源发布的大模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 智源通用分割模型和meta的segment anything同一天发布

在这里插入图片描述
在这里插入图片描述

  • 视频目标分割与追踪:第一帧图像和对应的物体掩码作为上下文示例,自动对后续视频帧进行分割并追踪

在这里插入图片描述

  • 这样一个模型在自动驾驶、机器人等领域发挥基础性的作用

在这里插入图片描述
在这里插入图片描述

  • 零样本的视频编辑:简单 prompt(提示)即可视频编辑,提示需要做什么。

在这里插入图片描述

  • 在此基础上,进一步扩展了一个新模型Emu

在这里插入图片描述
在这里插入图片描述

  • 悟道.天鹰大模型,目前开源的模型参数量7B+33B,后续会陆续更新…

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 前面提及的模型升级

在这里插入图片描述

2. 大语言模型评测体系FlagEval

  • 大语言模型评测体系FlagEval:

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3. 大语言模型生态(软硬件)

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

4. 三大路线通向 AGI(另外2条路径)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

二. Towards Machines that can Learn, Reason, and Plan(杨立昆丨图灵奖得主)

  • 图灵奖得主杨立昆:GPT模式五年就不会有人用了,世界模型才是AGI未来:https://mp.weixin.qq.com/s/a58hZLxo-1Hxlz5KvsJkBw

三. 基础大模型——工程化打造Al中的“CPU" | 林咏华 | 智源研究院副院长

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • AI:2023年6月9日北京智源大会演讲分享之基础模型前沿技术论坛—《工程化打造AI中的CPU》、《构建一个AI系统:在LLM上应用带有RLHF来推进定制》、《多模态预训练的进展回顾与展望》:https://blog.csdn.net/qq_41185868/article/details/131137542

四. Build an Al system: Applying Reinforcement learning withhuman feedback (RLHF) on LLM to advance customization

在这里插入图片描述

大语言模型近期取得了极大的突破,受到广泛关注。新的技术进步有效地提高了人们的生产力。然而, 如果我们想进一步提升其价值,还需要在个性化定制大语言模型上发力, 使其更贴切的输出我们想要的内容。我们需要建立这样一个产品:它可以高效地收集专业人士对大语言模型的反馈 (humans-in-the-loop), 利用人类反馈的强化学习(RLHF)技术, 让大语言模型在不同领域变得更专业化。

  • 构建一个人工智能系统:在LLM上应用带有人类反馈的强化学习(RLHF)来推进定制
  • 14:05-14:50—《Build an Al system: Applying Reinforcement learning withhuman feedback (RLHF) on LLM to advance customization构建一个人工智能系统:在LLM上应用带有人类反馈的强化学习(RLHF)来推进定制》:https://blog.csdn.net/qq_41185868/article/details/131137542
  • Building a Real-Time Al System:如何利用大语言模型,人类的反馈信息搭建一个实时的系统?来收集反馈信息,去train更好的model,这是一个很贴近生活的例子
  • 一个客户打电话说,4月份的时候买了1个打印机,然后呢现在降价了,然后这个时候接话员会做两件事情。第一件事,我要调出这个客户的信息,确定他确实在4月份购买了商品。然后我要看这个客户他是一个什么样的客户,他的消费频率是什么?他是不是会员,他每次消费的额度是多少?当我确定这是一个非常高价值的客户,我想让他开心,我像留住他,想让他持续的在这里消费。第二件事这个接听员要去查一下公司内部的政策,那公司的退款政策是什么?可能是60天内降价可以退款,但是60天以后就不可以退款,那结合这2者信息,接线员做出最后的决定,首先先抑后扬,60天退款政策已经过了不能退款,但是你非常的特别,我们为了你愿意更该政策,所以我们决定给你一个代金券,你可以下次使用。
  • 这个情况下,大语言模型会做到什么样的应用呢?首先大语言模型有聆听这段对话,大语言模型语义理解根据交流谈话判断出事退款的想法,同时它又走到database中,查询出客户是1个高质量的客户。结合这两种信息,大语言模型推荐给接话员一个回应,可以给一个代金券供下次使用。接线员采纳了大语言模型的推荐,我不可以退款,但是可以给一个代金券,但是他用一种更愉悦的方式传达出了这份信息,让客户更开心。这个时候大语言模型会在后面收集到了这份信息,然后他学会了下次去训练一个排序模型,我下一次的时候会用这种方式去说,这种方式会让客户更满意,这个时候会进行强化学习,收集这些信息。

在这里插入图片描述

五. 多模态预训练的进展回顾与展望丨中科院自动化所研究员丨刘静

  • 14:50-15:35—多模态预训练的进展回顾与展望刘静:https://blog.csdn.net/qq_41185868/article/details/131137542

在这里插入图片描述

近年来,从预训练模型到预训练大模型,从文本、音频、视觉等单模态大模型,到现在的图文、图文音等多模态预训练大模型,无论在学术界还是企业界预训练模型都得到了广泛关注与爆发式发展。多模态预训练通过联合图文音等多模态内容进行模型学习,其发展在多模态理解、搜索、推荐、问答,语音识别与合成,人机交互等应用领域中具有潜力巨大的市场价值。本报告主要包含三方面内容:分析多模态预训练模型的重要性与必要性;回顾当前多模态预训练的最新研究进展;多模态预训练模型主要应用场景与未来展望。

1. 多模态预训练的研究背景一为什么关注?

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2. 多模态预训练的研究进展 一 当前怎么做?

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 模型如何迁移适配到下游任务? 这里的研究范式又分为几个阶段,从最早期的Pretraining + Finetune,也就是通过下游任务的小样本全监督的学习,来实现这样一个的全参数的微调。随着模型规模越来越大,比如百亿千亿万亿,那我其实在少量的这样的下游任务数据上,其实经很难全监督的微调了。因此业内大家就想怎么够去更高效,低代价的去微调这样的模型又变为了一个重要的方向,因此业内不断提出包括Prompt-Tuning、Adaptor-Tuning、LORA,希望去实现这种低代价的这样的一种增量式的微调。
  • 希望模型在微调的过程中,既不要忘记它大模垫该具备的能力,同时能够很好的去适配下午任务,从而实现增量的学习。
  • 另外一块,多模态下游任务可想象的空间是非常大的,简单理解下游任务都是生成类和理解类。


在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3. 多模态预训练的几点思考一以后怎么做?

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

六. Scaling Large Language Models: From Power Law to Sparsity丨谷歌研究科学家丨周彦祺

在这里插入图片描述

深度学习的模型容量和训练时间的加倍均可导致模型质量的线性提升,这个被堪称新摩尔定律的Power Law直接促使了各大科技公司在模型容量和训练时长上的军备竞赛(e.g T5, Megatron, PaLM, GPT, etc.) 该讲座将围绕大语言模型的scaling展开,深入浅出的讨论如何用mixture-of-experts方法在不增加运算量的前提下提高模型的容量,以及如何用AutoML搜索出一款最适配目标硬件的的稀疏模型来。

  • LLM缩放:从幂律到稀疏性

在这里插入图片描述

1. Moore’s Law and Power Law(摩尔定律和幂律)

  • 戈登·摩尔提出,在给定空间中可以装入的晶体管数量每两年翻一番。现在我们正接近摩尔定律的物理极限,因为晶体管的高温使得创建更小的电路成为不可能。当然,芯片的性能不仅受到晶体管的限制,还受到内存带宽(内存墙)等其他原因的限制。

在这里插入图片描述

  • 幂律规则深度学习

在这里插入图片描述

  • 通过统一的文本到文本转换器探索迁移学习的极限

在这里插入图片描述

2. T5: Unified Text-to-Text Transformer T5(统一的文本到文本转换器)

  • 文本到文本的简单运作,将每个问题都定义为以文本作为输入并生成文本作为输出。

在这里插入图片描述

  • C4 Dataset:
  • 从公开可用的Common Crawl获取源数据,这是一个网络爬取的数据集。
  • Common Crawl包含很多嘈杂的“网页提取文本”
  • 数据集在外部是完全可用和可再现的。
  • 应用大量的过滤:
  • 删除不以. , ! " … 结尾的行
  • 删除短行
  • 删除带有不良短语(例如冒犯性词语,“服务条款”,"lorem ipsum"等)的行
  • 在文档之间进行句子级去重复
  • 等等
  • 生成约750 GB的干净英文文本+其他语言中的大量文本。

在这里插入图片描述

  • Experiment实验: 我们选择参数和策略,以尽可能简化流程。

在这里插入图片描述

  • Objective目标

在这里插入图片描述

  • Model Architectures模型架构: 深灰色线表示完全可见掩码,浅灰色线表示因果掩码。

在这里插入图片描述

  • Comparing High Level Approaches for UnsupervisedObjectives对无监督目标的高级方法进行比较

在这里插入图片描述

  • What should you do with 4x compute? 有了4倍的计算能力应该做什么? 更长时间的训练、训练更大的模型和集成都可以提供性能上的正交增强

在这里插入图片描述

  • Scalling Up: 扩展

在这里插入图片描述

  • Hitting and End of Dense Model Scaling:密集模型扩展的极限

在这里插入图片描述

3. Scaling LLM with MoE(使用MoE扩展LLM)

在这里插入图片描述

  • Hitting an End of Dense Model Scaling(达到密集模型扩展的极限)
  • “GLaM: Efficient Scaling of Language Models with Mixture-of-Experts", Nan Du and others, ICML 2022.
  • “GLaM:用混合专家的方式有效扩展语言模型”,Nan Du等人,ICML 2022。

在这里插入图片描述

  • Efficient Scaling of Language Models with MoE(使用MoE进行高效扩展语言模型)
  • 仅解码器
  • ln-context少样本学习
  • 使用GShard Top2路由的稀疏门控网络
  • 总参数量扩展到1.2T,激活参数量为970B

在这里插入图片描述

  • GLaM Model Architecture(GLaM模型架构)
  • 稀疏激活的前馈神经网络
  • GShard Top2门控函数
  • 将密集层与稀疏层交替排列。

在这里插入图片描述

  • Few-shot Results Compared toGPT3(与GPT3相比的少样本结果)
  • 在缩放FLOPs(激活参数)时的NLU和NLG任务的平均少样本性能

在这里插入图片描述
在这里插入图片描述

  • Token-Based MoE hasLimitations…(基于标记的MoE有局限性…)

在这里插入图片描述

  • MoE with Expert Choice Routing(具有专家选择Routing的MoE)
  • 每个专家独立选择前k个标记。
  • 完美的负载均衡
  • 标记可以由可变数量的专家接收。

在这里插入图片描述

  • Expert Choice Gather(专家选择聚合)

在这里插入图片描述

  • Comparison with GLaM 与GLaM的比较
  • 训练效率
  • 达到良好困惑度需要多少步骤?
  • 步骤时间
  • 达到良好困惑度需要多少步骤?
  • EC-CF2的收敛速度比2倍快
  • 每步时间减少20%

在这里插入图片描述

在这里插入图片描述

4. Advanced MoE techniques(先进的MoE技术)

在这里插入图片描述

  • Brainformers: Trading Simplicity for Efficiency Brainformers(以效率换取简单性)
  • 现有的MoE架构在步骤时间上扩展性差。
  • 提出一种非均匀架构,以低秩多专家原语为基础
  • 展示比GLaM更快的训练收敛速度和更快的步骤时间,速度提升5倍

在这里插入图片描述

  • How we derive the model search space?(我们如何得出模型搜索空间?)
  • Transformer是从低秩和多专家派生出来的特殊情况!

在这里插入图片描述

  • Brainformer Search(Brainformer搜索)
  • 基于块的架构搜索空间
  • 计算高效的搜索目标

在这里插入图片描述

  • Training Convergence Comparing to GLaM与GLaM相比的训练收敛速度

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • LLM training is expensive…(LLM的训练成本高昂…)

在这里插入图片描述

  • 动机
  • 用例1:时间相关数据集
  • 跟踪语言趋势,保持数据集更新
    ①每隔几个月收集新样本
    ②谷歌搜索、论坛、对话、维基百科、GitHub等等。
  • 在大型数据集上训练耗时资源
  • 在新样本上训练将更加廉价
  • 用例2:通用预训练数据集->用于对话的数据集
  • 需要在针对目标领域的新数据混合中进行微调,比如聊天机器人。
  • 会出现遗忘现象。

在这里插入图片描述

  • Forgetting遗忘
  • 原始数据集的分布:A
  • 新样本的分布:B
  • 分布从A到B发生变化
  • A和B上的性能都很重要!
  • 构建通用模型是趋势。
  • “遗忘问题”:如果我们只在B上进行训练,A上的性能会下降,假设:新数据按序列进入,我们可能无法“访问”旧数据。

在这里插入图片描述

  • Lifelong Language Pretraining with Distribution-specialized Experts使用专门化分布的专家进行终身语言预训练
  • 基于分布的MoE
  • 逐渐增加更多专家以适应新数据分布
  • 添加正则化以减轻遗忘。

在这里插入图片描述

  • 分布A → B=c
  • 在Tarzan上进行模拟:“A”= 维基/网络,“B”= 非英语,“C”= 对话
  • “正则化”
  • 我们不希望模型过度拟合B
  • 我们不希望模型权重过于偏离A
  • 在适应B的同时对模型进行正则化
  • “扩展”
  • 允许模型在适应新分布时扩展(专家)层

在这里插入图片描述

  • Lifelong Pretraining on MoE:Expansion+Regularization(MoE上的终身预训练:扩展+正则化)
  • 为新分布扩展专家
  • 部分冻结旧的专家/门控
  • 使用“无遗忘学习”(LwF)损失进行训练

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  • Final Thoughts & QA(最后的思考和问答)
  • 持续扩展密集LLM已经达到了极限。
  • MoE变得对进一步推进LLM扩展至关重要。
  • 我们需要更好的MoE架构,以及训练策略。①非均匀架构;②终身学习

在这里插入图片描述

5. Q&A(谷歌周彦祺:LLM浪潮中的女性科学家多面手)

  • 谷歌周彦祺:LLM浪潮中的女性科学家多面手: https://new.qq.com/rain/a/20230529A07QOQ00

参考文章

  • 北京智源大会:https://2023.baai.ac.cn/schedule

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/35677.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

超级AI大脑:全能型学习助理

有句话说在知识的海洋里渴死,说的就是面对海量知识不知如何获取 进而可以理解为不知道如何学习 而现在我们迎来了一个超级大脑, 一个几乎帮助你深度学习的全能助理。 你可以询问超级AI大脑任何内容,回答常常会令你惊喜: 文案创作&…

前沿系列--Transform架构[架构分析+代码实现]

文章目录 前言总体架构总体任务使用 输入部分EmbeddingPosition Encodingwhy实现 注意部分注意力机制/自注意力掩码作用如何工作形状解释 完整实现多头注意力实现Norm处理 FeedForward 以及连接编码器解码器中间层组装 输出层模型组装总结 前言 Transform这玩意的大名我想就不…

android 如何修改系统语言

最近有需求需要去编程实现根据选择去修改系统语言, 根据查资料看setting源码有两种方式, 在这里记录一下. 修改系统语言或者控制系统开关机等操作即使声明了对应权限还是会报错, 这是因为这些操作需要系统权限,这里也会介绍如何使用android studio对应用进行系统签名. 一.如何…

goland 界面变成中文 修改回英文界面

新版本会自动装中文插件 主界面 文件->设置 打开 设置对话框 点击 插件 选择已安装 取消勾选 中文插件 确定 重新启动即可 恢复到原始的英文界面

Android多语言切换/适配——以英语为例

近期在做一个背单词APP来作为毕业设计,在app里面想设计一个切换语言为英语的功能,记录一下本次实现的效果以及步骤。 文章目录 实现效果中文模式英文模式 实现原理实现步骤1、创建相关的value文件夹和string.xml文件2、 在对应的string文件中选择合适的翻…

Android 10.0修改语言设置简体中文(中国)为简体中文(中国大陆)

Android Q中 Settings的语言设置选择列表中简体中文下,默认显示为中国、香港、台湾和新加坡: 如果想修改其显示为中国大陆,就必须修改ICU资源的配置。 ICU ICU 是开源项目, 提供了最新的unicode标准,字符集转换&…

设置日语输入法遇到的各种问题

一旦开始学习日语,就忍不住想在自己的电脑上输入日文,按照网上的各种说法,将win10自带的输入法添加了日语的语言包之后,还有各种小问题,于是又在网上各种搜索,花了不少时间。在此整理一下日语输入遇到的各种…

postman设置成中文

介绍: Postman一款非常流行的API调试工具。其实,开发人员用的更多。因为测试人员做接口测试会有更多选择,例如Jmeter、soapUI等。不过,对于开发过程中去调试接口,Postman确实足够的简单方便,而且功能强大。用户在开发…

postman怎么设置中文

很多小伙伴想问postman怎么如何设置中文?,但问题这个小工具没有人开发,期待业内大神开发一个吧。下面给大家分享下postman设置中文遇到的问题,一起来学习下吧。 postman怎么设置中文 postman设置中文方法 1.进入postman官网,可以…

【Android进阶】17、设置中文:语言地区的本地化、国际化

文章目录 为了国际化的需求我们设置中文版和英文版两个版本的 res/values/strings.xml,通过设置地区,让os自动找对应版本。 在 res 下添加 strings.xml,设置 Locale 为中文,效果如下: 生成后的文件如下图: 其实文件放置在 res/values-zh/strings.xml 中,如下: 在 res/…

百模大战,谁是下一个ChatGPT?

“不敢下手,现在中国还没跑出来一家绝对有优势的大模型,上层应用没法投,担心押错宝。”投资人Jucy(化名)向光锥智能表示,AI项目看得多、投的少是这段时间的VC常态。 ChatGPT点燃AI大爆炸2个月中&#xff0…

什么软件可以文字转语音?这些软件值得收藏

我们的第一感觉是视觉,第二感觉是听觉,当我们不方面使用视觉来获取信息的时候,常常都会使用听觉来获取信息。比如在做家务的时候,我们就可以在旁边播放有声读物,这样子即可以做家务,又可以获取知识内容等。…

录音转文字app有哪些?可以试试这几款录音转文字助手

你知道怎么将手机上的录音文件转换成文字内容吗?生活中我们有时需要记录一些较长的活动内容,手头却没有纸笔,只能先利用手机的录音功能将其记录下来,之后再进行处理。那大家知道手机要怎么将录音文件转文字吗?还在一边…

哪些录音转文字免费软件好用?分享这三款好用的软件

(UC自媒体)录音转文字免费软件哪个好?这三款值得收藏 (CSDN)哪些录音转文字免费软件好用?分享这三款好用的软件 嘿,小伙伴们,如果你是一名正在学习外语的学生,那么一定会遇到听不懂英语音频里面陌生词汇的难题。常反…

录音转文字电脑软件有哪些?录音如何转文字?

现在越来越多的小伙伴步入职场工作,会有自己新的工作方式和规划。有的人为了能让自己尽快适应快节奏的工作状态,会苦思冥想的寻求应对方法。例如有的人会从会议纪要开始着手,即把会议上的音频内容转换为文字、文档输出。那么你们知道录音转文…

文字转语音软件哪个好?这些软件值得收藏

文字转语音免费版软件哪个好?相信有不少小伙伴都有考虑过这个问题,每当自己需要将文字转为语音的时候,就会很头疼,应该用哪款软件?现在市面上有很多种软件可以将文字转成语音,但它们不是有限制次数&#xf…

各大文字转语音软件对比,哪个比较好呢?

现在市场上的文字转语音软件非常多,所以很多人已经挑花了眼。为了帮大家省事,来给大家总结几个比较热门的文字转语音软件,大家可以对比着看看。 1、讯飞配音 使用方式:网页版和APP 声音数量:讯飞配音的声音…

录音转文字软件哪个好用?这些软件值得收藏

相信不少做自媒体的小伙伴,经常都会使用录音来把一些灵光一现的想法或者是遇到比较有趣的事情录制下来吧。这样我们就不会因为手动记录,而导致有时思绪的中断。可是在后期我们对录音文件进行整理的时候,遇到时长比较长的录音,如果…

录音如何转文字?这篇文章教你录音转换文字怎么操作

在当今数字化时代,我们越来越依赖语音录音来记录会议、演讲、采访等各种场合的内容。然而,对于那些需要对录音中的信息进行进一步编辑或搜索的人来说,手动听取并转录录音内容可能会是一项耗时且繁琐的任务。那有没有什么方法可以转换录音文字…

学会这三款软件,可以轻松完成录音转文字操作

在工作中,我们经常需要开会讨论。有时候需要记录的内容很多,手写的速度赶不上语速。那么我们会使用录音机将内容会议内容录制下来,后续再将其转写为文字。不过随着现在转写的工具越来越多,想要找到一款好用的软件也不是那么容易。…