​别急着骂百度,来看看大模型到底怎么用

 

文|光锥智能,作者|周文斌,编辑|王一粟

GPT-4惊艳亮相后,压力来到百度这边。

上台后的李彦宏和百度CTO王海峰都略显紧张,这在多年百度相关活动中还是非常少见。李彦宏坦言,“文心一言对标ChatGPT、甚至是对标GPT-4,门槛是很高的。我自己测试感觉还是有很多不完美的地方。”

文心一言是一个大语言模型、生成式AI产品,发布会上演示了五个使用场景中的综合能力。其中,文学创作、商业文案创作、数理推算是大语言模型常见的能力,在此基础上,中文理解及多模态生成能力更能体现技术水平。

 

到今日晚间,「光锥智能」拿到文心一言的内测邀请码,在提出多个问题测试之后我们发现,文心一言与New Bing虽然有差距,但整体要比预期更好。比如在为商业访谈类栏目起名、对洛希极限的解释上都十分完整。但同时也存在一些不足,比如在计算“同时抽水和放水”的数学问题时,文心一言就出现了审题错误。

 

金玉在前,百度在文心一言发布会召开后,无论是产品口碑,还是股价表现,短期内一定会有压力。毕竟,世界上还只有一个OpenAI。

面对如此大的压力,李彦宏回应了为什么依然要在3月16日公开发布的原因:第一是市场需求,无论是百度的产品,还是客户,都有需求。第二是收集反馈,“一旦有了真实的人类反馈,文心一言的进步速度会非常快,我们都希望它快点成长”。

事实上,在ChatGPT惊艳亮相之前,GPT的1~3版本,都是在长期低调开源测试后,才达到了后面的结果。

短期表现和长期价值还是有所不同,抛开情绪,我们更关心,文心一言和GPT-4在技术上有哪些相同和不同?模型真的是越大越好吗?利用大模型的产业化之路,应该怎么走?

01 “文心一言”对线“GPT-4”

文心一言在发布会上相对出彩的展示,莫过于多模态生成。

在发布会上,李彦宏先是让文心一言为2023智能交通大会生成了一张海报,然后又让其撰写了一段关于智能交通的文字,并让其用四川话读出来,最后还让文心一言用这些素材生成了一段视频。

昨天,在GPT-4的发布会上,Open AI总裁和联合创始人Greg Brockman展示了GPT-4基于一张草图生成网站的过程,让许多人知道了大模型单模态与多模态的区别。

GPT-4是一个典型的多模态预训练模型,它能够支持图像和文本的输入,然后以文本的方式输出。而文心一言展示的则是以文本的方式输入,以文本、语音、图像和视频的方式输出。

输入和输出其实具有本质上的区别。

有AI开发从业者向光锥智能表示,多模态输出其实并不难,难的是输入。比如输出语音,不过是先输出文字然后再加一个TTS技术,已经很成熟了。

而多模态输入,则需要大模型真正“长出眼睛”读懂图片意思,需要在预训练阶段就将图片和图片标注信息放入训练数据中。

比如这次GPT-4令人惊艳的强大,就表现在图片理解上。

给到一个物理题的照片,GPT-4能够读懂题目然后解答。

 

GPT-4还能识别图片中的幽默部分,比如给GPT-4一个长相奇怪的充电器的图片,问为什么这很可笑?GPT-4能回答说,因为VGA线充iPhone。

但无论怎么说,从GPT-4到文心一言都在说明李彦宏的那句话,“多模态是生成式AI一个明确的发展趋势。”

 

据王海峰介绍,文心一言主要脱胎于两大模型,百度ERNIE系列知识增强千亿大模型,以及百度大规模开放域对话模型PLATO。

此基础上,主要采用了六项核心技术,包括监督精调、人类反馈强化学习(RLHF)、提示构建、知识增强、检索增强和对话增强技术。

 

其中,人类反馈强化学习是目前大模型训练中普遍应用到的技术,ChatGPT能够在GPT-3的基础上产生质变,成为跨时代的产品,很大程度上依赖于此。

这些技术中具有百度特色的主要是知识增强、检索增强和对话增强技术。

其中,知识增强主要包含知识内化和知识外用两部分,知识内化又包括语义学习和数据构造,知识外用则包含知识推理和提示构架。

这些技术又都基于百度的知识图谱。所谓知识图谱是一个宏大的数据模型,是指一个由世间万物构成的“实体”以及他们之间的“关系”构建起来的庞大“知识”网络。

百度CTO王海峰曾介绍,“百度构建了世界上最大规模的知识图谱,拥有超过50亿实体,5500亿事实,能够通过语言、听觉、视觉等获得对世界的统一认知,突破了实际应用中场景复杂多变、数据稀缺等难题。”

在这个知识图谱中,除了基础的通用图谱之外,百度还针对不同的应用场景和知识形态,构建了事件图谱、多媒体图谱、行业知识图谱等多种图谱。

检索增强则与百度在搜索引擎上的技术积累有关,简单理解就是,当用户问出一个问题后,文心一言会先通过搜索引擎将知识都检索一遍,然后再筛选整合其中有用的信息作为输出。

最后的对话理解,则包含百度积累的记忆机制,上下文理解,对话规划等等。

除了基础技术架构,百度并没有公布模型结构和参数,而是花了大量的时间用来解释自己在文心大模型、产业大模型、AI技术四层构架上的布局。

由于这都是此前积累的能力,因此这次文心一言的发布,不像是百度研发了一个新产品和新技术,更像是百度将之前所有的工作打包,以文心一言的方式整合输出。所以,我们会在文心一言里看到文心一格的图片生成,会看到已经在百家号应用的自动图文转视频的功能。

就像李彦宏提到的一样,“从某种意义上说,我们已经为此准备了多年,十几年前就开始投入AI研究,2019年就推出了文心大语言模型,今天的文心一言是过去多年努力的延续。”

02 摸着OpenAI过河,让“涌现现象”更有效率发生

虽然除了OpenAI,其他的公司目前都是others,但大家都在摸着GPT过河,在寻找更优质的模型方案。中国公司也一直在积极探索相应大模型的研发和应用,并总结出了许多“中国经验”。

什么样的模型是一个好模型?模型真的是越大越好吗?

要回答这个问题,得先理解,ChatGPT和GPT-4能表现出类人的图片和语言理解能力,就是因为“涌现现象”,说得通俗一点,就是“开窍了”。

涌现现象,是指在当大模型的数规模达到一定程度时,其解决问题的能力就会发生突变。大模型能力的提升,很大程度上依赖于这种涌现能力,也就是“大力出奇迹”。所以,现在模型规模被越做越大,一定程度上因为大家想要通过增大参数规模来获得更多的涌现能力。

目前这一能力通常在百亿、千亿级别的参数区间出现。“但具体多少参数能够出现涌现现象,也与具体任务、具体模型有关,某些任务13B规模即可,有些任务需要540B,大部分要达到70B。”新浪新技术研发负责人张俊林提到。

 

但模型做大之后,却又带来产业落地方面的问题。比如更大的模型通常意味着更大的算力消耗,更高的部署成本,这让一些垂类领域,如学校,医院等场景很难负担得起。

因此,在产生“涌现能力”的阈值后,如何将模型做“小”反而是产业落地的一个重要课题,并且也是技术发展的一个重要方向。

那么问题来了,如何既将模型做小,又能保证涌现能力呢?

张俊林提到几个例子,比如DeepMind发布的Chinchilla和Meta发布的LLaMA,其中Chinchilla的模型规模只有70B,LLaMA的模型规模在7B到65B之间,都是目前规模相对较小的模型。

而从实验结果上看,即使模型规模相对较小也同样可以具备涌现能力,但前提是增加更多的训练数据量。以Chinchilla为例,其对标的模型规模是280B是Gopher,而Chinchilla能够以70B的参数规模做出同样的效果,代价是将训练数据提升了4倍。

 

因此,张俊林认为:“减小模型大小增加训练数据数量,可能不影响小模型的涌现能力。”这成为做小模型的一个前提。“在这样的基础上,我们或许可以先做小,再做大。”

在解决了涌现能力之外,将模型做小的另一个原因在于,现在大模型的许多参数其实并没有被有效利用。

DeepMind在2022年的一个研究中提到,在给定总计算量不变的情况下,模型训练Loss在模型参数量和训练数据量的变化存在一个最优的平衡点。

该研究给出了三种最优计算方式,并且比较了GPT-3等千亿模型,发现它们都没有达到理论上的最优点,这意味着GPT-3庞大的数据其实并没有被充分利用。

达观数据董事长CEO陈运文认为,当下的千亿参数模型可能只发挥了百亿模型的理论效果,一些参数可能被浪费了。换句话说,千亿规模的大模型其实是可以压缩,并做得更小的。

Meta在这方面就曾做过尝试,2023年Meta推出百亿规模的模型LLaMA,虽然参数规模只有百亿,不到GPT-3的十分之一,但通过实验显示在下游任务中的表现好于GPT-3等千亿规模的模型。这其中的关键在于,Meta使用了1.4万亿Token,是GPT-3的近4.7倍。

所以陈运文也认为,“整体来看尽管模型的参数规模越大越好,但性价比更高的参数规模方案仍然值得探索。”

 

除了将“大”模型做“小”更利于产业落地之外,通过更新指令学习方法,用更小的样本获得更好的学习效果也是目前国内在探索的方向。

做这样的探索也和目前中文产业面临的客观环境有关。一方面,中文数据在整个互联网中的占比本身就比较小,仅有5%左右。另一方面,即使数量庞大的英文数据在模型爆炸的今天也面临着即将被耗尽的问题。

有研究预计,互联网上可用的数据资源很有可能会被耗尽,其中高质量的语言数据大约在2026年耗尽,低质量语言数据大约在2050年耗尽,视觉图像数据也将在2060年耗尽。

 

因此,如何提高数据的利用效率成为一个重要的课题。

目前,AI大模型的理解能力主要来源于两个方面,即“预训练+参数微调”以及“预训练+提示学习”,这两个学习方式各有优劣。

其中“预训练+参数微调”会面临资源占用过多,过拟合问题严重,缺乏通用能力等问题。而提示学习也有单一的外部提示信号难以最大限度地激发预训练大模型的能力,从而高质量地完成具体任务的问题。

在这样的背景下,行业提出了从提示学习到指令学习的改变。

所谓指令学习,是指通过若干任务相关提示增强来监督数据,优化模型参数。即通过参数微调提升多任务执行效果,利用提示语出发模型执行特定任务。

 

其核心在于,它仍然像微调一样调整其中的参数来使大模型适应不同的任务,但调整完成之后的模型是一样的,所有的任务都可以对应一个模型。

有了这样的调整,对大模型的训练效率就会提升。

比如在Google的一个案例中,他们在62个数据集中的40个任务进行训练。但模型参数达到百亿规模之后,这几十个参数的联合指令学习却可以解决许多之前未训练的问题。

在这之前,大家普遍应用的是多任务学习,即学习一个任务解决一个任务,没有学习过的任务就没法解决。而在这之后,一些之前没有训练过的任务也能够被解决,即大模型的通用能力在增强。

但要实现这个问题,找到合适的指令就变得非常重要,毕竟不同的任务、不同的样本、用什么样的提示语才能获得更好结果是需要去尝试的。

这也是OpenAI选择免费开放ChatGPT的一个重要原因,因为它需要通过这种方式收集全球的问题指令,来完成大模型的进一步优化。

李彦宏也在文心一言发布会上提到,之所以选择在这个时候发布文心一言,除了许多业务和客户需要这项技术外,也因为文心一言本身需要通过用户使用来收集数据。

针对这个场景,中科院自动化所就提出,能不能通过机器自动去寻找这些提示语,让整个模型的效果变得更好。因此他们提出了统一的提示语学习方法,可以同时建模任务级信息和样本级信息。

这种学习方法的优势在于,它可以为每个任务学习以一个提示,为任务中的每个样本学习一个提示,然后将两类提示信息进行融合,获得最佳提示。

通过统一提示学习方法,中科院自动化研究所的SuperGLEU标准数据集上取得少样本学习的最佳平均性能。

其中,在单任务和句子分析上,Dyanmic-UPL获得了83.2分,GPT-3则是70分。而在双任务和双句子的分析上,Dyanmic-UPL获得70分,GPT-3是49.8分。

 

 

03 得到一个好答案,不如提出一个好问题

GPT-4依然在不断突破着人们对AI认知的可能性,对意图理解的高度提升,并且不仅停留在语言上,更升维到图像里。另外,它还拥有几乎全能的专业和职业技巧,人类生物脑无法比拟的数据存储容量、进化速度。

这几点加起来,就非常可怕。有网友就贴出了一张ChatGPT回答的图片:

 

兴奋之后,技术进步带来的总是焦虑。

18世纪60年代,当珍妮机大规模进入工厂拉开第一次工业革命的大幕时,就曾有大批纺织工人聚集起来,将制作好的“珍妮机”通通捣毁。两百多年后的今天,当ChatGPT风靡全球之后,人们争相讨论的焦点仍然是“谁将会被替代”的问题。

但实际上,“GPT”们要全面替代人可能并不容易。

我们会看到,ChatGPT能够写作,能够做规划,甚至能自动编程、Stable Diffusion能够完成AI绘画,以及各种能自动生成周报,能写诗的大模型和产品层出不穷。

但这些强大的能力背后仍然需要人去操作,这其中甚至需要人具备更多的专业知识。

比如在下面这张图片生成中,创作者对AI的创作进行了详细的规划,包括风格、眼睛、衣服、甚至光线。

 

在这样的限制下,AI就能发挥出比较稳定的结果,生成出高水平的作品。而这些词汇,在大模型的生成训练中被称为“提示词”,提示词越准确生成的结果越好。

从光锥智能获得的一份关于AI绘画的提示词中可以看到,其中涉及到许多专业词汇,比如东方山水画、日本浮世绘、抽象风、墨水渲染、概念艺术、哥特式黑暗等等。

可以看到,对这些词汇背后的含义,用在绘画上的效果以及如何搭配更富有美感,非专业人士其实并不容易掌握。

 

再以编程为例,普通人确实可以随机让ChatGPT编写一条程序,但面对复杂APP时,什么样的提示词能够获得最优的代码,系统整体代码需要如何架构、程序如何编写运行更有效率、AI生成的程序是否存在错误等等,这些也并非普通人上手就能完成的。

也就是说,虽然GPT这类的大模型降低了许多工作的门槛,但这些工作的上限并没有改变。即普通人能够生成一些基础的内容,但要持续、稳定、高质量的生成专业内容,对背后操作人员的专业性仍然具有挑战。

比如在NLP大模型研发领域,由于不同提示语产生的结果往往差异很大,如何为每个问题寻找提示语成为难题。中科院自动化所研究员张家俊提到,现在行业里出现了一个提示工程师的职业,工作就是研究如何为每一个问题寻找最佳的提示语。

也就是说,在大模型应用之后,许多人的工作不是被替代掉了,而是转变了工作性质和工作方式。比如画师从具体动手画一幅画转变成提出想法、丰富细节,然后让AI去做执行。

而这个过程本质上是AI在作为一种工具去提高劳动者的劳动效率。但同时,也是AI在反向给人类工作者提出更高的要求,即在AI能够将一些想法直接变成现实的背景下,相比于给出一个好的答案,不如提出一个好的问题。

正如李彦宏在文心一言发布会上提到的,随着大模型的使用,脑力工作者的效率会有4倍的提升,许多人的工作性质会发生不可逆转的改变。

但不可否认的是,随着大模型的普及,大多数的现有工作和岗位配置的价值定位都需要重新思考。同时我们对于人才培养的标准、筛选模式都需要重新构建。

毕竟GPT-4在考试中已经能够超过80%~90%的学生,如果仅仅依靠考试成绩来筛选人才,那对于大多数岗位来说,不如选择AI。

所以,在AI席卷的未来,人类工作者如何找到新的定位,不仅是某一个人的问题,也是整个社会的问题。

我们原本以为人工智能发展之后,优先替代的会是简单重复劳动,但技术人意外的是,它优先替代的却是有创造性却又不那么强的岗位。

所以,至少目前而言,那些月薪几万的岗位可能会被替代,但你月薪3000搬砖的岗位暂时会比较牢靠。

毕竟,AI大模型也是有成本的,它可比你贵多了(Dog)。

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15448.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Node.js 高级编程之 Stream(我是跟 ChatGPT 学会的)

前言 在做 SSR Stream Render 的时候遇到了 Node.js 的 Stream,但是对其总是一知半解。正好最近 ChatGPT 很火,找他学一学吧,没想到真的把我教会了。PS:文末有跟 ChatGPT 的精彩对话(请忽略我稀烂的英语)。…

《不想放水》

原创:刘教链 * * * 由刘教链和ChatGPT共同填词。原曲:S.H.E.《不想长大》。 为什么就是找不到放水的证据呀 为什么救助的银行都不愿退市啊 我并不希望他拥有比特币和黄金 我惊讶的是假话竟然会变成谎话 为什么美元印钞机要转的那么快 为什么通胀和失业率…

存储器介绍

文章目录 存储系统基本概念存储器的层次存储器的分类存储器的性能指标 主存储器半导体元件的原理存储芯片的基本原理寻址 DRAM和SRAMDRAM的刷新DRAM的地址复用 只读存储器ROM主存储器和CPU的连接位扩展字扩展字位同时扩展补充 双端口RAM和多模块存储器双端口RAM解决多核CPU访存…

OpenAI文档翻译——在不通的场景下如何更好的设计ChatGPT提示词

概述 OpenAI可以被广泛的应用于各种任务,他为各种模型提供使用简单而功能强大的API。你可以输入一些文本作为提示词,OpenAI则会生成对应的提示词补全,在使用过程中这就是会话形式以及能够记住上下文的体现。探索如何生成提示词的最好方法就是…

如何使用ChatGPT 写官方声明?

上海车展宝马Mini展台被指区别对待中外访客,向外国访客送冰淇淋,中国访客索要时则说“没有”,此事引发争议。 对此,宝马官方也发布了官方致歉声明,网友看到声明后,纷纷发布自己的看法,有网友还…

独家专访:OpenAI 的 Sam Altman 谈 ChatGPT 以及通用人工智能如何“打破资本主义”

来源: AI前线 作为 OpenAI 的首席执行官,Sam Altman 领导的这家初创公司是正在快速增长的生成式 AI 行业中最热门且最受关注的一家。在 1 月中旬参观了 OpenAI 的旧金山办事处后,福布斯采访了这位最近不太愿意在媒体上抛头露面的投资者和企业家&#x…

ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(三)

文章目录 ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(三)Text-to-Text 模型ChatGPTLaMDAPEERMeta AI Speech from Brain Text-to-Code 模型CodexAlphacode Text-to-Science 模型Galacti…

千万级入口服务[Gateway]框架设计(三:分层模式)

本文将以技术调研模式编写,非技术同学可跳过。 文章目录 背景分层分发Handle分发hook分发并发分层 管道ChannelDemo 实现 小结 附录 背景 基于组件(插件)模式设计构建的入口服务实现中,使用 Go 原生包 plugin 的时候,会存在功能缺陷问题&am…

ChatGPT配合两款神器,1分钟生成流程图

流程图,工作上再正常不过的一种图形,常见制图方法对比: 传统手动制图:耗时耗力,迁移性差AI 辅助制图:使用自然语言提出需求,零基础快速制图 几款常见的我在用的在线绘图工具推荐: Pr…

面向对象实现游戏聊天中的敏感词屏蔽功能,将敏感词汇用星号***替换

import java.util.Scanner;//新建一个类 public class Replace {// 定义一个字符串String commons;// 建一个替换的方法public void replace() { //控制台输入Scanner sc new Scanner(System.in);// 提示输出(为方便功能实现,此处提示内定的敏感词汇&am…

DreamGPT:让ChatGPT活在梦里!利用幻觉来激发创意灵感

本文来源 新智元 编辑:LRS 【新智元导读】语言模型幻觉从bug变feature! ChatGPT最为人诟病的缺陷就是「胡编乱造」了,可以一本正经地讲一段林黛玉倒拔垂杨柳的故事。 对于真正想了解「林黛玉」或「倒拔垂杨柳」的人来说,这段回答…

这五个问题一下就看出阿里通义千问和ChatGPT的差距了

前言 阿里通义千问申请过了,为了看看达到了什么水平,于是我问题了5个ChatGPT回答过的问题1,这五个问题网上都是没有的,是我自己想出来的。 问题一:小明说今天他吃了一只公鸡蛋,请问小明诚实吗? ChatGPT 这…

chatgpt赋能python:Python模拟终端:打造简单易用的命令行工具

Python模拟终端:打造简单易用的命令行工具 在现代编程中,命令行工具被广泛使用。无论是开发、测试还是维护,都需要通过命令行工具完成。Python的灵活性和强大的库使得开发命令行工具变得更加容易。本文将介绍如何使用Python编写一个简单易用…

Llama 2高调开源颠覆大模型圈!2万亿token训练,打不过GPT3.5

​ 编辑 添加图片注释,不超过 140 字(可选) 来源 | 新智源 ID | AI-era 一觉醒来,Meta直接丢了一颗重磅核弹:Llama 2! 继LLaMA开源后,Meta今天联手微软高调开源Llama 2,一共有7B、…

对话哥伦比亚大学教授俞舟:人工智能公司的竞争,到最后还是产品和服务的竞争...

视学算法报道 编辑:杨德泽 在对谈中,俞舟不像其他创业者那样大谈 ChatGPT 对于行业的巨大影响力,她更加关注产品、更加关注使用产品的人,她不相信 AI 可以替代人类,而是帮助人类提升技能。 在俞舟开始她的对话系统创业…

昨晚,爆了。

昨天晚上,我们微信群爆炸了。 因为星球就聊挣钱,首期小红书电商训练营开放报名,第一期我们准备开放了100个名额。 结果,不到3分钟就爆满了100人,再我们赶紧结束报名的时候,又涌入了40人。 这是我们就聊挣钱…

马斯克在中国的44小时丨多少值得看

ChatGPT狂飙160天,世界已经不是之前的样子。 新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 马斯克中国行的高度神秘性背后,预示特斯拉对于此次行程成果的看重和期待。 作者丨 魏帅 任娅斐 来源丨中国企业家杂…

chatgpt赋能python:Python图像拼接代码:将多张图片合并为一张

Python图像拼接代码:将多张图片合并为一张 如果您需要将多个图片合并成一张大图,那么Python图像拼接代码可以帮助您简化这个过程。这篇文章将为您介绍如何使用Python的Pillow库来合并多个图片,并且展示了一些关于图像拼接常见的问题和技巧。…

开源一个各种USB电缆的测试仪,再也不用担心被只有充电功能的数据线坑了

作者:晓宇,排版:晓宇 微信公众号:芯片之家(ID:chiphome-dy) 01 想知道你的USB Type C数据线是USB2或者USB3吗?大家是否有一些仅有充电功能的USB数据线在你的抽屉里,等待…

OpenAI再出新作,AIGC时代,3D建模师的饭碗危险了!

大家好,我是千与千寻,也可以叫我千寻哥,说起来,自从ChatGPT发布之后,我就开始焦虑,担心自己程序员的饭碗会不会哪天就被AIGC取代了。 有人说我是过度焦虑了,但是我总觉有点危机感肯定没有坏处。(结尾反转,hhh,希望你看下去!) 不过好家伙,还没等AIGC大模型完全替…