格局打开,Meta 发布免费商业应用的开源 AI 模型 Llama 2,网友:微软又赢麻了!...

24c0ea61830c58789f307f5d9fc8c0fe.gif

整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

  • 昔日的竞争对手,今日的合作盟友;

  • 忽如一夜春风来,开源大模型迎来新局面;

  • 今天是 OSS AI 胜利的一天;

随着 Meta 最新发布一个新的开源 AI 模型——Llama 2,网上盛赞的声音不绝于耳,甚至图灵奖得主、卷积网络之父、Meta 首席人工智能科学家 Yann LeCun 更是直言,「这将改变 LLM 市场的格局」。

4c012fe7193247f81687f88fc5c12a6f.png

而 Llama 2 之所以能引起这么大的反响,不仅是因为它是开源的,更主要的原因便是它可以被免费地用于研究和商业用途。与此同时,Meta 还与微软强强联手,旨在驱动 OpenAI 的 ChatGPT、Bing Chat 和其他现代聊天机器人等应用程序。

在 Meta 看来,「开放的方法是当今人工智能模型开发的正确方法,特别是在技术快速发展的生成领域。通过公开提供人工智能模型,它们可以使每个人受益。为企业、初创企业、企业家和研究人员提供其开发的工具,这些工具的开发规模是他们自己难以构建的,并以他们可能无法获得的计算能力为后盾,将为他们以令人兴奋的方式进行实验。」

仅是这一点,便是当前很多专注于大模型开发的企业无法做到的,也如网友评价的那番,格局一下被打开。

75ce170df7853ccd186fac0e60ec456b.png

Llama 2 的前身

今日发布的 Llama 2 是 Llama(大羊驼)的后续版本。

今年 2 月,Meta 首次公开发布 LLaMA,作为具有非商业许可证的开源版本。这是一种先进的基础大型语言模型,旨在帮助研究人员推进 AI 这一子领域的工作。更小、性能更高的模型(例如 LLaMA)使研究界中无法访问大量基础设施的其他人能够研究这些模型,从而进一步实现这一重要且快速变化的领域的访问民主化。

彼时,Meta 提供多种尺寸的 LLaMA(7B、13B、33B 和 65B 参数)。仅从功能上来看,Llama 可以根据提示生成文本和代码,与其他类似聊天机器人的系统相当。

然而,当时由于担心被滥用,Meta 决定限制对模型的访问,所以也只是对具有一定资格的研究者开放,还需要写申请表格等。

不过,令人没想到的是,不久之后便有人将 LLaMA 的权重(包括经过训练的神经网络的参数值文件)泄露到了 torrent 网站,使得并没有完全开放的 LLaMA 大模型短时间内在 AI 社区大规模扩散开。

很快,经过微调的 LLaMA 的诸多模型如雨后春笋般涌现,“羊驼”家族一时太过拥挤,如斯坦福发布了 Alpaca(羊驼)、UC 伯克利开源了 Vicuna(小羊驼)、华盛顿大学提出了 QLoRA 还开源了 Guanaco(原驼)...国内哈工大还基于中文医学知识的 LLaMA 模型指令微调出了一个“华驼”。

时下,Llama 2 的发布将这款开源大模型推向一个新的高度。相比上一代 Llama 模型,经过混合公开数据的训练,Llama 2 的性能有了显著提高。

4a5c4fac160c7f2848928bef322ffad6.png

Llama 2:从 7B 到 70B 参数不等

为此,Meta 发布了一篇长达 76 页的论文《Llama 2: Open Foundation and Fine-Tuned Chat Models》详述 Llama 2 大模型的预训练、微调、安全性等相关的工作。

2acdce3c3e877c106654920008b551d2.png

  • 论文地址:https://scontent-lax3-2.xx.fbcdn.net/v/t39.2365-6/10000000_663429262362723_1696968207443577320_n.pdf?_nc_cat=101&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=5ol-jUSglG4AX_EKgWk&_nc_ht=scontent-lax3-2.xx&oh=00_AfC4pQWErthyr1jwgSScKeyjXW3wwEUnqvIh7MNeb-Et3g&oe=64BBB691

据论文显示,Llama 2 有两种版本:Llama 2 Llama 2-Chat,后者针对双向对话进行了微调。Llama 2 和 Llama 2-Chat 进一步细分为不同复杂程度的版本:70 亿个参数、130 亿个参数和 700 亿个参数。

1ee5cf11edb7919f8a765648c3122d9a.png

Meta 将 Llama 2 预训练语料库的规模增加了 40%,这一款模型(基本模型)接受了 2 万亿个 token 的训练,上下文窗口包含了 4096 个 token,相比上一代,提升了一倍。上下文窗口决定了模型一次可以处理的内容的长度。在硬件方面,Meta 都使用了 NVIDIA A100。

Meta 还表示,Llama 2 微调模型是为类似于 ChatGPT 的聊天应用程序开发的,已经接受了“超过 100 万条人工注释”的训练。

cc3b6a7e2fbf4c7d299a38255b30899c.png

不过,Meta 在论文中并没有透露训练数据的具体来源,只是说它来自网络,其中不包括来自 Meta 的产品或服务的数据。

根据官方基准测试,Llama 2 在开源模型领域,一马当先。其中,Llama 2 70B 模型的性能优于所有开放源码模型。

941b58d8d77be3138cb73a0384421435.png

和闭源的大模型相比,Llama 2 70B 在推理任务上接近 GPT-3.5,但在编码基准上存在显著差距。同时,其在性能上还无法与 OpenAI 的 GPT-4、PaLM-2-L 相媲美,在计算机编程方面 Llama 2 明显落后于 GPT-4。

709bf12e35819a7438ba5555d5587057.png

论及 Llama 2 此次真正的优势,Nvidia 高级 AI 科学家 Jim Fan 高度评价道:

  • Llama-2 的训练费用可能超过 2000 万美元。Meta 通过发布具有商业友好许可的模型,为社区提供了令人难以置信的服务。由于许可证问题,大公司的人工智能研究人员对 Llama-1 持谨慎态度,但现在我认为他们中的很多人都会加入进来,贡献自己的力量。

  • Meta 的团队对 4K 提示进行了人类研究,以评估 Llama-2 是否有用。他们使用 "胜率 "作为比较模型的指标,其精神与 Vicuna 基准类似。70B 模型与 GPT-3.5-0301 大致持平,表现明显强于 Falcon、MPT 和 Vicuna。

    与学术基准相比,我更相信这些真实的人类评级。

  • Llama-2 还没有达到 GPT-3.5 的水平,主要是因为它的编码能力较弱。在 "HumanEval"(标准编码基准)上,它还不如 StarCoder 或其他许多专门为编码而设计的模型。尽管如此,我毫不怀疑 Llama-2 将因其开放的权重而得到显著改善。

  • Meta 团队在人工智能安全问题上不遗余力。事实上,这篇论文几乎有一半的篇幅都在谈论安全、红线和评估。我们要为这种负责任的努力鼓掌!

    在之前的研究中,帮助性和安全性之间存在着棘手的权衡问题。Meta 通过训练两个独立的 reward 模型来缓解这一问题。这些模型还没有开源,但对社区来说非常有价值。

  • 我认为 Llama-2 将极大地推动多模态人工智能和机器人研究。这些领域需要的不仅仅是黑盒子访问 API。

    到目前为止,我们必须将复杂的感官信息(视频、音频、三维感知)转换为文本描述,然后再输入到 LLM,这样做既笨拙又会导致大量信息丢失。将感官模块直接嫁接到强大的 LLM 上会更有效。

  • Llama 2 的论文本身就是一部杰作。GPT-4 的技术详解论文只分享了很少的信息,而 Llama-2 则不同,它详细介绍了整个细节,包括模型细节、训练阶段、硬件、数据管道和注释过程。例如,论文对 RLHF 的影响进行了系统分析,并提供了漂亮的可视化效果。

  • 引用第 5.1 节:"我们认为,LLMs 在某些任务中超越人类注释者的超强写作能力,从根本上说是由 RLHF 驱动的"。

545f32d270045a32086fec0d7526d06a.png

来源:https://twitter.com/DrJimFan/status/1681372700881854465

不过,值得注意的是,Llama 2 虽然允许了商业使用,但是它在社区许可协议中还添加了一条附加商业条款:

如果在 Llama 2 版本发布之日,被许可方或被许可方的关联公司提供的产品或服务的每月活跃用户数在上一个日历月中超过 7 亿,则您必须向Meta申请许可,Meta 可以自行决定向您授予该权利,并且您无权行使本协议项下的任何权利,除非或直到 Meta 明确授予您此类权利。

13a88ce7d409068dfeedf4e1ded0edf5.png

这意味着一些大厂,譬如亚马逊、Google 这样的巨头想要使用 Llama 2,还存在一定限制。

babeaa886d54db94d68937bb34c6f03a.png

37fdb876183ce1fd910f61527e6d43a8.png

Meta 与微软强强联手

当然,Meta 也并没有将所有大厂拒绝门外。在此次官方公告中,Meta 宣布了和微软的深度合作。

其中,作为 Llama 2 的首选合作伙伴微软,Meta 表示,从今天开始,Llama 2 可在 Azure AI 模型目录中使用,基于此,使用 Microsoft Azure 的开发人员能够使用 Llama 2 进行构建,并利用其云原生工具进行内容过滤和安全功能。

c149b798046d47711cccdcb85d6f4e10.png

与此同时,Llama 2 还经过优化,可以在 Windows 上本地运行,为开发人员提供无缝的工作流程,为跨不同平台的客户带来生成式 AI 体验。Llama 2 也可通过 Amazon Web Services (AWS)、Hugging Face 和其他提供商获取。

有网友评论,微软这一波又赢了!

2577764fd2be90a8ef1c938d0a3c9f0b.png

除了与微软合作之外,Meta 也与高通进行了合作。高通宣布,“计划从 2024 年起,在旗舰智能手机和 PC 上支持基于 Llama 2 的 AI 部署,赋能开发者使用骁龙平台的 AI 能力,推出激动人心的全新生成式 AI 应用。”

9f43ab44edc3ad0e1761c9b8d45cefd4.png

没有 100% 完美的大模型

不过,对于 Llama 2,Meta 公司也承认它并非绝对的完美,因为其测试不可能捕获所有现实世界场景,并且其基准测试可能缺乏多样性,换句话说,没有充分涵盖编码和人类推理等领域。

Meta 还承认,Llama 2 与所有生成式 AI 模型一样,在某些层面存在偏差。例如,由于训练数据的不平衡以及训练数据中存在“有毒”文本,它可能会制造“幻觉”、生成“有毒性”的内容。

针对这一点,Meta 选择和微软合作的一部分,也包括使用 Azure AI Content Safety,该服务旨在检测 AI 生成的图像和文本中的“不当”内容,以减少 Azure 上有毒的 Llama 2 输出。

同时,Meta 在论文中强调 Llama 2 用户除了遵守有关“安全开发和使用”的准则外,还必须遵守 Meta 的许可条款和可接受的使用政策,在一定程度上减少有偏差性的内容。

582840d185891e93021dd050efccb437.png

开源大模型的未来

最后,如果说 OpenAI 引领大模型赛道,那么 Meta 则开辟了开源大模型的新大门。

以开源的方式,汇聚更多的创新,Llama 2 的开源也为众人预测中的“未来,开源大模型会主导整个大模型的发展方向”带来更多可能性。

这也正如 Ars Technica 总结的:开源人工智能模型的到来,不仅鼓励透明度(用于制作模型的训练数据而言),而且促进经济竞争(不将技术限制于大公司)、鼓励言论自由(没有审查制度),并使人工智能的访问民主化(没有付费专区限制)。

同时,为了避免 Llama 2 开源存在的潜在争议,Meta 还同时发布了一封主题为《支持 Meta 对当今人工智能的开放方法的声明》的声明,其写道:

“我们支持对人工智能采取开放式创新方法。负责任和开放式创新为我们所有人提供了参与人工智能开发过程,为这些技术带来可见性、审查和信任。今天开放的 Llama 模型将使每个人都从这项技术中受益。”

截至目前,已有近百位 AI 专家参与签名,其中包括 Drew Houston(Dropbox 首席执行官)、Matt Bornstein(Andreessen Horowitz 合伙人)、Julien Chaumond(Hugging Face 首席技术官)、Lex Fridman(麻省理工学院研究科学家)和 Paul Graham(Y Combinator 的创始合伙人)等。

当然,也不容忽视的是,无论是开源还是闭源大模型,其都面临着复杂的法律问题,因为他们需要判别用于训练的数据池中是否存在受版权保护的资源。如何有效避免这些问题,也成为这些大模型开发公司下一阶段需要解决的事情。

目前,任何人都可以通过在 Meta 网站上填写表格(https://ai.meta.com/resources/models-and-libraries/llama-downloads/)来请求下载 Llama 2 ,想要尝鲜的小伙伴不妨一试!

更多资料详见:

  • 论文地址:https://scontent-lax3-2.xx.fbcdn.net/v/t39.2365-6/10000000_663429262362723_1696968207443577320_n.pdf?_nc_cat=101&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=5ol-jUSglG4AX_EKgWk&_nc_ht=scontent-lax3-2.xx&oh=00_AfC4pQWErthyr1jwgSScKeyjXW3wwEUnqvIh7MNeb-Et3g&oe=64BBB691

  • Llama 2:https://ai.meta.com/llama/

  • Llama 2申请地址:https://ai.meta.com/resources/models-and-libraries/llama-downloads/

  • Meta 官方公告:https://about.fb.com/news/2023/07/llama-2/

  • 公开信:https://about.fb.com/news/2023/07/llama-2-statement-of-support/

推荐阅读:

▶微软Office AI工具定价每人每月30美元;Meta开源免费可商用大语言模型Llama 2;美团申请美团光年商标|极客头条

▶“仅 1 行代码,我们改了 6 天!”

▶别再说 “技术债” 了!

9de6c8f2f776879f50cbba8dd0fd2e78.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/20394.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

利用CHATGPT:单击即可创建 POWERPOINT 演示文稿PTT

​您是否经常花大量时间制作 PowerPoint 演示文稿?如果你这样做,你并不孤单。创建演示文稿可能会占用大量时间,而且可能非常无聊。但如果有一种简单快速的方法来制作 PowerPoint 演示文稿呢?使用ChatGPT,您只需点击一下按钮即可创建精美的PPT! 在本文中,我们将解释如何…

国外问卷调查回答问题有什么技巧?

大家好,我是小飞匠,今天来聊聊国外问卷调查回答问题有什么技巧? 一、刷问卷的时间很重要 1、找对赚钱时间。调查公司也是上5天班的,一般工作日问卷新而且多,比较容易通过。周末调查问卷少,有也可能是剩查…

仿造问卷星--开发一套调查问卷设计工具(3/3)--完整流程

1,定义一个结果的对象: let resultObj {id: 0,name: "",questions: [], };id,name和questions分别对应问卷id,问卷名称和问卷题目。 2,结果赋值 用户点击生成问卷按钮时, 分别从id和name文本…

【问卷调查发布系统的设计与实现】

系列文章目录 在当前社会,随着信息化的高速发展,收集数据的传统方法——问卷调查法也在发生改变。此问卷调查系统,可以帮助用户在短时间内创建收集数据的问卷,目的是突出高效性、绿色性以及便捷性。在设计过程中,分析…

海外调查问卷渠道平台

大家好,我是跨境搬砖领路人!我会在这里,每天给大家分享各种国外问卷的知识和技巧! 在如今这个社会,对目前的年轻人,特别是男生来说,他们面临的压力是极其大的。大多数人,一毕业就出…

大学生社交网络问卷调查,社交情况问卷调查报告

问卷调查怎么做? 用问卷网做问卷调查十分简便,基本流程如下:第一步:搜索问卷网,找到官方网站,登录网站。第二步:点击页面中心的创建第一份问卷按钮,开始创建您的问卷。 第三步&…

你还在用问卷星?微信制作调查问卷他来了。

问卷星,金数据之类的调查问卷工具用到最后发现都是要收费了,但是大部分人根本不想付费去制作问卷调查。 免费的问卷调查工具:使用直接再微信小程序搜索“创建问卷” 今天要说的是这个问卷调查工具,它是微信的小程序,满…

市场调查与分析|设计问卷|修改问卷|发放问卷

目录 1.调查问卷设计初衷 2.对用户选择宠物食品看重因素量表的信度检验 3.对用户选择宠物食品看重因素量表的效度检验 4.问卷修改 1.调查问卷设计初衷 在问卷设计完成后进行预调查预试样本主要用来对问卷中的量表进行信、效度检验,根据检验结果对量表做出必要…

调查问卷表单

石家庄邮电职业技术学院专属活动第2期:【校园前端学习笔记】主题征文石家庄邮电职业技术学院社区 学号后四位:0233(必填) 邀请人ID:(非必填) 调查问卷 最终效果 实现计划 设置问卷样本轮廓为…

表单:调查问卷

石家庄邮电职业技术学院专属活动第2期:【校园前端学习笔记】主题征文石家庄邮电职业技术学院社区 学号后四位:0222 在日常生活中,我们经常会做一些调查问卷。当我们学习了Web前端开发技术与应用,我们也可以尝试做一个调查问卷。 …

移动开发——问卷调查

设计思路 首先问卷调查需要两个页面,一个是用户进行问题选项选择的问卷界面,一个是用户问卷调查结果的反馈页面。问卷界面有题目,单选,有多选,还有文本编辑框,以及两个按钮,一个提交&#xff0…

MIT教授Tegmark:GPT-4敲响警钟,百年后人类何去何从丨智源大会嘉宾风采

导读 一封呼吁暂停大模型研究6个月的公开信让一家名为未来生命研究所(Future of Life Institute 简称:FLI)站上了风口浪尖。这家研究所的联合创始人Max Tegmark是来自麻省理工学院的物理学家和人工智能研究员,《生命3.0在人工智能…

AI终极问题最后一公里——机器意识,UCL汪军教授谈克服深度学习根本性问题...

来源:机器之心 1 月 11 日,在机器之心 AI 科技年会上,伦敦大学学院(UCL)计算机系教授、上海数字大脑研究院联合创始人、院长汪军发表主题演讲《机器意识人工智能终极问题 “最后一公里”》。在演讲中,他主要…

泪目!上海00后小伙AI「复活」奶奶,100%还原音容笑貌,却引发巨大争议

【导读】最近,00后小伙用AI技术和奶奶实现「对话」,数字生命要成为现实了吗? 你有没有特别想念的人?可能ta是你的亲人,也可能是你的伴侣。 无论ta是谁,在我们的回忆中永远有他们的一席之地,他…

理解世界是一件特有趣的事,对吗,马斯克?

日心说到底“可怕”在哪里?其实它不过揭露了一个事实:人类并不是宇宙的中心,并没有得到造物主的特别关照。因此有人说,ChatGPT是AI时代的日心说。 2023年7月13日,马斯克宣布了他在AI领域的雄心:一家名为xAI…

万字长文深入浅出理解ChatGPT工作原理

本文转自:【原创】万字长文深入浅出理解ChatGPT工作原理 (qq.com) AIGC简要介绍 AIGC是什么 AIGC - AI Generated Content (AI生成内容),对应我们的过去的主要是 UGC(User Generated Content)和 PGC&#…

【译】使用 ChatGPT 和 Azure Cosmos DB 构建智能应用程序

▲ 点击上方“DotNet NB”关注公众号 回复“1”获取开发者路线图 学习分享 丨作者 / 郑 子 铭 这是DotNet NB 公众号的第218篇原创文章 原文 | Mark Brown 翻译 | 郑子铭 随着对智能应用程序的需求不断增长,开发人员越来越多地转向人工智能(AI&#…

使用 ChatGPT 和 Azure Cosmos DB 构建智能应用程序

随着对智能应用程序的需求不断增长,开发人员越来越多地转向人工智能(AI)和机器学习(ML),以增强其应用程序的功能。聊天机器人已经成为提供对话式人工智能的最流行方式之一。ChatGPT是OpenAI开发的大型语言模…

查询彩票中奖号码小程序

前两天找到一个特别棒的网站——聚合数据网https://www.juhe.cn 翻阅网站的时候偶然看到可以免费申请一个查询彩票的API,于是乎,就出现了这个小程序。 首先,要去聚合数据网申请一个自己的API,然后用requests模块访问API&#xf…

用Python买彩票能中奖?分析了这么多年记录,其实

0 引言 上次被一则新闻震惊到了,《2454万元大奖无人认领!福彩史上第二大弃奖在广东中山产生 》,在2019年5月2日开奖的双色球中,广东中山一位彩民博中2454万元,兑奖时间截至2019年7月1日。 令人遗憾的是,中奖者最终未现身领奖,2454万元大奖成为弃奖。经中山市福彩中心查…