LLMs之Falcon 180B:Falcon 180B的简介、安装、使用方法之详细攻略

LLMs之Falcon 180B:Falcon 180B的简介、安装、使用方法之详细攻略

导读:2023年9月7日(北京时间),TII重磅发布Falcon-180B模型,它是Falcon系列的升级版本,是一个参数规模庞大、性能优越的开放语言模型,适用于各种自然语言处理任务,可以通过Hugging Face生态系统方便地使用和探索。以下是Falcon-180B的所有特点总结:
Falcon-180B = 拥有180B+3.5T的tokens+4096个GPU+700万个GPU小时
>>参数规模:Falcon-180B是当前最大的开放模型之一,具有1800亿个参数。它是迄今为止最大的公开可用语言模型。
>>训练数据:Falcon-180B使用TII的RefinedWeb数据集,经过大规模的预训练,共使用了3.5万亿个标记。其中85%的数据源自RefinedWeb,其余数据来自对话、技术论文和少量代码等多种数据。
>>训练方法:Falcon-180B的训练过程使用了4096个GPU,并在Amazon SageMaker上进行,总共耗时约700万个GPU小时。相比Llama 2,Falcon-180B的规模扩大了2.5倍,并使用了4倍的计算资源。
>>性能表现:Falcon-180B在自然语言任务中取得了最先进的结果。它在(pre-trained)开放模型中排名第一,并与PaLM-2 Large等专有模型相媲美。根据评估基准的不同,Falcon-180B的表现介于GPT 3.5和GPT4之间
>>适用范围:Falcon-180B可用于商业用途,但有一些限制条件,不包括"hosting use"。对于商业目的的使用,建议查阅许可证并咨询您的法律团队。

目录

相关文章

LLMs之Data:《The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only》翻译与解读

LLMs之Falcon 180B:Falcon 180B的简介、安装、使用方法之详细攻略

Falcon 180B的简介

1、Falcon 180B的优势:与谷歌PaLM 2相媲美,性能略低于GPT4

2、开放LLM排行榜

3、评价褒贬不一

Falcon 180B的安装

1、硬件要求

2、环境要求:Transformers 、bitsandbytes等

4、下载模型

5、在bfloat16中使用基础模型的示例

6、提示格式

7、聊天模型

Falcon 180B的使用方法

1、如何在线使用Falcon 180B?


相关文章

LLMs之Data:《The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only》翻译与解读

LLMs之Falcon:《The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and_一个处女座的程序猿的博客-CSDN博客

LLMs之Falcon 180B:Falcon 180B的简介、安装、使用方法之详细攻略

LLMs之Falcon 180B:Falcon 180B的简介、安装、使用方法之详细攻略_一个处女座的程序猿的博客-CSDN博客

Falcon 180B的简介

Falcon 180B是由TII发布的一款模型,它延续了Falcon系列的先前版本。从架构上看,Falcon 180B是Falcon 40B的一个放大版本,并建立在其创新之上,例如MQA多查询注意力以提高可扩展性。Falcon 180B在多达4096个GPU上同时训练,使用Amazon SageMaker进行训练,总共使用了约7,000,000个GPU小时(约71天),训练了3.5万亿个标记。这意味着Falcon 180B是Llama 2的2.5倍,并且使用了4倍的计算资源

Falcon 180B的数据集主要包括来自RefinedWeb的网络数据(约85%)。此外,它还经过了一些策划数据的训练,如对话、技术论文和少量代码(约3%)。这个预训练数据集足够大,以至于即使3.5万亿个标记也不到一个epoch。发布的聊天模型是在聊天和指令数据集上进行微调的,其中包含几个大规模的对话数据集的混合。

商业用途:Falcon 180B可以用于商业用途,但在非常限制的条件下,不包括任何“托管使用”。如果您有兴趣以商业目的使用它,我们建议查阅许可证并咨询您的法律团队。

地址

HuggingFace官网:https://huggingface.co/blog/falcon-180b

GitHub官网:https://github.com/huggingface/blog/blob/main/falcon-180b.md

时间

2023年9月6日

作者

TII

阿布扎比的全球领先技术研究中心

1、Falcon 180B的优势:与谷歌PaLM 2相媲美性能略低于GPT4

Falcon 180B是迄今为止最好的公开发布的LLM,在MMLU上表现优于Llama 2 70B和OpenAI的GPT-3.5,并且在HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC、BoolQ、CB、COPA、RTE、WiC、WSC、ReCoRD等方面与Google的PaLM 2-Large相媲美。根据评估基准,Falcon 180B通常介于GPT 3.5和GPT4之间,社区的进一步微调将会非常有趣,因为它现在是公开发布的。

2、开放LLM排行榜

在Hugging Face排行榜上,Falcon 180B以68.74分位居公开发布的预训练LLM中最高分,超过了Meta的LLaMA 2(67.35分)。

量化的Falcon模型在各项基准测试中保持了类似的指标。在评估torch.float16、8位和4位时,结果相似。请参阅Open LLM Leaderboard中的结果。

3、评价褒贬不一

@Rohan Paul:绝对令人难以置信... 超过了GPT-3.5,并且与Google的PaLM-2 Large媲美。改变游戏规则������
@Nate Klingenstein:我感谢您承担了竞争Meta AI塑造开放式权重LLM未来的责任。这真的令人兴奋,也许随着时间的推移,这将成为许多商业部署的支柱。我将尝试在这里实现这一目标。
@rjpalacio:比gpt-3.5多的参数,仍然无法击败llama 2
@Anupama Varma Chand:恭喜,TII,为阿联酋提供了强大的AI模型!

@Jim Fan(英伟达高级科学家)质疑:没有编码就不能声称“比GPT-3.5更好”或“接近GPT-4”
恭喜@TIIuae释放猎Falcon 180B !我为每一位OSS的LLMs喝彩。
虽然我不明白为什么代码只占训练组合的5%。这是迄今为止最有用的数据,可以促进推理,掌握工具的使用,并为人工智能代理提供动力。事实上,GPT-3.5是在Codex基础上进行微调的。
我没有看到任何编码基准数字。从有限的代码预训练来看,我认为它并不擅长于此。
没有编码就不能声称“比GPT-3.5更好”或“接近GPT-4”。它应该是预训练配方中不可或缺的一部分,而不是事后的微调。
此外,现在是时候转移到混合专家(MoE)的模型在30B+容量。到目前为止,我们只看到了OSS MoE LLM < 10B。是时候大规模扩大规模了。

Falcon 180B的安装

1、硬件要求

我们对用于不同用途运行模型所需的硬件进行了多次测试。这些不是最低要求,但是是我们能够获得的配置的最低要求

2、环境要求:Transformers 、bitsandbytes等

Transformers

Falcon 180B在Hugging Face生态系统中可用,从Transformers版本4.33开始提供。

随着Transformers 4.33的发布,您可以使用Falcon 180B并利用HF生态系统中的所有工具,例如:

>>训练和推理脚本和示例

>>安全文件格式(safetensors)

>>与工具的集成,如bitsandbytes(4位量化),PEFT(参数高效微调)和GPTQ

>>辅助生成(也称为“猜测解码”)

>>用于更大上下文长度的RoPE扩展支持

>>丰富且强大的生成参数

使用该模型需要您接受其许可证和使用条款。请确保您已登录到您的Hugging Face帐户,并确保您安装了最新版本的transformers:

pip install --upgrade transformers

huggingface-cli login

bitsandbytes

使用bitsandbytes的8位和4位

Falcon 180B的8位和4位量化版本在与bfloat16参考相比的评估中几乎没有差异!这对于推理来说是非常好的消息,因为您可以放心使用量化版本以减少硬件要求。不过,请注意,8位推理比在4位中运行模型要快得多。

要使用量化,您需要安装bitsandbytes库,并在加载模型时简单地启用相应的标志:

model = AutoModelForCausalLM.from_pretrained(

    model_id,

    torch_dtype=torch.bfloat16,

    load_in_8bit=True,

    device_map="auto",

)

4、下载模型

地址:https://huggingface.co/tiiuae/falcon-180B

5、在bfloat16中使用基础模型的示例

bfloat16

这是如何在bfloat16中使用基础模型的示例。Falcon 180B是一个庞大的模型,因此请考虑上面表格中总结的硬件要求。

from transformers import AutoTokenizer, AutoModelForCausalLM

import transformers

import torch

model_id = "tiiuae/falcon-180B"

tokenizer = AutoTokenizer.from_pretrained(model_id)

model = AutoModelForCausalLM.from_pretrained(

    model_id,

    torch_dtype=torch.bfloat16,

    device_map="auto",

)

prompt = "My name is Pedro, I live in"

inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

output = model.generate(

    input_ids=inputs["input_ids"],

    attention_mask=inputs["attention_mask"],

    do_sample=True,

    temperature=0.6,

    top_p=0.9,

    max_new_tokens=50,

)

output = output[0].to("cpu")

print(tokenizer.decode(output)

这可能会产生类似以下的输出:

My name is Pedro, I live in Portugal and I am 25 years old. I am a graphic designer, but I am also passionate about photography and video.

I love to travel and I am always looking for new adventures. I love to meet new people and explore new places.

6、提示格式

基础模型没有提示格式。请记住,它不是一个会话模型或受过指导的模型,因此不要期望它生成会话响应 - 预训练模型是进一步微调的良好平台,但您可能不应该直接使用它。聊天模型具有非常简单的对话结构。

System:在这里添加可选的系统提示

User:这是用户输入

Falcon:这是模型生成的内容

User:这可能是第二轮输入

Falcon:等等

7、聊天模型

聊天模型

如上所述,为了进行聊天式推理,模型经过微调以遵循对话的版本使用了一个非常简单的训练模板。为了参考,您可以查看Chat演示中的format_prompt函数,它如下所示:

def format_prompt(message, history, system_prompt):

prompt = ""

if system_prompt:

prompt += f"System: {system_prompt}\n"

for user_prompt, bot_response in history:

prompt += f"User: {user_prompt}\n"

prompt += f"Falcon: {bot_response}\n"

prompt += f"User: {message}\nFalcon:"

return prompt

正如您所见,用户的互动和模型的响应都以User:和Falcon:分隔符开头。我们将它们连接在一起,形成一个包含整个对话历史的提示。我们可以提供一个系统提示来调整生成样式。

Falcon 180B的使用方法

1、如何在线使用Falcon 180B?

您可以轻松在此空间或下面嵌入的游乐场中尝试Big Falcon模型(1800亿参数!)

与Falcon-180B-Chat交谈,头脑风暴想法,讨论您的假期计划等等!

✨ 这个演示由Falcon-180B提供支持,并在Ultrachat、Platypus和Airoboros的混合数据上进行了微调。Falcon-180B是由阿布扎比技术创新研究院(Technology Innovation Institute)开发的最先进的大型语言模型。它经过了3.5万亿令牌的训练(包括RefinedWeb数据),并在Falcon-180B TII许可下提供。它目前在���开放LLM排行榜上以预训练模型的身份获得���第一名。

��� 这只是一个初步的实验预览:我们打算在未来提供更具能力的Falcon版本,基于改进的数据集和RLHF/RLAIF。

��� 了解有关Falcon LLM的更多信息:falconllm.tii.ae

➡️️ 预期用途:此演示旨在展示Falcon-180B的早期微调,以说明在对话和指令数据集上微调的影响(以及限制)。我们鼓励社区在基础模型的基础上进一步构建,并创建更好的指导/聊天版本!

⚠️ 限制:该模型可以生成事实上不正确的信息,产生幻觉的事实和行为。由于它没有经过高级调整/对齐,因此它可以生成有问题的输出,尤其是在提示的情况下。最后,此演示仅限于约1,000个字的会话长度。

测试地址:https://huggingface.co/spaces/tiiuae/falcon-180b-demo
测试地址02:https://huggingface.co/blog/falcon-180b

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/128250.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Jetsonnano B01 笔记7:Mediapipe与人脸手势识别

今日继续我的Jetsonnano学习之路&#xff0c;今日学习安装使用的是&#xff1a;MediaPipe 一款开源的多媒体机器学习模型应用框架。可在移动设备、工作站和服务 器上跨平台运行&#xff0c;并支持移动 GPU 加速。 介绍与程序搬运官方&#xff0c;只是自己的学习记录笔记&am…

云原生Kubernetes:kubectl管理命令

目录 一、理论 1.K8S资源管理方法 2.kubectl 管理命令 3.项目的生命周期 二、实验 1.kubectl 管理命令 2.项目的生命周期 三、总结 一、理论 1.K8S资源管理方法 &#xff08;1&#xff09;管理K8S资源的三种基本方法&#xff1a; ① 陈述式资源管理方法-使用cli工具进…

【web开发】2、css基础

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 一、CSS是什么&#xff1f;二、使用步骤2.1.css的存放位置2.2.选择器2.3.常用CSS样式介绍与示例 一、CSS是什么&#xff1f; 层叠样式表(英文全称&#xff1a;Casc…

文献阅读:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

文献阅读&#xff1a;Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 1. 文章简介2. 具体方法3. 实验结果 1. 数学推理 1. 实验设计2. 实验结果3. 消解实验4. 鲁棒性考察 2. 常识推理 1. 实验设计2. 实验结果 3. 符号推理 1. 实验设计2. 实验结果 4.…

单片机-蜂鸣器

简介 蜂鸣器是一种一体化结构的电子讯响器&#xff0c;采用直流电压供电 蜂鸣器主要分为 压电式蜂鸣器 和 电磁式蜂鸣器 两 种类型。 压电式蜂鸣器 主要由多谐振荡器、压电蜂鸣片、阻抗匹配器及共鸣箱、外壳等组成。多谐振荡器由晶体管或集成电路构成&#xff0c;当接通电源后&…

Excel VSTO开发7 -可视化界面开发

版权声明&#xff1a;本文为博主原创文章&#xff0c;转载请在显著位置标明本文出处以及作者网名&#xff0c;未经作者允许不得用于商业目的。 7 可视化界面开发 前面的代码都是基于插件启动或者退出时&#xff0c;以及Excel Application的相关事件&#xff0c;在用户实际操作…

maven管理android项目

maven管理android项目 1.安装maven-android-sdk-deployer&#xff0c;下载地址&#xff1a;https://github.com/mosabua/maven-android-sdk-deployer 2.解压缩大英文路径文件夹 3.在压缩后的根目录执行mvn clean install -P 2.3.3&#xff08;2.3.3指的是android版本号&#x…

创建数据库

MySQL从小白到总裁完整教程目录:https://blog.csdn.net/weixin_67859959/article/details/129334507?spm1001.2014.3001.5502 语法格式: create database 数据库名称 charset 字符集; 其中: create: 创建 database: 数据库 charset: 字符集 说明: 常见的字符集:utf8(最常用…

leetcode 925. 长按键入

2023.9.7 我的基本思路是两数组字符逐一对比&#xff0c;遇到不同的字符&#xff0c;判断一下typed与上一字符是否相同&#xff0c;不相同返回false&#xff0c;相同则继续对比。 最后要分别判断name和typed分别先遍历完时的情况。直接看代码&#xff1a; class Solution { p…

docker介绍和安装

docker安装 下载Docker依赖组件 yum -y install yum-utils device-mapper-persistent-data lvm2 设置下载Docker的镜像源为阿里云 yum-config-manager --add-repo http://mirrors.aliyun.com/dockerce/linux/centos/docker-ce.repo 安装Docker服务 yum -y install docker-ce 安…

CSS 斜条纹进度条

效果&#xff1a; 代码&#xff1a; html: <div class"active-line flex"><!-- lineWidth&#xff1a;灰色背景 --><div class"bg-line"><div v-for"n in 30" class"gray"></div></div><div…

手写数据库连接池

数据库连接是个耗时操作.对数据库连接的高效管理影响应用程序的性能指标. 数据库连接池正是针对这个问题提出来的. 数据库连接池负责分配,管理和释放数据库连接.它允许应用程序重复使用一个现有的数据路连接,而不需要每次重新建立一个新的连接,利用数据库连接池将明显提升对数…

非结构化数据之XPath学习

1、XPath语法 XPath 是一门在 XML 文档中查找信息的语言。 XPath 可用来在 XML 文档中对元素和属性进行遍历。 <?xml version"1.0" encoding"ISO-8859-1"?> <bookstore> <book><title lang"eng">Harry Potter</t…

【excel】万字长文,一些实用excel技巧,金融财务行业巨实用(最后有干货,配合chatgpt让你成为excel大佬)

本文主要记录一些在工作中经常能用到的excel技巧&#xff0c;能够帮助我们提高工作效率。在文章的最后还会通过几个实战例子来加深大家的理解。建议把本文作为备查文&#xff0c;不需要在阅读本文的当下就将这些技巧掌握&#xff0c;只需了解&#xff0c;哪些东西通过excel是能…

ComfyUI 安装

背景&#xff1a; stable diffussion XL最先适配&#xff0c;专业性强的SD操作界面 安装步骤&#xff1a; git clone GitHub - comfyanonymous/ComfyUI: A powerful and modular stable diffusion GUI with a graph/nodes interface. 1、pip install torch torchvision torc…

【CUDA OUT OF MEMORY】【Pytorch】计算图与CUDA OOM

计算图与CUDA OOM 在实践过程中多次碰到了CUDA OOM的问题&#xff0c;有时候这个问题是很好解决的&#xff0c;有时候DEBUG一整天还是头皮发麻。 最近实践对由于计算图积累导致CUDA OOM有一点新的看法&#xff0c;写下来记录一下。包括对计算图的一些看法和一个由于计算图引发…

【小沐学NLP】Python使用NLTK库的入门教程

文章目录 1、简介2、安装2.1 安装nltk库2.2 安装nltk语料库 3、测试3.1 分句分词3.2 停用词过滤3.3 词干提取3.4 词形/词干还原3.5 同义词与反义词3.6 语义相关性3.7 词性标注3.8 命名实体识别3.9 Text对象3.10 文本分类3.11 其他分类器3.12 数据清洗 结语 1、简介 NLTK - 自然…

python的包管理

要在 mypackage 包外使用 mypackage 包里的 speak.py 文件以及 newpackage 包里的 jump.py 文件&#xff0c;你需要确保以下几个步骤&#xff1a; 确保目录结构正确&#xff0c;如下所示&#xff1a; mypackage/__init__.pyspeak.pynewpackage/__init__.pyjump.py在 speak.py…

介绍OpenCV

OpenCV是一个开源计算机视觉库&#xff0c;可用于各种任务&#xff0c;如物体识别、人脸识别、运动跟踪、图像处理和视频处理等。它最初由英特尔公司开发&#xff0c;目前由跨学科开发人员社区维护和支持。OpenCV可以在多个平台上运行&#xff0c;包括Windows、Linux、Android和…

leetcode 43.字符串相乘

⭐️ 题目描述 &#x1f31f; leetcode链接&#xff1a;字符串相乘 思路&#xff1a; 代码&#xff1a; class Solution { public:string multiply(string num1, string num2) {if (num1 "0" || num2 "0") {return "0";}/*0 1 2 下标1 2…