ChatGPT训练流程复现

本篇文章着重于chatGPT训练流程的复现

来自:无数据不智能

进NLP群—>加入NLP交流群

环境安装

  1. 虚拟环境创建

conda create -n  chatgpt python=3.10
conda activate chatgpt
  1. 依赖包安装

git clone https://github.com/LAION-AI/Open-Assistant.git
cd Open-Assistat/model
pip install -r model_training/requirements.txt
pip install -r reward/instructor/requirements.txt
  1. 安装trlx

git clone https://github.com/CarperAI/trlx.git
cd trlx
pip install torch --extra-index-url https://download.pytorch.org/whl/cu116 
pip install -e .
  1. 在Open-Assistant目录下,安装oasst-shared

cd oasst-shared/
pip install -e .


SFT

  1. 以翻译为例,prompt:

"zh": [ "翻译成中文: {}","{} 这句中文翻译怎麽写?","我需要这句话的中文翻译: {}",]
  1. 数据样例

[
"<human>+随机选择一个prompt.format(原句)+<bot>",
"译句"
]
  1. 训练脚本

mkdir cache
mkdir sft_model
python trainer_sft.py --configs defaults pythia --cache_dir ./cache --output_dir ./sft_model
  1. 配置文件

defaults:learning_rate: 1e-5gradient_checkpointing: falsegradient_accumulation_steps: 32per_device_train_batch_size: 2per_device_eval_batch_size: 2weight_decay: 0.00warmup_steps: 600eval_steps: 500save_steps: 500max_length: 512num_train_epochs: 3logging_steps: 10max_grad_norm: 2.0save_total_limit: 4fp16: falseeval_accumulation_steps:freeze_layer:datasets:- webgpt- squad_v2cache_dir: .cacheloss_fn: CrossEntropyLosseval_size:log_dir: "base"quantization: falseseq2seqmodel: falsepoly_eps: 1.0fuse_gelu: truelog_wandb: truesamples_mixing: false # uses collator that mixes samples in the batch to create a single sample with possible multiple tasks withinverbose: falseoutput_dir: saved_modelpythia:learning_rate: 8e-6model_name: EleutherAI/pythia-70m-dedupedweight_decay: 0.01max_length: 520warmup_steps: 1000gradient_checkpointing: falsegradient_accumulation_steps: 9per_device_train_batch_size: 2per_device_eval_batch_size: 4output_dir: pythia_model


RM

  1. 数据样例

{
"question full text":["答案1","答案2"] # 跟据分数排名
}
  1. 训练脚本

cd ../reward/instructor
mkdir model
python trainer.py configs/deberta-v3-base.yml --output_dir ./reward_model
  1. 配置文件

model_name: microsoft/deberta-v3-base
learning_rate: 1e-5
scheduler: cosine
gradient_checkpointing: false
gradient_accumulation_steps: 16
per_device_train_batch_size: 2
warmup_steps: 600
eval_steps: 200
save_steps: 500
max_length: 512
num_train_epochs: 2
datasets:- webgpt- hfsummary


RL

  1. 数据样例

"<human>+随机选择一个prompt.format(原句)+<bot>"
  1. 训练脚本

cd ../../model_training
python trainer_rl.py --configs defaults_rlhf --cache_dir ./cache --rank_model ../reward/instructor/reward_model --sft_model ../model_training/sft_model  --output_dir ./rl_model
  1. 配置文件

defaults_rlhf:dataset:rank_model: TODOsft_model: TODOeval_prompts:batch_size: 64epochs: 10datasets:- oa_private:split: rlval_split: 0.0fraction: 1file: 2023-02-10_oasst_prod.jsonlcache_dir: .cachequantization: falseseq2seqmodel: falseoutput_dir: outputreward_model_batch_size: 32debug_rlhf:rank_model: /local/home/sanagnos/general/Open-Assistant/model/reward/instructor/facebook/galactica-125m-finetuned/checkpoint-500/sft_model: /local/home/sanagnos/general/Open-Assistant/model/model_training/EleutherAI/pythia-70m-deduped-base-finetuned/checkpoint-20/batch_size: 2


相关链接

  1. CarperAI/trlx: A repo for distributed training of language models with Reinforcement Learning via Human Feedback (RLHF) (github.com)

  2. microsoft/DeepSpeed: DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective. (github.com)

  3. TimDettmers/bitsandbytes: 8-bit CUDA functions for PyTorch (github.com)

  4. huggingface/evaluate: 🤗 Evaluate: A library for easily evaluating machine learning models and datasets. (github.com)

  5. wkentaro/gdown: Download a large file from Google Drive (curl/wget fails because of the security notice). (github.com)

  6. wandb/wandb: 🔥 A tool for visualizing and tracking your machine learning experiments. This repo contains the CLI and Python API. (github.com)

  7. huggingface/transformers: 🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX. (github.com)

  8. pytorch/pytorch: Tensors and Dynamic neural networks in Python with strong GPU acceleration (github.com)


进NLP群—>加入NLP交流群(备注nips/emnlp/nlpcc进入对应投稿群)

持续发布自然语言处理NLP每日优质论文解读、相关一手资料、AI算法岗位等最新信息。

加入星球,你将获得:

1. 每日更新3-5篇最新最优质的的论文速读。用几秒钟就可掌握论文大致内容,包含论文一句话总结、大致内容、研究方向以及pdf下载。

2. 最新入门和进阶学习资料。包含机器学习、深度学习、NLP等领域。

3. 具体细分NLP方向包括不限于:情感分析、关系抽取、知识图谱、句法分析、语义分析、机器翻译、人机对话、文本生成、命名实体识别、指代消解、大语言模型、零样本学习、小样本学习、代码生成、多模态、知识蒸馏、模型压缩、AIGC、PyTorch、TensorFlow等细方向。

4. 每日1-3个NLP、搜广推、CV等AI岗位招聘信息。可安排模拟面试。

2c854763a4674af27701760758977936.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/14759.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【试用科研好物】GPT辅助科研神器?AI助力科研?ChatPDF、有道速读

前言 近期需要阅读的论文很多&#xff0c;偶然间在微博刷到许多人推荐科研利器ChatPDF和有道速读。使用后的结论是不推荐使用&#xff0c;下面分别给出理由。 使用&评价 网页版&#xff0c;无需安装任何东西&#xff0c;两款都支持中文。 ChatPDF有道速读 下面太长不看…

10分钟读完《富爸爸穷爸爸》,用ChatGPT速读100本致富经典

你好&#xff0c;我是赤辰。本栏目是每天借助ChatGPT速读1本商业书籍或致富经典&#xff0c;让大家以最短时间汲取到优质书籍中的精华内容和核心思想&#xff0c;本期要给大家解读是致富经典《富爸爸穷爸爸》。 本篇读书笔记全程由ChatGPT辅助阅读&#xff0c;并按照核心观点-…

用ChatGPT速读100本致富经典 |《贫穷的本质》且得出解决方案

你好&#xff0c;我是赤辰。本栏目是每天借助ChatGPT速读1本商业书籍或致富经典&#xff0c;让大家以最短时间汲取到优质书籍中的精华内容和核心思想&#xff0c;本期要给大家解读是《贫穷的本质》。 本篇读书笔记全程由ChatGPT辅助阅读&#xff0c;并按照核心观点-重要引述-结…

10分钟读完《刻意练习》,用ChatGPT速读100本致富经典

本篇读书笔记全程由ChatGPT辅助按照核心观点-重要引述-结论-行动建议来完成阅读&#xff0c;并输出笔记&#xff0c;通过用AI读完一本书只耗时20分钟&#xff0c;能生成约2000字笔记&#xff1b; 书名&#xff1a;《刻意练习》 作者&#xff1a;埃里克乔根森 出版日期&#x…

10分钟读完《原则》精华,用ChatGPT速读100本致富经典

你好&#xff0c;我是赤辰。本栏目是每天借助ChatGPT速读1本商业书籍或致富经典&#xff0c;让大家以最短时间汲取到优质书籍中的精华内容和核心思想&#xff0c;本期要给大家解读是黑石集团创始人瑞达利欧写的《原则》。 本篇读书笔记全程由ChatGPT辅助阅读&#xff0c;并按照…

ChatGPT之后,下一代大型语言模型在哪里?

OpenAI 首席执行官 Sam Altman&#xff08;左&#xff09;和 Meta AI 首席执行官 Yann LeCun&#xff08;右&#xff09;对未来有不同看法... 来源&#xff1a;学术头条 【编者按&#xff1a;ChatGPT的爆火&#xff0c;让大语言模型受到了人们的关注&#xff0c;然而这些来自不…

【MARK】搜索引擎汇总

1、除了Google&#xff0c;百度外的搜索引擎 基于笔点的自制导航页 https://www.bidianer.com/searchx 通用搜索引擎☞ Bing&#xff0c;微软必应&#xff0c;壁纸不错。 Ecosia&#xff0c;可以作为Bing搜索国际版。 F搜&#xff0c;据说是谷歌中文版&#xff0c;偶尔抽风…

借用百度翻译,用pyqt5 搞定pdf和word文档翻译,排版基本不变,免费好用

以下内容均来自微信公众号&#xff1a;万能搜吧&#xff0c;关注获取更多干货分享。 其实写软件测评写多了&#xff0c;就知道哪些需求是刚需&#xff0c;今天说的是文档翻译的需求&#xff0c;这种需求是比如将英文的PDF论文全部翻译成中文&#xff0c;而且最好排版不受影响。…

Chat Support Board WordPress聊天插件 v3.5.8

功能列表 支持和聊天功能 Slack聊天完全同步 - 直接从Slack发送和接收用户信息。 立即工作 - 只需插入短码&#xff0c;即可立即安装和使用。 丰富的信息 - Dialogflow机器人发送丰富的信息。 机器人--集成一个由API.AI驱动的多语言机器人。 电子邮件通知 - 当收到回复时&#…

成本降低90%,OpenAI正式开放ChαtGΡΤ

今天凌晨&#xff0c;OpenAI官方发布ChαtGΡΤ和Whisper的接囗&#xff0c;开发人员现在可以通过API使用最新的文本生成和语音转文本功能。OpenAI称&#xff1a;通过一系列系统级优化&#xff0c;自去年12月以来&#xff0c;ChαtGΡΤ的成本降低了90%&#xff1b;现在OpenAI用…

​乐视回应四天半工作制:体感非常好;OpenAI CEO 否认在训练 GPT-5;iOS 17 或增加更多灵动岛功能|极客头条...

「极客头条」—— 技术人员的新闻圈&#xff01; CSDN 的读者朋友们早上好哇&#xff0c;「极客头条」来啦&#xff0c;快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 一分钟速览新闻点&#…

WAIC 2023 | 拥抱大模型,助力无障碍,小米展望AI新业态

“智联世界&#xff0c;生成未来”&#xff0c;7月6日至8日&#xff0c;第六届世界人工智能大会&#xff08;WAIC 2023&#xff09;在上海举办。4位图灵奖得主与80多位国内外院士等1400位嘉宾齐聚一堂&#xff0c;共同探讨人工智能赋能产业发展的全新变化&#xff0c;展望技术新…

掘金AIGC时代,开发者更需要什么样的大模型?

当前&#xff0c;火热的AI大模型领域需要一些冷思考。 自去年年底ChatGPT掀起一轮AIGC热潮以来&#xff0c;国内科技企业扎堆发布大模型和类ChatGPT产品。截止2023年4月&#xff0c;已公开宣布发布或即将发布AI大模型的企业达数十家。多模态大模型的能力不断迭代&#xff0c;市…

智算领域惊现AI大变局,ChatGPT催生行业大洗牌

ChatGPT席卷而来&#xff0c; GPU需求过猛引发缺货涨价潮 【全球云观察 &#xff5c; 热点关注】百度已不是中国第一大桌面搜索引擎&#xff0c;这个消息来自美国数据研究机构Statcounter公布的最新统计数据分析结果。 2023年4月&#xff0c;微软旗下搜索引擎必应&#xff08…

Azure OpenAI 详细申请与使用教程,打造个人专属 ChatGPT 方案

Azure OpenAI 详细申请与使用教程&#xff0c;打造个人专属 ChatGPT 方案 原创 TitiAI TitiAI 2023-05-08 13:26 发表于湖北 前言 大家都知道&#xff0c;OpenAI ChatGPT是不能在中国使用的&#xff0c;香港也一样。最近一个月&#xff0c;很多人反映API调用限制&#xff0c…

14.3.16南山公园游

14.3.16班级团日活动&#xff0c;爬南山活动 一直以来对团日活动没太大兴趣&#xff0c;只是为了支持活动&#xff0c;积极参与。这次借着初春&#xff0c;阳光明媚&#xff0c;和同学一起去南山公园。烟台动物园就在那&#xff0c;我们拿了学生证&#xff0c;每人20元&#xf…

南山科技园的IDC机房怎么样?

南山科技园的IDC机房怎么样&#xff1f; 华科数据中心机房地址位于深圳市南山区粤兴三道9号华中科技大学深圳产学研基地A座1楼&#xff0c;总计有100G骨干网出口带宽&#xff0c;机房建筑面积约3000㎡&#xff0c;机房于2018年7月正式对外开放&#xff0c;机房一期1楼右侧约300…

一篇文带你从0到1了解建站及完成CMS系统编写

学习目标 了解搭建一般网站的简便方式了解最原始一般站点搭建了解内容管理站点搭建了解权限设计及完成了解使用设计模式减少代码冗余了解前端拖拽页面生成及生成了解自定义数据的创建了解动态生成的前端页如何绑定自定义数据 开发环境 Windows7 *64 SP1php5.6apache/nginxth…