大语言模型工程化服务系列之二--------MOSS微调数据清洗转换脚本

MOSS微调数据清洗转换脚本

目前市面上的大模型微调开源项目 数据格式都是三段式的,但是不适用于MOSS模型微调,今天给大家分享一个转换脚本


文章目录

  • MOSS微调数据清洗转换脚本
  • 一、原始的数据格式
  • 二、转换后的数据格式
  • 三、数据转换脚本
  • 总结



一、原始的数据格式

在这里插入图片描述

二、转换后的数据格式

在这里插入图片描述

三、数据转换脚本

代码如下(示例):

import json# 读取原始JSON文件(使用UTF-8编码)
with open('原始.json', 'r', encoding='utf-8') as source_file:data = json.load(source_file)# 初始化新的JSON数据列表 
new_data_list = []# 遍历原始数据并将instruction和output值分别存储到新的JSON数据结构中
for i, item in enumerate(data):new_data = {"conversation_id": str(i + 1),"meta_instruction": "You are an AI assistant...","num_turns": 1,"chat": {f"turn_1": {"Human": item["instruction"] + "<eoh>\n","Inner Thoughts": "<|Inner Thoughts|>: None<eot>\n","Commands": "<|Commands|>: None<eoc>\n","Tool Responses": "<|Results|>: None<eor>\n","MOSS": item["output"] + "<eom>\n"}},"category": "advice"}new_data_list.append(new_data)# 将新的JSON数据结构写入到新的JSON文件中(使用UTF-8编码)
with open('moss格式的.json', 'w', encoding='utf-8') as new_file:json.dump(new_data_list, new_file, ensure_ascii=False, indent=2)

总结

想进入大模型微调,虚拟数字人,声音克隆等最新aigc生成技术讨论群的请私信我,拉你进群,帮助你快速掌握最新的技术,为找工作添砖加瓦

加我微信:Lh1141755859 获取chatgpt类对话大模型交流群
关注微信公众号:CV算法小屋 获取更多最新大语言模型论文和代码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16082.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

众人围剿,GPT-5招惹了谁

目录 千人呼吁暂停AI训练代表人物分析反对原因分析信息安全人身安全失业利益 总结 GPT-4 火爆全球&#xff0c;引发了人工智能大浪潮。过去的一个月&#xff0c;OpenAI、微软、谷歌加上百度不断释放王炸&#xff0c;所有人都相信&#xff0c;AI 的就是未来的生产力。俗话说&…

AI又进化了,声音克隆革命性突破

大家好&#xff0c;我是 Jack。 因 ChatGPT、Stable Diffusion 让 AI 在文本、图像生成领域火出了圈。 但 AI 在生成方面的能力&#xff0c;可不仅如此&#xff0c;音频领域也出现了很多优秀的项目。 我用我本人的音频数据&#xff0c;训练了一个 AI 模型&#xff0c;生成了…

手把手教你声音克隆(so-vits-svc)

前言 随着ChatGPT的爆火&#xff0c;AIGC&#xff08;人工智能生成内容&#xff09;再一次走到人们眼前。尤其是在文本、图像生成领域&#xff0c;通过GPT-4、Midjourney等应用生成各种令人惊叹定的文本和图片。 但 AI 在生成方面的能力&#xff0c;可远非如此如此。 我用长约…

Chatgpt插件爆了,彻底爆了

新插件又双叒叕来了&#xff01;继两个月前ChatGPT爆出插件功能后&#xff0c;这场插件狂欢真就是越来越热闹。 比如让我们更方便地创建网站&#xff1a; 提取YouTube视频概要&#xff1a; 还有像将文本转换为HQ音频&#xff0c;从照片中提取信息&#xff0c;解析代码&#xf…

说说ChatGPT的插件系统

前一段时间&#xff0c;ChatGPT的两大新功能上了Beta测试&#xff0c;其中一个功能是“Browse with Bing”&#xff0c;另一个功能是“插件系统”。 怎么能使用这两大功能呢&#xff1f;需要订阅plus账号&#xff0c;并且在Setting页面中打开Beta Features的两项设置&#xff1…

思维随想录--ChatGPT商业预见

思维随想录–ChatGPT商业预见 仅代表个人的一些浅见想法&#xff0c;不具有任何权威指导性&#xff0c;欢迎各位同仁批评交流&#xff01; 后疫情时代&#xff0c;国内市场一片衰颓&#xff0c;百废待兴&#xff0c;国外头部企业裁员浪潮也是接踵而至&#xff0c;甚至是一度逆市…

美版头条ChatGPT上岗写稿消息一出,股价暴涨119%,此前刚裁员12%

Pine 萧箫 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT的火&#xff0c;真给烧到媒体行业上了&#xff01; 当地时间周四&#xff0c;“美版今日头条”BuzzFeed宣布和OpenAI合作&#xff0c;未来将使用ChatGPT帮助创作内容。 据福布斯介绍&#xff0c;BuzzFeed联合创始人兼CEO乔…

谷歌裁员细节曝光:开源主管被裁,61岁程序员在线求职,有人60天找不到工作就被遣返...

上一篇&#xff1a;最新IT类offer档次排名 “开源”谷歌&#xff0c;竟然连开源主管也给裁了。 随着更多裁员细节曝光&#xff0c;不少谷歌开源项目办公室OSPO和其他开源工作的高管已经被裁。 其中甚至还包括了开源运动“先锋”&#xff0c;18年前创立OSPO&#xff0c; Chris D…

GitHub 开源了多款字体「GitHub 热点速览 v.22.48」

作者&#xff1a;HelloGitHub-小鱼干 本期 News 快读有 GitHub 官方大动作一下子开源了两款字体&#xff0c;同样大动作的还有 OpenAI 发布的对话模型 ChatGPT&#xff0c;引燃了一波人机对话。 项目这块&#xff0c;也许会成为新的 Web 开发生产力工具的 leptos 和 Python UI …

裁员潮下的中年人

作者| Mr.K 编辑| Emma 来源| 技术领导力(ID&#xff1a;jishulingdaoli) “K哥&#xff0c;我失业快半年了&#xff0c;现在无时无刻不觉得自己是一个‘无用无尊严’的中年loser&#xff0c;我快崩溃了&#xff0c;K哥能帮我推荐一份工作吗&#xff1f;…” 近期&#xff0c…

03定格动画制作

step 1 导入素材 step 2 新建序列 step 3 编排素材 调整节奏 批量更改照片持续时间&#xff1a; 框选所有素材-右击-设置持续时间-8帧 或者快捷键commandR 删除空隙&#xff1a; 方法1:右击空隙-波纹删除 方法2:左上角序列-封闭间隙 方法3:在全选后勾选波纹删除 删除…

如何提升商家转账到零钱的免密支付额度 总限额及笔数

商家转账提供商户同时向多个用户微信零钱转账的能力&#xff0c;商户可以使用商家转账&#xff0c;用于费用的报销、员工福利发放、合作伙伴贷款及服务款项支付等多种场景&#xff0c;提高转账效率。 产品特点 高效&#xff1a;支持页面及API接口转账方式进行批量转账&#x…

Go 中实现用户的每日限额(比如一天只能领三次福利)

如果你写一个 bug 管理系统&#xff0c;用了这个 PeriodLimit 你就可以限制每个测试人员每天只能给你提一个 bug。工作是不是就轻松很多了&#xff1f;:P 如今微服务架构大行其道本质原因是因为要降低系统的整体复杂度&#xff0c;将系统风险均摊到子系统从而最大化保证系统的稳…

免费丨AI内行盛会!2021北京智源大会带你与图灵奖和200+位大牛一起共话AI

数据在爆炸&#xff0c;AI在茁壮。 从2012到2018年&#xff0c;深度学习模型的计算能力增长了30万倍&#xff0c;早已打破摩尔定律。可以预见的是&#xff0c;未来必然属于超大数据和超大模型&#xff0c;而破纪录的中文预训练生成语言模型智源“悟道2.0”发布在即&#xff0c;…

《花雕学AI》13:早出对策,积极应对ChatGPT带来的一系列风险和挑战

ChatGPT是一款能和人类聊天的机器人&#xff0c;它可以学习和理解人类语言&#xff0c;也可以帮人们做一些工作&#xff0c;比如翻译、写文章、写代码等。ChatGPT很强大&#xff0c;让很多人感兴趣&#xff0c;也让很多人担心。 使用ChatGPT有一些风险&#xff0c;比如数据的质…

​麻瓜+AI混合工作流试验 5:原创一个方法论,以及AI对中年人的积极一面

这次试着让AI原创了一个方法论——三见需求评估法。 题图为人类和AI在星巴克开会讨论。 我先解释下这个方法论&#xff0c;然后从“中年职场人”视角说一些最近的感受&#xff0c;最后放出和AI讨论方法论的过程。 是否要做一个需求&#xff0c;要考虑的方面有如人生三见&#x…

AiDD AI+软件研发数字峰会开启编程新纪元

随着OpenAI 推出全新的对话式通用人工智能工具——ChatGPT火爆出圈后&#xff0c;人工智能再次受到了工业界、学术界的广泛关注&#xff0c;并被认为向通用人工智能迈出了坚实的一步&#xff0c;在众多行业、领域有着广泛的应用潜力&#xff0c;甚至会颠覆很多领域和行业&#…

阿里云推出基于大模型的工作学习AI助手“通义听悟”

文章目录 人工智能福利文章什么是通义听语通义听语有哪些优势通义听语能做什么体验地址写在最后 ✍创作者&#xff1a;全栈弄潮儿 &#x1f3e1; 个人主页&#xff1a; 全栈弄潮儿的个人主页 &#x1f3d9;️ 个人社区&#xff0c;欢迎你的加入&#xff1a;全栈弄潮儿的个人社区…

AI数字人直播带货,用技术驱动商业革命

AI数字人直播带货是一种基于先进技术的商业形式&#xff0c;通过数字化的虚拟人物进行实时直播&#xff0c;向消费者推介商品。相对于传统的电视购物&#xff0c;AI数字人直播带货更加个性化、智能化&#xff0c;正在成为未来市场的主流。 这种商业形式依托多项技术&#xff0c…

科研团队如何探索商业化落地?这家语音AI公司用十年科学试验打了样

白交 发自 凹非寺量子位 | 公众号 QbitAI 现在&#xff0c;大家都在谈硬科技创新、产学研转化。 AI作为最引人注目的赛道之一&#xff0c;通常有两种发展模式&#xff1a; 互联网及传统行业巨头&#xff0c;利用自身业务与资源优势&#xff0c;通过AI降本增效、拓展新应用。科学…