欢迎来到《小5讲堂》
大家好,我是全栈小5。
这是《千帆平台》系列文章,每篇文章将以博主理解的角度展开讲解,
特别是针对知识点的概念进行叙说,大部分文章将会对这些概念进行实际例子验证,以此达到加深对知识点的理解和掌握。
温馨提示:博主能力有限,理解水平有限,若有不对之处望指正!
目录
- 数据集作用
- 提供训练数据
- 扩大应用场景
- 提升模型性能
- 创建数据集
- 数据集名称
- 数据集类型
- FAQ挖掘
- 保存位置
- 导入方式
- 相关文章
数据集作用
千帆大模型数据集是一个包含大量数据的集合,这些数据用于训练人工智能模型,特别是大型的语言模型。在人工智能领域中,数据是模型的“燃料”,是模型能够学习和理解世界的基础。数据集的质量和数量对模型的性能有着至关重要的影响。
具体来说,千帆大模型数据集的作用主要有以下几点:
提供训练数据
数据集为模型训练提供了必要的输入数据。模型通过学习这些数据中的规律和模式,逐渐提高自身的处理能力和准确性。
扩大应用场景
通过包含各种不同类型和领域的数据,千帆大模型数据集使得模型能够适应更多的应用场景和任务,如文本生成、问答系统、情感分析等。
提升模型性能
使用大规模的数据集进行训练,有助于提升模型的性能,包括准确性、泛化能力等方面。
而之所以需要对模型进行训练,是因为模型在初始状态下并不具备任何处理和理解数据的能力。通过训练,模型可以逐渐学习到数据中的规律和模式,并根据这些规律和模式进行预测和决策。训练的过程就是对模型进行优化的过程,使得模型能够更好地适应实际应用场景。
总的来说,千帆大模型数据集为模型训练提供了必要的基础和条件,而训练则是让模型具备实际应用能力的关键步骤。
创建数据集
数据集名称
支持中文、英文、数字、下划线(_),50个字符以内,不能以下划线为开头
比如:贺岁数据集_data_24021701
数据集类型
1、Prompt+Response
2、Prompt+多Response排序
3、纯文本
4、Prompt集
单轮或多轮的文本对话数据,仅含提问,不含回答。适用于模型精调的RLHF强化学习训练。
5、Prompt+图片
文生图对话数据,文本提问与图片回答一一对应。适用于模型精调的SFT文生图大模型训练。
FAQ挖掘
通过大模型服务从上传文件中自动挖掘 FAQ 问答对,以构建数据集。
在此数据类型【Prompt+Response】下有一个FAQ挖掘选项,貌似也是收费的
1、选择服务
目前提供两个服务,ERNIE-Bot-8K、ERNIE-Bot
2、选择应用
在应用接入菜单那里添加,使用FAQ挖掘将会产生费用
保存位置
1、对象存储BOS
使用对象存储BOS,享受更大存储空间,数据高效灵活管理。
2、平台共享存储
平台提供一定免费额度的共享存储空间。对于个人开发者和入门学习者,可以选择这个
导入方式
提供多种导入放肆,本地导入、BOS导入、分享链接导入
温馨提示:因为是面向企业,所以大部分功能是收费的,个人开发者可以简单了解和体验下
相关文章
【人工智能】百度智能云千帆AppBuilder,快速构建您的专属AI原生应用
【人工智能】为什么说大模型会有「幻觉」问题,又如何去解决呢
总结:温故而知新,不同阶段重温知识点,会有不一样的认识和理解,博主将巩固一遍知识点,并以实践方式和大家分享,若能有所帮助和收获,这将是博主最大的创作动力和荣幸。也期待认识更多优秀新老博主。