目录
- 一、文心千帆简介
- 二、模型搭建与调优
- 2.1、数据准备——为秘书准备资料
- 2.2、模型调优——为秘书安排培训课
- 2.3、模型发布——让秘书开始上班
- 三、大模型助力产业智能化变革
- 3.1、AI航海的启航引擎——大模型
- 3.2、文心千帆体验心得
当一个轻轻松松的甩手掌柜,让AI来打工,自己来数钱,这是AI时代每个人梦寐以求的事情。
刚好百度近期发布了全球首个一站式企业级大模型平台——文心千帆,今天,我带大家完成一项挑战——探索如何创建并微调一个专属自己的GPT大模型,生成一个高质量自媒体文案秘书!保证“能不干的坚决不干,能少干的坚决不多干”,打造懒人的极致流水线!
一、文心千帆简介
首先介绍一下文心千帆。文心千帆大模型平台是百度智能云推出的全球首个一站式企业级大模型平台,为企业提供大模型训练及推理的全流程工具链和整套环境,让企业以最简单最高效的方式用上大模型、用好大模型。在文心千帆上,企业不但可以直接调用文心一言服务,也可以开发、部署和调用自己的大模型服务,是企业拥抱大模型的最佳选择。
与我们之前了解过的文心一言不同,文心千帆大模型平台是百度文心大模型的官方和唯一的商业化服务平台。对内及对外统一由文心千帆来提供服务,文心千帆从数据服务(生成、标注、回流)、模型训练(Post-pretraining、Fine-tuning、Prompt-tuning
)、模型评估(主观评估、客观评估)和压缩、自动化Prompt工程、到插件应用编排,客户都可以在文心千帆上一站式完成。客户可以将训练好的模型部署和托管在文心千帆上,获得极致的性能、企业级的高可用性和安全环境。另外其已经预置了高效的企业搜索插件,无缝集成三方插件,通过插件机制,进一步扩展大模型能力边界,助力客户的应用产品全面升级。
简单来说文心千帆的云服务接口是文心一言的企业版云服务,借助此项服务,我们可以结合自身掌握的行业数据精调出更贴合实际场景的行业大模型。所有有创意、有想法的人都可以轻松的借助该工具去验证自己的新想法,这一定会激发创造力、提高生产力,放大自己的优势、拓展自己的优势领域。
二、模型搭建与调优
2.1、数据准备——为秘书准备资料
在微调模型之前,需要准备好相应的数据集,首先,我们需要收集相应的Prompt-Response
数据集。Prompt
也叫提示词,简单的理解成它是给大模型的指令。它可以是一个问题、一段文字描述,甚至可以是带有一堆参数的文字描述。大模型会基于 prompt
所提供的信息,生成对应的文本或者图片,即Response
。在很多大模型应用场景下,基于经验或者训练语料总结出一些优质的Prompt
组成结构,可将其抽离成为一种模板,在模板中去填充对象信息来进行大模型推理,从而获得更准确的推理结果。文心千帆的Prompt工程提供Prompt
模版功能,支持定义模板后在在线服务-在线测试器中快速使用,也支持通过Prompt
模板的云服务调用获取模板。
Prompt-Response
数据集可以从公开数据集中获取,一般为jsonl
格式,也可以通过爬虫等方式自行收集,在收集时可参考以下准备数据集的技巧:
- 数据集的规模要足够大,以保证模型的泛化能力
- 数据集的质量要高,尽量避免噪声和错误标注的数据。
- 数据集的多样性要足够,以覆盖不同的场景和语言风格,每个分类的文本需要覆盖实际场景里面存在的可能性,训练集若能覆盖的场景越多,模型的泛化能力则越强。
这里给出几个优秀的Prompt-Response
示例:
- (私人法务助手)
- Prompt:征信中经常出现的连三累六是什么意思?
- Response:征信报告中连续三个月有逾期还款记录,并且逾期还款记录累计超过六次,是连三与累六的合称,这是征信逾期中较为严重的一种,一旦出现这种情况,在银行申请贷款是不可能通过的,并且大部分网贷申请也会有限制。
- (本地生活助手)
- Prompt:晚上九点北京xx健身房还在营业吗?
- Response:您好,XX健身房的营业时间为9:00~22:00,您可以致电010-XX88咨询商家当天的营业情况。
- (故事创作助手)
- Prompt:写一个视频化5分钟以内,4个角色不畏艰难的冒险故事。
- Response:唐僧师徒三人,今日来到了八百里流沙河。忽然从河中冲出一个红发河妖…
准备数据和管理数据往往是微调模型最麻烦也是最重要的一步,所幸的是文心千帆平台给我们提供了统一归纳和管理数据集的功能,且可以对数据集进行迭代、继续导入和删除等操作。首先我们登录到文心千帆大模型操作台,在左侧功能列选择数据集管理,进入数据集管理主任务界面,点击+号创建数据集。
作为示例,我在此建立了一个文本对话数据集,数据集版本从V1开始迭代,点击下方“创建并导入”直接进入数据导入页面。
创建数据集后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面,也可以直接创建并导入数据。将我们之前准备好的jsonl格式的数据集文件上传。
如果是有标注的数据集,将直接自动读取prompt
和response
,而如果是没有标注的数据集也没有关系,文心千帆为我们提供了自动生成功能,这意味着我们不需要手动标注大量的数据集,而是可以通过prompt
来自动生成response
,在前期文心一言已经逐渐成熟的基础上,文心千帆自动生成的response
已经拥有很高程度的多样性和准确性。这样,可以大大减少获取数据集的成本和建立自定义数据集的成本,在自动生成后,还可以根据自己的需求和场景来进行人工修改和微调,轻松得到高质量的数据集,这里,我们建立了一个根据题目生成对应公众号软文的小型数据集,数据集建立好后如下图所示。并点击发布以供后续使用。
2.2、模型调优——为秘书安排培训课
模型调优是指在机器学习模型训练过程中,通过调整模型的超参数、优化算法、数据预处理等方法,提高模型的性能和泛化能力的过程。模型调优是机器学习和深度学习中非常重要的一步,它直接影响到模型的性能和效果。
- 在数据量较少的情况下,模型调优可以通过利用已有的模型参数和结构,快速训练出一个适应新数据集的模型,更好地适应新的任务,并提高模型的效率和准确率。
- 在数据量足够的情况下,模型调优也可以利用已经训练好的模型,避免从头开始训练模型,节省时间和计算资源的同时提高模型的预测准确率和稳定性。
大模型调优实际上是Fine-Tuning
的训练模式,开发者可以选择适合自己任务场景的训练模式并加以调参训练,从而实现理想的模型效果。
点击左侧功能列选择大模型调优,进入大模型调优主任务界面,可以选择百度自行研发的ERNIE-Bot-turbo
作为我们调优的基础模型,迭代次数建议选择5~100轮,批处理大小选择32,学习率设定为0.00002,然后数据配置上,选择我们刚刚准备好的自媒体软文数据集,点击开始训练。
训练完成后,可以查看训练日志、概览日志和评估报告,在检查无误后点击发布模型。当版本状态由“创建中”转为“就绪”时,模型版本即创建成功。
除此之外,文心千帆还提供了评估、压缩、部署、删除、迭代等功能,其中:
- 评估:支持对生成的大模型进行全方位评价,当前仅支持对基础模型为
BLOOMZ-7B
的模型进行评估。详情可参考模型评估。 - 压缩:可以通过量化压缩等工具提升大模型推理速度,当前仅支持基础模型为
BLOOMZ-7B
的模型进行压缩。详情可参考模型压缩。 - 部署:可以支持将指定的模型版本部署为预测服务,平台支持将模型发布为在线服务,同时在服务发布后对服务进行详情查看和版本更新等操作。在部署时,资源配置支持公共资源池和私有资源池的选择。服务发布在公共资源池时,不保证
QPS
,请求可能存在排队的情况;服务发布在私有资源池时,服务独占资源,可以设定对应的算力单元来保证QPS
。
2.3、模型发布——让秘书开始上班
文心千帆平台支持将模型发布为在线服务,同时在服务发布后对服务进行详情查看和版本更新等操作。在左侧功能列选择服务管理,点击创建服务,然后将我们刚刚微调好的模型导出进来,选择V1版本,命名为自媒体软文秘书,然后设计自己的专用接口地址,点击创建。
创建完成后,点击在线测试,就可以在右侧的参数看到已经发布好的应用,我们输入一些指令进行体验,让刚刚出生的自媒体秘书为我们撰写一篇文章,题目为《你知道吗,游戏,原来就是孩子打开数学之门的捷径!》,并让他抓住用户需求和痛点,其输出效果如下。
可以看到我们定制化好的自媒体秘书,不仅在软文组织上很有条理性,且在叙述的观点上也有很强的逻辑性,且能够锁定确定的目标人群,给出确定的方法、步骤和效果。在发布模型后,回到管理控制台总览,还可以看到百度智能云为我们发布的模型提供了API Key
以及SecretKey
供后续搭建应用使用,这可以供脚本、Web、App、小程序、微信公众号接入使用,如此我们就可以让秘书适应多种环境,并大批量生成软文进行发布了!
三、大模型助力产业智能化变革
3.1、AI航海的启航引擎——大模型
以前没有智能时,很多工作实际上是靠人来操作;有了智能以后,机器、设备、系统都可以按照人的思想去学习,未来的工作模式,很有可能就是和本文所做的一样,一个聪明的人去指导一个机器人甚至一堆机器人。随着大模型深入数字经济,可以预见的是更多产业会出现新的改变,大模型创业带来的众多机会,将带动数字化经济更进⼀步,有机会在全球范围内掀起⼀股产业再造的浪潮。
相比较于传统的识别型AI(小模型),以GPT 为代表大模型在数据、模型等方面均有不同程度的革新,赋予了大模型更强的通用性。这恰好改善了小模型时代的产业化痛点,AI实现即插即用。大模型可能会成为⼀个类似于安卓的“超级 底座” ,每个行业都迎来AI再造的机会,并给应用端带来大量的机会。
3.2、文心千帆体验心得
而文心千帆正是建立在这种逻辑上面,在走完一遍模型的搭建、调优、发布的步骤后,给我的第一感受就是:高效!安全!
文心千帆对模型训练和模型推理做到了极致的性能优化和效果优化,帮助客户降低资源损耗,提升利用率,从数据生成、数据标注、数据回流到模型训练、模型微调、模型评估和压缩,再到模型发布、模型部署、模型托管和应用编排,都可以在文心千帆上一站式完成,其开箱即用的使用流程,以及完善的可视化产品界面,可以让普通人轻轻松松完成大模型训练、推理及应用。另外,其还预置了百度文心大模型与第三方大模型,支持插件与应用灵活编排,方便助力大模型多场景落地应用。
在安全方面,文心千帆模型能够自动识别文本中的敏感词,并对其进行过滤处理。这种功能在保护用户隐私和安全上起到了重要作用。同时,文心千帆还拥有更安全、完善的鉴权与流控安全机制,可以有效地防止非法访问和网络攻击。此外,它还自带敏感词过滤,可以更好地保护用户的隐私和安全。总体来说,文心千帆是一款功能强大、安全可靠的软件,值得用户使用和信赖。
可以说,文心千帆的出现,让智能办公、智能编程、智能营销、智能媒体、智能教育、智能金融等一切能与数字结合的场景均有大模型应用的落地可能性。当前,百度“如流”已经基于文心一言的能力上线了“智能总结”“智能洞察”“超级助理”等多个新功能,倾力打造企业办公的统一入口、重塑业务流程、打破系统边界,实现工作模式的范式变革,在智能编程方面,百度智能编码助手Comate已可根据自然语言的描述,生成对应的代码片段,支持在代码编辑区内根据注释自动生成代码,提升开发效率。再往远看,数字员工对话能力、金融合同文档分析、双录质检语义准确性、数字营业厅-用户数字分身、智能营销-营销文案生成、研发助手-代码生成等功能以及开始初出茅庐。
大模型带来的产业智能化变革势不可挡,使用大模型激发个人创造力、提高公司生产力已经势在必行!