10分钟建立一个自媒体秘书——国产企业级大模型文心千帆初体验

目录

  • 一、文心千帆简介
  • 二、模型搭建与调优
    • 2.1、数据准备——为秘书准备资料
    • 2.2、模型调优——为秘书安排培训课
    • 2.3、模型发布——让秘书开始上班
  • 三、大模型助力产业智能化变革
    • 3.1、AI航海的启航引擎——大模型
    • 3.2、文心千帆体验心得

当一个轻轻松松的甩手掌柜,让AI来打工,自己来数钱,这是AI时代每个人梦寐以求的事情。

刚好百度近期发布了全球首个一站式企业级大模型平台——文心千帆,今天,我带大家完成一项挑战——探索如何创建并微调一个专属自己的GPT大模型,生成一个高质量自媒体文案秘书!保证“能不干的坚决不干,能少干的坚决不多干”,打造懒人的极致流水线!

一、文心千帆简介

首先介绍一下文心千帆。文心千帆大模型平台是百度智能云推出的全球首个一站式企业级大模型平台,为企业提供大模型训练及推理的全流程工具链和整套环境,让企业以最简单最高效的方式用上大模型、用好大模型。在文心千帆上,企业不但可以直接调用文心一言服务,也可以开发、部署和调用自己的大模型服务,是企业拥抱大模型的最佳选择。

与我们之前了解过的文心一言不同,文心千帆大模型平台是百度文心大模型的官方和唯一的商业化服务平台。对内及对外统一由文心千帆来提供服务,文心千帆从数据服务(生成、标注、回流)、模型训练(Post-pretraining、Fine-tuning、Prompt-tuning)、模型评估(主观评估、客观评估)和压缩、自动化Prompt工程、到插件应用编排,客户都可以在文心千帆上一站式完成。客户可以将训练好的模型部署和托管在文心千帆上,获得极致的性能、企业级的高可用性和安全环境。另外其已经预置了高效的企业搜索插件,无缝集成三方插件,通过插件机制,进一步扩展大模型能力边界,助力客户的应用产品全面升级。

简单来说文心千帆的云服务接口是文心一言的企业版云服务,借助此项服务,我们可以结合自身掌握的行业数据精调出更贴合实际场景的行业大模型。所有有创意、有想法的人都可以轻松的借助该工具去验证自己的新想法,这一定会激发创造力、提高生产力,放大自己的优势、拓展自己的优势领域。

二、模型搭建与调优

2.1、数据准备——为秘书准备资料

在微调模型之前,需要准备好相应的数据集,首先,我们需要收集相应的Prompt-Response数据集。Prompt也叫提示词,简单的理解成它是给大模型的指令。它可以是一个问题、一段文字描述,甚至可以是带有一堆参数的文字描述。大模型会基于 prompt 所提供的信息,生成对应的文本或者图片,即Response。在很多大模型应用场景下,基于经验或者训练语料总结出一些优质的Prompt组成结构,可将其抽离成为一种模板,在模板中去填充对象信息来进行大模型推理,从而获得更准确的推理结果。文心千帆的Prompt工程提供Prompt模版功能,支持定义模板后在在线服务-在线测试器中快速使用,也支持通过Prompt模板的云服务调用获取模板。

Prompt-Response数据集可以从公开数据集中获取,一般为jsonl格式,也可以通过爬虫等方式自行收集,在收集时可参考以下准备数据集的技巧:

  • 数据集的规模要足够大,以保证模型的泛化能力
  • 数据集的质量要高,尽量避免噪声和错误标注的数据。
  • 数据集的多样性要足够,以覆盖不同的场景和语言风格,每个分类的文本需要覆盖实际场景里面存在的可能性,训练集若能覆盖的场景越多,模型的泛化能力则越强。

这里给出几个优秀的Prompt-Response示例:

  • (私人法务助手)
  • Prompt:征信中经常出现的连三累六是什么意思?
  • Response:征信报告中连续三个月有逾期还款记录,并且逾期还款记录累计超过六次,是连三与累六的合称,这是征信逾期中较为严重的一种,一旦出现这种情况,在银行申请贷款是不可能通过的,并且大部分网贷申请也会有限制。
  • (本地生活助手)
  • Prompt:晚上九点北京xx健身房还在营业吗?
  • Response:您好,XX健身房的营业时间为9:00~22:00,您可以致电010-XX88咨询商家当天的营业情况。
  • (故事创作助手)
  • Prompt:写一个视频化5分钟以内,4个角色不畏艰难的冒险故事。
  • Response:唐僧师徒三人,今日来到了八百里流沙河。忽然从河中冲出一个红发河妖…

准备数据和管理数据往往是微调模型最麻烦也是最重要的一步,所幸的是文心千帆平台给我们提供了统一归纳和管理数据集的功能,且可以对数据集进行迭代、继续导入和删除等操作。首先我们登录到文心千帆大模型操作台,在左侧功能列选择数据集管理,进入数据集管理主任务界面,点击+号创建数据集。

作为示例,我在此建立了一个文本对话数据集,数据集版本从V1开始迭代,点击下方“创建并导入”直接进入数据导入页面。

创建数据集后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面,也可以直接创建并导入数据。将我们之前准备好的jsonl格式的数据集文件上传。

如果是有标注的数据集,将直接自动读取promptresponse,而如果是没有标注的数据集也没有关系,文心千帆为我们提供了自动生成功能,这意味着我们不需要手动标注大量的数据集,而是可以通过prompt来自动生成response,在前期文心一言已经逐渐成熟的基础上,文心千帆自动生成的response已经拥有很高程度的多样性和准确性。这样,可以大大减少获取数据集的成本和建立自定义数据集的成本,在自动生成后,还可以根据自己的需求和场景来进行人工修改和微调,轻松得到高质量的数据集,这里,我们建立了一个根据题目生成对应公众号软文的小型数据集,数据集建立好后如下图所示。并点击发布以供后续使用。

2.2、模型调优——为秘书安排培训课

模型调优是指在机器学习模型训练过程中,通过调整模型的超参数、优化算法、数据预处理等方法,提高模型的性能和泛化能力的过程。模型调优是机器学习和深度学习中非常重要的一步,它直接影响到模型的性能和效果。

  • 在数据量较少的情况下,模型调优可以通过利用已有的模型参数和结构,快速训练出一个适应新数据集的模型,更好地适应新的任务,并提高模型的效率和准确率。
  • 在数据量足够的情况下,模型调优也可以利用已经训练好的模型,避免从头开始训练模型,节省时间和计算资源的同时提高模型的预测准确率和稳定性。

大模型调优实际上是Fine-Tuning的训练模式,开发者可以选择适合自己任务场景的训练模式并加以调参训练,从而实现理想的模型效果。

点击左侧功能列选择大模型调优,进入大模型调优主任务界面,可以选择百度自行研发的ERNIE-Bot-turbo作为我们调优的基础模型,迭代次数建议选择5~100轮,批处理大小选择32,学习率设定为0.00002,然后数据配置上,选择我们刚刚准备好的自媒体软文数据集,点击开始训练。

训练完成后,可以查看训练日志、概览日志和评估报告,在检查无误后点击发布模型。当版本状态由“创建中”转为“就绪”时,模型版本即创建成功。

除此之外,文心千帆还提供了评估、压缩、部署、删除、迭代等功能,其中:

  • 评估:支持对生成的大模型进行全方位评价,当前仅支持对基础模型为BLOOMZ-7B的模型进行评估。详情可参考模型评估。
  • 压缩:可以通过量化压缩等工具提升大模型推理速度,当前仅支持基础模型为BLOOMZ-7B的模型进行压缩。详情可参考模型压缩。
  • 部署:可以支持将指定的模型版本部署为预测服务,平台支持将模型发布为在线服务,同时在服务发布后对服务进行详情查看和版本更新等操作。在部署时,资源配置支持公共资源池和私有资源池的选择。服务发布在公共资源池时,不保证QPS,请求可能存在排队的情况;服务发布在私有资源池时,服务独占资源,可以设定对应的算力单元来保证QPS

2.3、模型发布——让秘书开始上班

文心千帆平台支持将模型发布为在线服务,同时在服务发布后对服务进行详情查看和版本更新等操作。在左侧功能列选择服务管理,点击创建服务,然后将我们刚刚微调好的模型导出进来,选择V1版本,命名为自媒体软文秘书,然后设计自己的专用接口地址,点击创建。

创建完成后,点击在线测试,就可以在右侧的参数看到已经发布好的应用,我们输入一些指令进行体验,让刚刚出生的自媒体秘书为我们撰写一篇文章,题目为《你知道吗,游戏,原来就是孩子打开数学之门的捷径!》,并让他抓住用户需求和痛点,其输出效果如下。

可以看到我们定制化好的自媒体秘书,不仅在软文组织上很有条理性,且在叙述的观点上也有很强的逻辑性,且能够锁定确定的目标人群,给出确定的方法、步骤和效果。在发布模型后,回到管理控制台总览,还可以看到百度智能云为我们发布的模型提供了API Key以及SecretKey供后续搭建应用使用,这可以供脚本、Web、App、小程序、微信公众号接入使用,如此我们就可以让秘书适应多种环境,并大批量生成软文进行发布了!

三、大模型助力产业智能化变革

3.1、AI航海的启航引擎——大模型

以前没有智能时,很多工作实际上是靠人来操作;有了智能以后,机器、设备、系统都可以按照人的思想去学习,未来的工作模式,很有可能就是和本文所做的一样,一个聪明的人去指导一个机器人甚至一堆机器人。随着大模型深入数字经济,可以预见的是更多产业会出现新的改变,大模型创业带来的众多机会,将带动数字化经济更进⼀步,有机会在全球范围内掀起⼀股产业再造的浪潮。

相比较于传统的识别型AI(小模型),以GPT 为代表大模型在数据、模型等方面均有不同程度的革新,赋予了大模型更强的通用性。这恰好改善了小模型时代的产业化痛点,AI实现即插即用。大模型可能会成为⼀个类似于安卓的“超级 底座” ,每个行业都迎来AI再造的机会,并给应用端带来大量的机会。

3.2、文心千帆体验心得

而文心千帆正是建立在这种逻辑上面,在走完一遍模型的搭建、调优、发布的步骤后,给我的第一感受就是:高效!安全!

文心千帆对模型训练和模型推理做到了极致的性能优化和效果优化,帮助客户降低资源损耗,提升利用率,从数据生成、数据标注、数据回流到模型训练、模型微调、模型评估和压缩,再到模型发布、模型部署、模型托管和应用编排,都可以在文心千帆上一站式完成,其开箱即用的使用流程,以及完善的可视化产品界面,可以让普通人轻轻松松完成大模型训练、推理及应用。另外,其还预置了百度文心大模型与第三方大模型,支持插件与应用灵活编排,方便助力大模型多场景落地应用。

在安全方面,文心千帆模型能够自动识别文本中的敏感词,并对其进行过滤处理。这种功能在保护用户隐私和安全上起到了重要作用。同时,文心千帆还拥有更安全、完善的鉴权与流控安全机制,可以有效地防止非法访问和网络攻击。此外,它还自带敏感词过滤,可以更好地保护用户的隐私和安全。总体来说,文心千帆是一款功能强大、安全可靠的软件,值得用户使用和信赖。

可以说,文心千帆的出现,让智能办公、智能编程、智能营销、智能媒体、智能教育、智能金融等一切能与数字结合的场景均有大模型应用的落地可能性。当前,百度“如流”已经基于文心一言的能力上线了“智能总结”“智能洞察”“超级助理”等多个新功能,倾力打造企业办公的统一入口、重塑业务流程、打破系统边界,实现工作模式的范式变革,在智能编程方面,百度智能编码助手Comate已可根据自然语言的描述,生成对应的代码片段,支持在代码编辑区内根据注释自动生成代码,提升开发效率。再往远看,数字员工对话能力、金融合同文档分析、双录质检语义准确性、数字营业厅-用户数字分身、智能营销-营销文案生成、研发助手-代码生成等功能以及开始初出茅庐。

大模型带来的产业智能化变革势不可挡,使用大模型激发个人创造力、提高公司生产力已经势在必行!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/47766.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微信登录的接口

目录 第一步:生成微信扫描二维码(网页内嵌的二维码)接口第二步:处理微信回调 ,获取扫描人信息 微信开放平台: https://developers.weixin.qq.com/doc/oplatform/Mobile_App/WeChat_Login/Development_Guide.html 第一步&#xf…

IBOX NFT 数字藏品价格 监控 工具 科技

IBOX NFT 数字藏品价格监控工具 科技 -7月25号 由于原来的pc版本的科技使用的web端口,迫于ibox关闭的web端下单接口 所有不得已又开发了一个android的科技自用 锁单、监控、公告自动锁单、抢购、查询仓库交易信息 ibox 数字藏品最近比较火,所以开发…

通达信插件获取并存储通达信商品指数的实时数据

一、引子 通达信商品指数一共有23个,如下图所示: 如果想获取历史数据,只需要通过通达信的数据下载和导出功能即可,现在我们需要获取这23个指数的实时数据,通过导出功能就没有办法了。 在最初的阶段,考虑的…

免费获得筹码分布接口交易数据,Tushare的使用方法

在做量化交易时需要活动历史数据,Tushare是一个免费提供各类金融数据 , 助力智能投资与创新型投资的平台。在这个平台上可以免费获得股票、期货和外汇的各种数据。下面就给大家介绍一下Tushare的注册和使用方法。 使用流程是:1、用户注册 - 2、用户使用…

哪个软件能实盘测试策略,Quicklib提供期货CTA策略实盘模拟监控的好工具(原创)...

大家都知道开发期货程序化交易,是一个非常繁杂的工作,并且在策略实盘运行过程中,很难提供一个资金曲线进行查看,我开发了一款资金曲线分时图工具,可以将期货CTP账户的资金曲线绘制出来,方便检查实盘策略中的…

HCIA第二天笔记

思维导图 HCIA第二天笔记 IP报文头部 图 第二行分别是:标识字段,标志位和片偏移字段 标识字段:相当于序列号,假设给第一个分片的报文序号随即为x则后续的每个报文1 标志位&#xff1…

鸿蒙系统走进大学课堂,华为鸿蒙系统HarmonyOS课程走进高校,武汉大学等高校将授课...

推动华为鸿蒙系统HarmonyOS高速发展的机会来了,当前已得到权威确定,华为鸿蒙系统HarmonyOS课程将走进高校,在武汉大学等15个高校将正式开展harmonyOS授课。据业内人士表示,此举将推动鸿蒙系统HarmonyOS在国内的普及,包…

HCIA (学习笔记二)

华为eNSP 以上图拓扑图为例 增加拓展结构 可以在此对路由器进行拓展 将所需的拓展面板拖进拓展板即可 配置 华为根据所属权限不同把设备分为不同的视图 <huawei> 尖括号为用户视图—只有查看权限 [huawei] 方括号为系统视图—可以进行全局配置 [gaomin-GigabitEthern…

HCIA-HarmonyOS Application Developer——题目集3

题目1 1、&#xff08;多选&#xff09;开发者在使用JavaUl框架时&#xff0c;会用到各种组件来创建一个页面&#xff0c;以下哪些XML属性&#xff0c;是所有组件通用的? A、id B、width C、theme D、clickable 解析&#xff1a;&#xff08;ABCD&#xff09; 题目2 2、&…

华为技术官又出神作,鸿蒙操作系统完整文档笔记现已疯传

操作系统&#xff08;Operating System&#xff0c;简称OS&#xff09;是管理和控制计算机硬件与软件资源的计算机程序&#xff0c;用户和计算机的接口&#xff0c;同时也是计算机硬件和其他软件的接口。 其能管理计算机系统的硬件、软件及数据资源&#xff0c;控制程序运行&a…

【鸿蒙应用开发】 【HCIA认证】学习笔记3

文章目录 1.正确的人&#xff0c;通过正确的设备&#xff0c;正确地使用数据2.HiLog3.架构图4.Data5.Image7.通知8.JS FA调用Java PA的机制9.NetworkID10.内核层 考点说明 1.正确的人&#xff0c;通过正确的设备&#xff0c;正确地使用数据 在搭载HarmonyOS的分布式终端上&…

华为鸿蒙系统深度研究 (PPT演示)

感谢阅读&#xff0c;欢迎扩散传播&#xff01;感谢&#xff01; ????点击关注GitHub科技???? 更多鸿蒙文章&#xff0c;共建鸿蒙生态 华为鸿蒙系统是安卓套壳&#xff1f;直接看代码 HarmonyOS到底是不是Android套皮&#xff1f; HarmonyOS完全升级攻略&#xff1a;消…

鸿蒙ArkTS第一次作业

主要目录配置文件作用&#xff1a; stage模型&#xff1a; FA模型&#xff1a; 语法基础知识&#xff1a; ArkTS 是华为自研的开发语言。是2022年下半年新推出的语言&#xff0c;它在TypeScript&#xff08;简称TS&#xff09;的基础上&#xff0c;匹配ArkUI框架&#xff0c;扩…

【鸿蒙应用开发】 【HCIA认证】学习笔记1

文章目录 1.page生命周期2.跨设备迁移Page3.原子化服务4.config.json5.visibility6.权限7.intent8.线程8.服务卡片10.APP Pack 考点说明 1.page生命周期 MainAbility拥有MainAbilitySlice1和MainAbilitySlice2 当MainAbilitySlice1导航到MainAbilitySlice2时 调用顺序是这样的…

【鸿蒙应用开发】 【HCIA认证】学习笔记2

文章目录 1.idl2.Service3.关系型数据库4.分布式接口5.视频播放功能开发步骤6.Java UI框架7.JS UI框架8.布局9.内外边距10.数字签名 考点说明 1.idl 在开发HarmonyOS应用时&#xff0c;如果客户端和服务端需要跨进程通信&#xff0c;可以使用idl来定义两者均认可的编程接口。 …

追着 chatGPT 打的 Claude 跑不动了?!

claude 据说是 openai 公司的副总裁因理念不合&#xff0c;出走创建的 anthropic 公司发明的聊天机器人&#xff0c;和 chatGPT一样&#xff0c;智能聊天功能都很不错。 大致水平在 强chatGPT3.5 左右。 前期因为免费试用&#xff0c;反应速度非常快&#xff0c;对国内也没有…

通达信上涨回调选股公式,选出二次走强的标的

本文首先编写二次走强指标公式&#xff0c;在此基础上增加过滤条件&#xff0c;编写上涨回调选股公式。 一、二次走强指标公式 指标公式的总体思路还是比较简单的&#xff0c;弱势、弱势反弹、强势、强势调整&#xff0c;这四个形态主要是处理画图&#xff0c;二次走强是信号&…

Dijkstra迪杰斯特拉算法的介绍(分为朴素dj和堆优化版dj),包含模板总结(必掌握)与具体例题应用

(&#x1f53a;)朴素dijkstra迪杰斯特拉算法 时间复杂度分析 寻找路径最短的点&#xff1a;O(n)加入集合S&#xff1a;O(n)更新距离&#xff1a;O(m)所以总的时间复杂度为O(n)精确&#xff1a;时间复杂度 O(nm), n表示点数&#xff0c;m表示边数 所有边若是正的,就不会有自环;…

斯坦福「红睡衣」计划:真·从零复刻ChatGPT!

源 | 新智元 大家好&#xff0c;这里是 NewBeeNLP。一起从零打造ChatGPT&#xff0c;AI从业者大团结&#xff01; Meta AI开源的大羊驼LLaMA模型彻底点燃了开源社区的热情&#xff0c;并在此基础上相继开发出了各种类ChatGPT的羊驼Alpaca, Vicuna等。 但Meta只是开源了LLaMA的权…

2023 Prompts_ChatGPT 提示语大全

ChatGPT Prompts 是一个专注于 ChatGPT 提示语的大全集合网站&#xff0c;涵盖了广泛的领域和主题。无论是想在日常生活中获取写作灵感&#xff0c;还是想在科技、文学、医学等领域提升写作效率和质量&#xff0c;用户都可以从该网站中找到适合自己的相关提示语。 该网站提供的…