通过LLM构建聊天机器人必备技巧

9df0b4edf252d2a1e8e03aab09bb90b8.jpeg

聊天机器人在AI领域并不稀奇,尤其是ChatGPT问世之后,很多人都把它当成一个可以随时对话随意提问的聊天机器人。而在实际应用领域,聊天机器人的场景也愈加丰富多样。


比如很多人熟知的客服聊天机器人,常用在电商领域,能够快速回答常见问题或者跟踪发货状态等等;还有医疗聊天机器人,在读取患者的症状并且持续提问后,就患者下一步应该采取的措施提出正确的建议;以及还有辅助销售的聊天机器人,用于财务计算、法务咨询相关的聊天机器人等等。


那么,如何拥有一个符合自己场景需求的聊天机器人?语言技术教育家Rachael Tatman博士为使用LLM(Large Language Models)开发聊天机器人提供了一些建议和想法,详细说明了数据扩充的内容、原因和方式。同时还展示了以数据多样性为重点进行数据扩充的建议,以及一些使用Cohere LLM的例子。


使用LLM的建议


首先,出于对用户体验考虑,以及存在的一些不可预测性,Rachael Tatman博士不建议向用户展示原始生成的文本。这是由于,对LLM的大多数对抗性攻击都需要访问原始生成的文本,如果不公布原始数据,那么就不必应对对抗性攻击。她建议在训练或者微调聊天机器人时,可以在人机交互的方面进行数据增强,从而使得用户能够在使用时感受到温暖。


注:对抗性攻击(Adversarial attacks),由于机器学习算法的输入形式是一种数值型向量(Numeric vectors),所以攻击者就会通过设计一种有针对性的数值型向量从而让机器学习模型做出误判,这便被称为对抗性攻击。


数据增强什么时候有用?

数据增强什么时候有用呢,答案是,在没有目标用户的代表性数据的时候。她还指出,在我们有足够完善的代表性数据时,数据扩充当然是有效的,但是会缺乏一些有特殊含义或者其他意图的内容。比如说因为热点事件或者新的含义,某些事物会从不相关变成相关。,此外,在处理一些非常干净且不能完全代表用户生成文本的研究数据时,数据扩充是非常重要的。


为什么使用LLM而不是其他?


与其他基于模板规则的数据扩充技术相比,LLM可以避免重复和意外错误。并且基于模板规则的方法在生成具有不同语法的数据方面存在滞后。Rachael Tatman博士提到,对比其他模型,LLM是一种生成数据更快、更便宜、更可靠的方法。虽然LLM也会被各种各样的用户生成文本而干扰,因此,在训练我们的模型时,多样性的数据增强是非常有必要的。


Cohere是如何收集数据来训练模型的?


Cohere的Generation Large Language Model是在Cohere基础设施团队从网上抓取的Google Books数据集、Common Crawl和其他文本上训练的。Cohere团队筛选出的前十个域名包括:wordpress.com, medium.com, stackexchange.com, tumblr.com, elsevier.com, genius.com, bbc.co.uk, libsyn.com, yahoo.com, nytimes.com。在这个基础上,Cohere LLM使用了各种数据来训练模型,包括干扰数据。


如何使用LLM更快构建聊天机器人?


虽然根据具体情况和实际场景,数据会各不相同,但建议通过尽可能有代表性并且齐全的数据,来进行模拟训练以生成新数据。正如Rachael Tatman博士所介绍的,她使用SLURP数据集[U1] 创建的一个例子。她之所以会使用这些数据,是因为它非常干净而且正式。


再举个例子,当你有一些训练数据时,如何利用这些训练数据来生成更多基于它的数据。在Cohere的AI聊天机器人对话框内,

636a057d2040761bf4641299de137d2a.jpeg


我们给了一个指示:play music有了这个,我们提供了一堆例子。当我们单击生成按钮时,它将生成相关文本。

3c3c170faf3f378aa1d26f5cd586525e.jpeg

演示了使用Cohere聊天机器人生成文本的另一个示例。在这里,我们给它喂食一个意图,例如,设置闹钟或提醒。

22165f50cdb7fc327ee027e8f995c00f.jpeg


如何为数据增加多样性?


到目前为止,我们已经看到了使用数据增强技术增加数据的方法。但是,生成的数据与现有数据类似。如果我们想增加数据多样性怎么办?她将增加多样性的方法分为两部分。

l  基于情绪或使用角色的提示

基于情绪的提示,也就是喂给一些情绪的提示。 例如,当要求聊天机器人愤怒地播放音乐时,她发现播放音乐的意图发生了变化,聊天机器人生成的文本建议关闭音乐。如下图,聊天机器人给到的文本与可能我们的意图完全相反。所以,情感背景和意图不是IID(独立和相同分布)。然而,这种方法可能适合生成负面情绪的数据集。

fc11bbfed047092e0e815d2136c571d1.jpeg

l  基于特定用户角色的提示

在使用基于用户的特定角色时,它主要基于刻板印象。人们不太可能通过一些人口统计的数据来介绍自己,除非他们想引入一些基于此的刻板印象,比如说“我现在20岁,请播放音乐”“我是法国人,请播放音乐”。但是,使用多语言数据是个特殊情况,有可能就会由数据衍生一些结论,如下图所示。所以,我们应该谨慎地采取这种做法。

e27aa6c4e4215e41c48cd0d6d95a9cac.jpeg

1b78a644c79eaa8d66c91cf6f4d13bed.jpeg

l  基于网站人口统计数据的提示

通过引用特定网站进行提示,她提供了一种风险较小的方法来使用社交媒体网站的人口统计数据来创建提示。她提到这种方法可以用作提示中角色的代理,这种方法也考虑了主题的影响。

比如说当引入不同社交网站的数据后,Twitter、Facebook、YouTube上的不同用户,对聊天机器人要求播放音乐,会得到不同的回复。

Facebook:

16be69177899f3216b46f0086a9e58af.jpeg

YouTube:

2402d6812288c7c71f016d974129a42a.jpeg

使用LLM的一些注意事项


在一些场景下,如果和聊天机器人表达的意图过于具体或独特,上述方法将无法很好生效。如果您的目标用户是大量现有社交媒体用户,那么提供的方法将最有效。此外,如果您的目标用户的确是比较独特的,那么可以尝试,以给定方式添加数据多样性,尽管这并不能完全代表您的实际用户,但是算是个权宜之计。


如何验证生成的数据?


建议在第一遍进行手动验证。如果能增肌人机交互的内容将会得到更好的性能。除此之外,她建议使用嵌入可视化来确保整个分布中真实数据和生成的数据的混合。还可以使用嵌入可视化来确定您是否对新集群感到满意。


最后的思考


总结一下,LLM可以帮助我们通过数量和多样性来增加数据,直到我们得到一些实际数据,使我们的系统的可用性更高。她补充说,我们可以提示现有和新生成的数据。最后,建议在第一遍手动验证生成的数据,以确保它符合我们正在寻找的标准和质量。


 [U1]https://arxiv.org/abs/2011.13205?ref=txt.cohere.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/25434.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于PHP的招聘网站

摘要 在Internet高速发展的今天,我们生活的各个领域都涉及到计算机的应用,其中包括在线招聘的网络应用,在外国在线招聘已经是很普遍的方式,不过国内的在线招聘可能还处于起步阶段。招聘网站具有招聘信息功能的双向选择&#xff0c…

丘仕达:SEO资料站管理团队成员招募

管理团队终于要成立了,我以为我会很兴奋或激动,奇怪的是我没有. 一直都想组团队,但我自己走了很多弯路,一直都在问自己:你能给团队成员什么利益?你能保证团队成员之间利益分配合理不冲突吗? 答案是不能.所以我一直在犹豫,给了自己一个理由:多观察下,给多点时间彼此来磨合.磨到…

如何招聘一个外贸SEO推广人员以及如何做后期的KPI考核

随着国内SEO行业的日渐成熟,越来越多的外贸公司,开始招聘专门的SEO人员,如果你去招聘网站上搜“外贸SEO”,会发现很多这样的公司。 总的来说,SEO的薪资水平还是不低的,深圳外贸行业SEO人员的平均月薪在8K以…

AI_News周刊:第三期

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 2023.02.20—2023.02.25 News 1.OpenAI 现在正在帮助可口可乐改善其营销和运营 2023 年 2 月 21 日——贝恩公司今天宣布与 OpenAI 建立全球服务联盟,OpenAI 是人工智能系统 ChatGPT、DA…

人工智能轨道交通行业周刊-第27期(2022.12.12-12.25)

本期关键词:虚拟中台、智轨、数字员工客服、钢轨光带异常、小目标检测 1 整理涉及公众号名单 1.1 行业类 RT轨道交通中关村轨道交通产业服务平台人民铁道世界轨道交通资讯网铁路信号技术交流北京铁路轨道交通网上榜铁路视点ITS World轨道交通联盟VSTR铁路与城市轨…

AI_Papers周刊:第五期

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 2023.03.06—2023.03.12 Top Papers Subjects: cs.CL 1.Larger language models do in-context learning differently 标题:更大的语言模型以不同的方式进行上下文学习 作者&#xff…

又编解码错误?一怒之下我把编解码的问题连根拔起!!!

文章目录 寻找同道问题解决专栏有哪些常用编码集?pycharm一劳永逸大法 寻找同道 运行代码的时候,最烦的就是代码逻辑都好好的,然后出现了编解码错误的报错。 我就纳闷儿了,我就做个测试,你错误就错误呗,你…

知乎高赞:Java9的模块化技术在应用上有什么价值?

点击关注公众号,利用碎片时间学习 来源:zhihu.com/question/264956573/ answer/1840974105 最近就正好在倒腾模块化,说说我们的应用场景 就是用java来写steam上的游戏,那缺省的jdk,它提供了语言常见的功能 但是 jdk并不…

知乎的彩蛋

在这篇文章中《Python一个有趣的彩蛋命令行执行python -c "import this"或者在python解释器中执行import this,会打印出Python之禅,另外介绍了个Chrome的彩蛋,在地址栏输入chrome://dino/,就可以打开一个小恐龙跑酷的黑…

设计模式看了又忘,忘了又看?

设计模式收藏这篇就够了 耗时了 5 个月,终于把设计模式一整个系列写完。其实设计模式这一系列文章网上已经有很多非常好、非常优秀的文章,为什么要写呢? 一方面是为了学得更扎实,印象中设计模式学习了 2 遍,记得牢的基…

响铃:IP跨界她经济,同道能讲好“单身婚纱”的故事吗?

文|曾响铃 来源|科技向令说(xiangling0815) 国泰君安证券报告显示,女性消费对经济增长的贡献率接近70%,到2019年中国内地女性经济市场规模近将接近4.5万亿元,而家庭消费中,近75%由女性决策。 由此引发的…

“因为内存泄漏,我的 M1 MacBook Pro 瘫痪了”

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 上个月,苹果在宣布“王炸候场中”后,19 号发布了 AirPods 3、HomePod mini 等新品,而这场发布会真正的主角当属新款 MacBook Pro:强悍的 M1 Pro/M1 Max…

程序员的财务自由之路(五)- 三人行必有吾师

一、前言 给自己树立一个「 目标 」是非常重要的,有「 目标 」才会有「 方向 」,有「 目标 」才会有「 动力 」,有「 目标 」才会有「 人生的意义 」。有了「 目标 」,再做一定的「 规划 」,并且「 坚持 」做下去&…

浅谈脑机接口:传统神经学科的颠覆者

人类从未停止对大脑的研究,然而有关于大脑的探秘如今所发现的也仅仅只是冰山一角,作为神秘的研究领域,脑科学直到下个世纪仍是前沿科学。 早在2001年,美国《麻省理工科技评论》首次提出把脑机接口领域称为将会改变世界的10大新兴技…

程序员坐牢了,会被安排去写代码吗?

点击蓝色“程序员黄小斜”关注我哟 加个“星标”,每天和你一起多进步一点点! 今天给大家分享一篇有意思的爽文,但也是根据多年之前一个真实报道改编而来的。 本文字数较多,建议先收藏,上下班路上、带薪上厕所、浑水…

痞子衡职场经验与感悟分享 - 索引

大家好,我是痞子衡,是正经搞技术的痞子。本系列痞子衡给大家分享的是职场经验与见闻感悟。 痞子衡在嵌入式行业也摸打滚爬了不少年,有一些个人经验可以给大家参考。所谓他山之石可以攻玉,希望痞子衡的经验对大家的职场之路有所帮…

有才天下猎聘股份简称更名为“同道猎聘” 7月31日生效

7月28日晚间,有才天下猎聘(06100)发布公告,公司英文名由“Wise Talent Information Technology Co., Ltd”更改为“Tongdao Liepin Group”,中文双重外文名称已由“有才天下信息技术有限公司”更改为“同道猎聘集团”,均自2020年6…

同道猎聘营收、利润双增:市值3个月回落七成,已被BOSS直聘超越

日前,同道猎聘(HK:06100)发布截至6月30日的2021年中期业绩。财报显示,同道猎聘2021年上半年实现收入11.98亿元,同比增长48.3%;净利润5343.9万元,同比增长57.1%。 同道猎聘称,其收入…

我要学计算机表情包,确认过表情包,怕是遇上学计算机的“同道中人”了

不同的大学专业有着自己的专属表情包,专业知识结合着骚浪贱,皮中带稳还多了点内涵……今天我们来围(bi)观(pin)计算机科学 CS 专业学生才能懂的表情包。 说到计算机, 不禁想起被亲朋好友问专业时的恐惧。 “小伙子学什么的?” “计…

同道伟业完成2400万元A轮融资 深耕足球大数据产业

投资界(微信ID:pedaily2012)6月15日消息,国内领先的足球大数据科技公司——北京同道伟业体育科技有限公司(以下简称同道伟业)宣布完成2400万元A轮投资,本轮融资由华盖资本和丰厚资本共同投资&am…