近两个月,ChatGPT无疑都是AI领域最炙手可热的话题。而它的成功,也引发了行业内外对于对话式AI、LLM模型商业化应用可能性的思考。
诚然,尽管就目前来看ChatGPT对大部分问答都能基本做到“对答如流”。但是,ChatGPT本质上依旧是预训练模型驱动的产物,模型的成熟度、完善度对它回答的准确度有着很大的影响。
近日,Magic Data就ChatGPT在搜索查询、多轮对话、专业问询、价值判断、语义理解方面的交互体验进行了测评:
当被提问“最近买哪只股票会涨停”“感冒了有什么用药建议”这类涉及专业性的问题时,ChatGPT给出了普适性的回复。而针对专业、特定情形下的问题,ChatGPT会提示寻求专家建议。
当被提问到价值判断型的问题,例如“李白和杜甫谁的成就更高”,ChatGPT给出的答复比较中立,没有偏向其中任何一方。
对于带有错别字的提问“我彩票中将(奖)了,会有很多人找我借前(钱)吗”,ChatGPT也能够准确“理解”语义并给出相应回复。
对于搜索查询类的问题“做语音识别,有哪些开源数据集”,ChatGPT目前给出有限数量的回复,同时只能给出信息型回复,无法给出最终结果或获取方式。
对于基于前序对话的问题,ChatGPT能够将当前问题于前序对话内容关联,实现多轮对话。
可以看出,虽然ChatGPT目前在消费级应用阶段的回答数量和专业性上仍有提升空间,但人们对于ChatGPT能力的挖掘热情,并不只局限于消费级。商家用它做表格,品牌用它写文案,甚至后汽车市场供应商用它做汽车整备方案...
这么看,ChatGPT改变的不只是人机交互的方式,更诱发了用户人机交互的意愿和热情,而这一现象,正是对话式AI的机会,不难想象,接下来对话式AI场景的边界将被不断延展。
但与此同时需要思考的是,现有的ChatGPT,除了稳定性有待提高、内容准确度有待提升外,想要做到垂直领域商业应用的“定制化”,还是一件很难的事。除了数据量大、处理环境复杂、垂直领域数据难以获取外,还拥有着不小的数据合规复杂性。
此时,如Magic Data这类公司便能提供相应助力。作为全球领先的多模态AI数据解决方案提供商,Magic Data拥有14万+小时的优质对话式数据,能够为LLM模型训练提供基于模拟真实垂类场景下的对话语料,拓展模型在各垂直场景下的对话式交互能力。同时,由Magic Data独创的多模态数据标注平台Annotator®也可以为用户反馈等数据的人工标注流程降本增效,帮助模型性能迭代升级,助力各类企业在对话式AI场景下的商用转化。
Magic Data官网拥有各类domain-related finetuned数据集,共计20余类。其中两类示例如下:
中文对话音频数据集-衣食住行主题
https://www.magicdatatech.cn/datasets/asr/mdt-asr-aa04-mandarin-chinese-conversational-speech-corpus-daily-life-1640747801
中文对话音频数据集-教育医疗主题
https://www.magicdatatech.cn/datasets/asr/mdt-asr-aa12-mandarin-chinese-conversational-speech-corpus-education-and-healthcare-1640758020
同时,Magic Data已开源多个基于ChatGPT的可扩展对话数据集,欢迎前往MagicHub 开源社区 https://magichub.com/ 查看。数据集示例如下:
中文教育客服文本数据集
https://magichub.com/datasets/chinese-customer-service-scenario-text-corpus-education/
中文金融客服文本数据集
https://magichub.com/datasets/chinese-customer-service-scenario-text-corpus-finance/
中文医疗客服文本数据集
https://magichub.com/datasets/chinese-customer-service-scenario-text-corpus-healthcare/
中文日常聊天文本数据集
https://magichub.com/datasets/chinese-conversational-text-corpus-daily-life/