最近经常打开手机十个新闻里面至少有三个都是有关于chatGPT的,感觉好像很火的样子,其实这个本质上就是一个高度智能的聊天机器人,据说使用了包括2021年之前所有的数据去训练,加上后期不断地反馈优化上线后用户激增对他来说也是一个反向优化才有了今天的chatGPT,那么对于我们自己来说能否开发一个聊天机器人呢?答案是可以的,网上已有很多的教程,这里我就不多赘述了,包括我之前的文章里面也有类似的教程。这里主要是因为项目的原因,代码已经开源,有缘人搜到就是你的,不用问我开源到哪里了,懂的都懂。
首先来看下效果图:
有些问题回答的还算可以,但是有些问题就差强人意了点。
迭代了将近上万次,为了直观地看出来整体的性能表征,我对其进行了可视化展示,如下:
其中,涉及到两种评价指标简单介绍如下:
【Bleu评估指标】
BLEU (其全称为Bilingual Evaluation Understudy), 其意思是双语评估替补。所谓Understudy (替补),意思是代替人进行翻译结果的评估。尽管这项指标是为翻译而发明的,但它可以用于评估一组自然语言处理任务生成的文本。
【EmbAVe评价指标】
类似平方差之类的 :emb表示Y和Y_PRE经过embedding数据格式得转换(作用主要在于每个字符,与文中的所有字产生关联,变成词嵌入向量形式),AVE表示,平均提取方差值 ,或称平均变抽取,是统计学中检验结构变量内部一致性的统计量。
项目整体架构如下:
时间原因这里就不再展开详细介绍了。