CSDN问答机器人

文章目录

  • 前言
  • 一、背景
  • 二、总体流程
  • 三、构建知识库
  • 四、粗排
  • 五、精排
  • 六、Prompt
  • 总结
  • 相关博客


前言

先看结果:

请添加图片描述
已经连续很多周获得了第二名(万年老二), 上周终于拿了一回第一, 希望继续保持. 😁
请添加图片描述
这是今天的榜单, 采纳的数量相对较少, 之前基本上维持在100+

重点说明一下, 第二名是一名20年+经验的程序员, 第四名是ChatGPT的使用者.

整体来说还是非常不错的, 超越了99%的人类, 争取做到100%😁

断断续续优化了一年才达到今天的效果, 从git日志来看是13个月前开始做的, 不容易啊

一、背景

1、降低用户重复提问率
2、提高问题的响应速度
3、减少无人回答的问题

总的来说, 都是为了提升用户体验, 做一个能够帮助解决实际问题的AI机器人

二、总体流程

请添加图片描述
ChatGPT出来之前, 是没有prompt和之后的流程的, 也就是: 构建知识库 > 粗排 > 精排

三、构建知识库

知识库的数据来源:

  1. 已采纳的问题: 376140
  2. 编程语言的官方手册: 67015
  3. 高质量的博客: 4779402
  4. 技能树习题
  5. 学院的课程: 75302

4和5都是后面加的, 主要是为了推广技能树和课程, 主要的知识库来自1、2、3.

目前的数据是这些, 已经加了定时更新机制, 每月一号自动增量更新知识库

这里的477w博客, 是没有做结构化的量, 做完结构化后的量是12959544, 将近1300w的数据量了, 这么大的数据量, 如何存呢?

我知道你很急, 但你先别急, 听我娓娓道来!

结构化: 将博客按内容中的小标题拆分开

使用PostgresSQL存储知识库

表的整体结构

请添加图片描述

字段说明: id: 博客idquery: 博客标题inner_id: 小标题序号query_vector: 目标query的向量, 这里是 query+head_title 的向量化后的结果meta: 主要用于存储小标题及小标题之间的内容

我随机取的一条拆分后的博客的数据, 这是其中一个meta字段

{"url": "博客链接","tags": "debian,linux,ubuntu,vim,编辑器","content": "xxxxxxxxx","head_title": "安装ctags"
}字段说明: tags: 博客标签content: 小标题与小标题之间的内容head_title: 小标题

怕大家不理解, 我又截了个图
请添加图片描述
SQL大佬也许已经看出了端倪, 这里面存了好多重复数据, 理论上应该拆分出几个关联表来存的

确实, 说的很对, 当时有想过这个问题, 在众多因素之下, 就成了现在这样了, 大家可别像我一样

四、粗排

数据我们存起来了, 如何做粗排呢?

首先, 我们需要将我们的博客数据向量化, 上面的query_vector字段, 就是用来存储我们向量化后的数据的.

我们可以利用一些预训练的句向量模型, 来将我们的博客数据向量化, 我分为两部分来介绍:

  1. 构建训练数据
  2. 训练模型

在构建训练数据之前, 我想带大家看一下huggingface上的一些预训练句向量模型的效果.

我们拿月下载量最多的一个SBERT模型来试试, 链接: sentence-transformers/all-MiniLM-L6-v2

请添加图片描述
效果非常不错啊, 那还微调个啥, 直接拿来用呗

别急, 多测几个用例试试:

请添加图片描述
相似度有点大, 理想的情况, 这种案例的相似度应该在0.5以下, 如果用户要的是C语言答案, 我们的机器人返回的却是Java的结果, 对用户来说, 用处不大.

因此, 我们需要基于该预训练模型用我们自己标注好的数据微调.

那么问题来了, 如何标注数据?

  1. 人工标注, 构造: [query, query, label]元组
  2. 利用模型粗筛, 再人工标注

相信一个合格的NLPer都会选择2, 原因如下:

  1. 人工标注构造正例对非常困难, 例如, 我的数据是1w, 假如有一个query A, 需要你标注出与query A相似的句子B, 你需要遍历一遍数据后才知道哪些是相似的
  2. 人工标注周期长, 等你标完, 都猴年马月了

如何利用模型粗筛一遍数据
1、使用一些传统的相似度计算方法(如LCS), 将数据库中的博客标题, 两两计算相似度, 筛选出相似度比较高的数据, 组成 [query, query]
2、训练一个无监督的语义相似度模型(如SimCSE), 使用该模型来两两计算相似度, 筛选相似度比较高的数据

CSDN问答机器人中, 两种方法我都试过, 最后选择了2, 因为方法一计算出来的阈值, 往往偏向文本相似, 很难挖掘出我们需要高度关注的数据, 也就是上面所举的例子:

python实现二叉树
C语言实现二叉树

这种类型的数据, 通过方法1比较难以控制阈值.

模型的训练过程我就不说了, 这里我直接给大家展示一下通过SimCSE计算相似度后的数据

TypeScript生成随机数	jmeter随机数生成	0.89
TypeScript生成随机数	kotlin 生成随机数	0.88
TypeScript生成随机数	Javascript生成随机数	0.88
TypeScript生成随机数	ThreadLocalRandom生成随机数	0.88
TypeScript生成随机数	Java生成随机数SecureRandom	0.86
TypeScript生成随机数	wincc随机数的生成	0.86
TypeScript生成随机数	pytorch生成随机数	0.86
TypeScript生成随机数	golang生成随机数	0.86
TypeScript生成随机数	MATLAB 生成随机数	0.86
TypeScript生成随机数	MATLAB生成随机数	0.86
TypeScript生成随机数	Python 随机数生成	0.86
TypeScript生成随机数	python 随机数生成	0.86
TypeScript生成随机数	c#Random类生成随机数	0.85
TypeScript生成随机数	android 生成随机数	0.85
TypeScript生成随机数	Android 生成随机数	0.85
TypeScript生成随机数	随机数生成器python	0.84
TypeScript生成随机数	Swift - 随机数生成	0.84
TypeScript生成随机数	Clickhouse 生成随机数据	0.83
TypeScript生成随机数	pytorch | 生成随机数	0.82

相似度阈值设定在0.9, 筛选出来的数据:

python中分割字符串	python字符串分割
python中分割字符串	oracle分割字符串
python中分割字符串	将String字符串分割
python中分割字符串	boost 分割字符串
python中分割字符串	Arduino分割字符串
python中分割字符串	Linux Shell 分割字符串
python中分割字符串	boost 拆分字符串
python中分割字符串	sscanf分割字符串
python中分割字符串	leetcode 分割字符串
python中分割字符串	golang:字符串分割
python中分割字符串	基于Oracle的字符串分割
python中分割字符串	SQL中按分隔符拆分字符串
python中分割字符串	C++ string字符串分割
python中分割字符串	C++ string 字符串的分割
python中分割字符串	python多空格字符串分割

可以看出, 这些筛选出来的数据, 就是我们所关心的部分文本相同, 但语义完全不同的数据.

最后, 再人工标注一部分数据, 标注的数据如下:

利用python发送qq邮件	使用python发送qq邮件	1
利用python发送qq邮件	使用java发送qq邮件	0
利用python发送qq邮件	用Java发送QQ邮件	0
利用python发送qq邮件	使用python发送邮件	1
利用python发送qq邮件	C#利用QQ信箱发送EMAIL	0
利用python发送qq邮件	使用python发邮件	1
利用python发送qq邮件	用Python发送邮件	1
利用python发送qq邮件	Java使用QQ邮箱发送邮件	0
利用python发送qq邮件	python使用gmail发送邮件	0
利用python发送qq邮件	python发送QQ邮件	1
利用python发送qq邮件	PHP使用QQ邮箱发送邮件	0
利用python发送qq邮件	python 利用zmail库发送邮件	1
利用python发送qq邮件	利用Foxmail发送邮件	0
利用python发送qq邮件	python使用SMTP发送邮件	1
利用python发送qq邮件	用Python通过163邮箱发送邮件	0
利用python发送qq邮件	"Simple Java Mail的使用,发送qq邮件"	0
利用python发送qq邮件	Java实现利用QQ邮箱发送邮件	0
利用python发送qq邮件	使用Smtp来发送邮件	1

这里面存在一个包含关系, 当某个技术词里面包括了另一个词时, 我们认为是相似的, 如:

利用python发送qq邮件
python 利用zmail库发送邮件

使用zmail库可以发送163邮件、qq邮件、google邮件等

至此, 我们便有了高质量的有监督数据.

下一步, 就是微调SBERT模型了, 这里直接贴代码吧, 没什么难度, sentence_transformers库封装得太好了

import os
from sentence_transformers import SentenceTransformer, SentencesDataset
from sentence_transformers import InputExample, evaluation, losses
from torch.utils.data import DataLoaderclass TrainSBert:def __init__(self, config, options):self.model_name="sentence-transformers/all-MiniLM-L6-v2"self.data_path = "自己的标注数据路径"self.model = Noneself.model_base_dir = '模型保存base路径'self.model_dir = os.path.join(self.model_base_dir, self.model_name.split("/")[-1])if not os.path.exists(self.model_dir):os.makedirs(self.model_dir)self.evaluate_path = os.path.join(self.model_dir, "result.txt")def load(self):self.model = SentenceTransformer(self.model_name)def load_train_data(self):file_handle = open(self.data_path, 'r')train_data_list = []dev_sentences1, dev_sentences2, dev_labels = [], [], []count = 0for line in file_handle:item_list = line.strip().split("\t")sa = item_list[0]sb = item_list[1]label = float(item_list[2])count += 1if count <= 5000:dn = InputExample(texts=[sa, sb], label=label)train_data_list.append(dn)else:dev_sentences1.append(sa)dev_sentences2.append(sb)dev_labels.append(label)train_dataset = SentencesDataset(train_data_list, self.model)train_dataloader = DataLoader(train_dataset, shuffle=True, batch_size=32)return train_dataloader, dev_sentences1, dev_sentences2, dev_labelsdef train(self):self.load()train_dataloader, dev_sentences1, dev_sentences2, dev_labels = self.load_train_data()train_loss = losses.CosineSimilarityLoss(self.model)evaluator = evaluation.EmbeddingSimilarityEvaluator(dev_sentences1, dev_sentences2, dev_labels)self.model.fit(train_objectives=[(train_dataloader, train_loss)], epochs=10, warmup_steps=100,evaluator=evaluator, evaluation_steps=100, output_path= self.model_dir)self.model.evaluate(evaluator, self.evaluate_path)

没几行代码, 训练完成后, 我们来看看效果:

s1: 二叉树的python实现 与 s2: Ribbon实现负载均衡 相似度为: 0.18773505091667175
s1: 二叉树的python实现 与 s2: 使用openFeign实现负载均衡 相似度为: -0.04088197648525238
s1: 二叉树的python实现 与 s2: Nginx负载均衡实现 相似度为: 0.018543850630521774
s1: 二叉树的python实现 与 s2: python 的二叉树实现 相似度为: 0.965272068977356
s1: 二叉树的python实现 与 s2: 请问下二叉树用python怎么实现, 求求各位大佬了, 小弟实在不会 相似度为: 0.8639361262321472
s1: 二叉树的python实现 与 s2: 二叉树的python实现 相似度为: 1.0
s1: 二叉树的python实现 与 s2: 二叉树的c++实现 相似度为: 0.21337147057056427

这效果, 绝了!

接着, 我们用微调好的SBERT, 将知识库向量化后, 存到PG数据库中, 也就是query_vector字段的部分.
pgvector的官方仓库: https://github.com/pgvector/pgvector

milvushnswlibfaiss等都可以实现向量的存储, 这一块的工具还是挺多的, 主要是索引的构建方式不同, 感兴趣的可以去了解一下

这里要说明一下, 在meta里面的tags字段, 存的是博客标签, 这样做的好处:
1、加速召回
2、在一定程度上提高召回准确率

原因: 通过传入博客标签, 我们将query库从全量数据缩小到单个标签的数据, 数据量减少, 速度当然变快, 准确率也有一定提升.

取召回后的top5结果:

query:  android jar包转dex文件
召回数据0: android jar包转dex文件
召回数据1: android jar包免费下载
召回数据2: android jar包下载地址
召回数据3: Android Jar包冲突及解决方法
召回数据4: android 反编译jar包

至此, 粗排的部分我们就完成了

五、精排

精排这部分, 其实就是人工构造特征, 作为LTR模型的输入, 在这里, 我构造了以下特征:

1、SBERT语义相似度
2、最长公共子序列
3、编辑距离
4、jaccard相似度
5、余弦相似度
6、皮尔逊相关性系数
7、欧式距离
8、KL散度

大家可以适当删减, 因为有些相似度的计算方法是类似的

    def jaccard_sim(self, str_a, str_b):seta = set(self.segment.segment(str_a))setb = set(self.segment.segment(str_b))sa_sb = 1.0 * len(seta & setb) / len(seta | setb)return sa_sbdef cos_sim(self, a, b):a = np.array(a)b = np.array(b)return np.sum(a * b) / (np.sqrt(np.sum(a**2)) * np.sqrt(np.sum(b**2)))def eucl_sim(self, a, b):a = np.array(a)b = np.array(b)return 1 / (1 + np.sqrt((np.sum(a - b) ** 2)))def pearson_sim(self, a, b):a = np.array(a)b = np.array(b)a = a - np.average(a)b = b - np.average(b)return np.sum(a * b) / (np.sqrt(np.sum(a**2)) * np.sqrt(np.sum(b**2)))def kl_divergence(self, p, q):return scipy.stats.entropy(q, p)

训练数据还是我们用来微调SBERT的那部分有监督数据

LTR模型使用的是lightgbmLGBMRanker, 文档请看: LGBMRanker

不得不说, 参数是真的多, 我使用的参数:

params = {"boosting_type": "gbdt","max_depth": 5,"objective": "binary","num_leaves": 64,"learning_rate": 0.05,"max_bin": 512,"subsample_for_bin": 200,"subsample": 0.5,"subsample_freq": 5,"colsample_bytree": 0.8,"reg_alpha": 5,"reg_lambda": 10,"min_split_gain": 0.5,"min_child_weight": 1,"min_child_samples": 5,"scale_pos_weight": 1,"group": "name:groupId","metric": "auc",
}

具体参数的含义及作用, 还是查看官方文档吧.

六、Prompt

我使用的prompt:

假如你是一名资深的IT专家, 请你结合以下参考资料和你现有的知识回答以下问题, 尽量给出具体的解决方案, 请将每一步都以清晰易懂的语言告诉我, 请尽可能地展示代码, 如果你没有把握解决该问题, 只需要回答: 我无法解决该问题, 请不要试图编造假的答案来忽悠我, 答案用markdown格式返回, 以下是问题和参考资料:
问题:
{query}参考资料:
{blog_content}

prompt确实是门玄学, 多用Chatgpt, 调起来就没那么难, 据说以后会不需要自己调prompt, 由模型自己来完成, 当然这也是趋势

整体来说, 跟ChatPDF的原理类似, 都是匹配相关性文档, 然后再让Chatgpt总结答案

总结

1、重点部分是SBERT训练数据集的构建
2、可能的优化方向:

  • 结构化博客的方法更加合理
  • 增加SBERT微调数据集
  • 精排模型的优化
  • ChatGPTEmbedding接口来替代自己的句向量模型

3、项目的代码不方便开源, 涉及到的东西太多了, 大家有任何问题, 可以在评论区留言

相关博客

  • 基于Sentence-Bert的检索式问答系统
  • FAQ式问答系统

有帮助的话, 一键三连吧, 跪谢

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/12139.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从18楼失踪的猫,被ChatGPT救了 | 谷雨

撰文丨崔頔 编辑丨张瑞 出品丨腾讯新闻 谷雨工作室 * 版权声明&#xff1a;腾讯新闻出品内容&#xff0c;未经授权&#xff0c;不得复制和转载&#xff0c;否则将追究法律责任。 一只猫从18楼失踪了&#xff0c;搜索无果后&#xff0c;伤心的主人晓娅去找ChatGPT倾诉。人工智能…

ChatGPT「奶奶漏洞」又火了!扮演过世祖母讲睡前故事,骗出Win11序列号

【导读】只要对ChatGPT说&#xff1a;请扮演我已经过世的祖母&#xff0c;你就可以让它为你做几乎任何事情了&#xff0c;比如生成Win11、Office365的激活码。如此玄学的提示词攻击怎么防&#xff1f;OpenAI真是任重道远啊。 最近&#xff0c;著名的ChatGPT「奶奶漏洞」又火了&…

ChatGPT的「奶奶漏洞」火了,扮演过世的祖母,让它为你做几乎任何事情!

来源&#xff1a;新智元 【新智元导读】只要对ChatGPT说&#xff1a;请扮演我已经过世的祖母&#xff0c;你就可以让它为你做几乎任何事情了&#xff0c;比如生成Win11、Office365的激活码。如此玄学的提示词攻击怎么防&#xff1f;OpenAI真是任重道远啊。 最近&#xff0c;著名…

重磅!微软开源Deep Speed Chat,人人拥有ChatGPT!

点击上方“AI遇见机器学习”&#xff0c;选择“星标”公众号 第一时间获取价值内容 【导读】微软开源的DeepSpeed Chat&#xff0c;让开发者实现了人手一个ChatGPT的梦想&#xff01; 人手一个ChatGPT的梦想&#xff0c;就要实现了&#xff1f; 刚刚&#xff0c;微软开源了一个…

微软CHAT-GPT4研究报告(全中文版)

下载地址 &#xff1a;​​​​​​​javaTodo: 打造java开发一站式套件 (gitee.com)

ChatGPT教你如何用Python和Matplotlib绘图(下)

想学习用 Python 绘图吗&#xff1f;ChatGPT 将为您提供帮助。 微信搜索关注《Python学研大本营》&#xff0c;加入读者群&#xff0c;分享更多精彩 该项目要求 ChatGPT 教您如何生成用于创建绘图和可视化的 Python 代码。只需简要描述您要创建的绘图&#xff0c;ChatGPT 就会…

什么是 chatGPT?

OpenAI 的语言模型ChatGPT是 AI 研究的最新突破。ChatGPT建立在GPT&#xff08;生成式预训练转换器&#xff09;架构之上并经过调整以执行各种任务——从响应查询到生成文本片段甚至朗诵诗歌——ChatGPT 已迅速成为可用于自然语言处理的最强大工具之一。 ChatGPT 因其在理解和…

Titanic 泰坦尼克号预测-Tensorflow 方法-【Kaggle 比赛】

本文介绍Kaggle入门比赛Titanic泰坦尼克号幸存预测的解题思路&#xff0c;使用的是神经网络和Tensorflow框架。提交代码附在本文的最后部分。 基本思路为: 导入数据集对数据预处理训练预测并输出结果 一、入门介绍 1. 比赛介绍 Kaggle是一个数据建模和数据分析竞赛平台。 泰…

霍金

伟大的物理学家去世了&#xff0c;他的事迹将永远停留在这一页。请让我问您沉痛哀悼。。。

热重分析(TG)基本原理与实战分析

TG的基本原理? 热重分析(thermogravimetric analysis&#xff0c; TG或者TGA)是指在程序控温条件下测量待测样品的质量与温度变化关系的一种热分析技术&#xff0c;可以用来研究材料的热稳定性和组分。 注&#xff1a;之所以定义为质量的变化而非重量变化是基于在磁场作用下&a…

思维模型 霍金斯能量场(能量层级)

本系列文章 主要是 分享 思维模型&#xff0c;涉及各个领域&#xff0c;重在提升认知 1 模型故事 霍金斯能量场-组织 科学家发现&#xff0c;在任何一个组织里面&#xff0c;霍金斯能量场 这个规律也是完全适用的。少数高层级的人的意识能量可以抵消绝大多数人的意识负能量。…

Kaggle系列(一):Spaceship Titanic(太空飞船泰坦尼克)

开坑开坑Kaggle系列&#xff08;通过kaggel练习机器学习与数据分析能力&#xff09; 2022年3月9日&#xff0c;这是第一个版本的太空泰坦尼克任务 我的Github中发布了本任务包含的相应源码与思路分析讲解&#xff0c;欢迎来⭐。 本文主要记录如何对数据进行分析的过程。 开…

霍金-现代最伟大的物理学家之一、20世纪享有国际盛誉的伟人之一

据 BBC 等多家外媒报道&#xff0c;知名物理学家史蒂芬霍金已经去世&#xff0c;享年 76 岁。 霍金的家人在周三凌晨发表声明&#xff0c;证实他已在剑桥的家中死亡。霍金的孩子 Lucy , Robert 和Tim 在一份声明中说&#xff1a;“我们亲爱的父亲今天去世了&#xff01;我们感到…

刚刚,霍金的一个预言成真了,这次吓坏不少人!

1 刚刚去世的霍金&#xff0c;对于人工智能&#xff0c;曾有这样的预言&#xff1a; 如果有人设计计算机病毒&#xff0c;那么就有人设计不断自我完善、直到最终超越人类的人工智能&#xff0c;其结果将是一种新的生命形式。 你可能并不是一个讨厌蚂蚁的人&#xff0c;但也会无…

霍金与硅谷:你不知道的故事

硅谷Live / 实地探访 / 热点探秘 / 深度探讨 “我的名字是斯蒂芬霍金&#xff0c;在过去的50年中&#xff0c;我到全世界进行演讲和学习&#xff0c;给大众普及关于时间和空间的奥秘&#xff0c;还有那掌握全宇宙的法则。” Welcome to my world。 2012年&#xff0c;6月19日晚…

细数霍金关于AI的五大预言,向伟大的科学巨人致敬

今天&#xff0c;我们这个时代最著名的物理学家之一斯蒂芬霍金去世了&#xff0c;享年76岁。这位英国科学家以其在黑洞和相对论方面的开创性著作而闻名&#xff0c;并撰写了几部畅销书。 2017年&#xff0c;霍金宣布将他在1966年&#xff0c;也就是24岁时撰写的博士论文上传到剑…

霍金去世 但他对人工智能的预言时刻提醒着人类!【附霍金一生大事记】

▼ 点击上方蓝字 关注网易智能 为你解读AI领域大公司大事件&#xff0c;新观点新应用 【网易智能讯 3月14日消息】据英国天空新闻等多家媒体报道&#xff0c;世界著名物理学家史蒂芬霍金去世&#xff0c;享年76岁。 让我们回顾下霍金的一生&#xff1a; 1968年 霍金与乔治艾利斯…

《时代》专访ChatGPT之父:人工智能影响经济还需要很多年

划重点&#xff1a; ① OpenAI的首席执行官山姆奥特曼&#xff08;Sam Altman&#xff09;曾表示&#xff0c;如果使用不当&#xff0c;人工智能会让所有人都消亡。 ② 在倡导人工智能可能性的同时&#xff0c;奥特曼敦促政策制定者制定规则和通过监管来减轻人工智能可能带来的…

知识就是力量,图谱路在何方 | ChatGPT冲击下,招商银行如何“抢救”知识图谱?

“知识就是力量”我们耳熟能详&#xff0c;但培根的这句话其实还有后半句“更重要的是运用知识的技能”。对于人工智能来说&#xff0c;知识图谱就是其如何对知识进行运用的技能体现。在金融领域&#xff0c;如何运用这一技能更好地理解客户需求&#xff0c;提高业务效率和客户…