LP（六十九）智能文档助手升级

本文在笔者之前研发的大模型智能文档问答项目中，开发更进一步，支持多种类型文档和URL链接，支持多种大模型接入，且使用更方便、高效。

项目介绍

在文章NLP（六十一）使用Baichuan-13B-Chat模型构建智能文档中，笔者详细介绍了如何使用Baichuan-13B-Chat模型来构建智能文档问答助手。

一般，使用大模型来实现文档问答功能的流程图如下：

LangChain文档问答流程

本次，笔者在之前的项目中更进一步，支持的功能如下：

支持多种格式文档（包括txt, pdf, docx）和URL链接
问答可视化页面
问答可追溯，加入高亮显示
单/多模型调用
模型效果对比

说明如下：

支持的文档格式由LangChain提供，URL链接的解析由LangChain中的 selenium 和 unstructured，可支持JavaScript渲染的页面。但网页解析（或者说爬虫）是一项复杂而艰巨的任务，不可能在本项目中实现所有的网页解析。
可视化问答页面由Gradio模块实现
支持单模型或多模型调用，并且可以提供问答溯源。同时，还支持不同模型回答结果的比对，该想法来源于OpenCompass .

在工程开发上，加入的特性（features）如下：

丰富使用文档
加入配置文件
增加日志调用
ES分词器支持用户词典
Milvus支持初步筛选的阈值配置

本项目已开源至Github，代码实现可参考document_qa_with_llm，这里不再讲解代码细节。

支持文档格式

本项目原先只支持txt格式，现在已支持多种格式文档（包括txt, pdf, docx）和URL链接，这得益于LangChain框架中的文档加载模块，使得各种格式的文档加载变得更加统一、简洁、高效。

本项目中的文件解析脚本如下：

# -*- coding: utf-8 -*-
from langchain.document_loaders import TextLoader, PyPDFLoader, Docx2txtLoader, SeleniumURLLoaderfrom utils.logger import loggerclass FileParser(object):def __init__(self, file_path):self.file_path = file_pathdef txt_loader(self):documents = TextLoader(self.file_path, encoding='utf-8').load()return documentsdef pdf_loader(self):loader = PyPDFLoader(self.file_path)documents = loader.load_and_split()return documentsdef docx_loader(self):loader = Docx2txtLoader(self.file_path)documents = loader.load()return documentsdef url_loader(self):loader = SeleniumURLLoader(urls=[self.file_path])documents = loader.load()return documentsdef parse(self):logger.info(f'parse file: {self.file_path}')if self.file_path.endswith(".txt"):return self.txt_loader()elif self.file_path.endswith(".pdf"):return self.pdf_loader()elif self.file_path.endswith(".docx"):return self.docx_loader()elif "http" in self.file_path:return self.url_loader()else:logger.error("unsupported document type!")return []if __name__ == '__main__':txt_file_path = "/Users/admin/PycharmProjects/document_qa_with_llm/files/gdp.txt"content = FileParser(txt_file_path).parse()print(content)pdf_file_path = "/Users/admin/PycharmProjects/document_qa_with_llm/files/oppo_n3_flip.pdf"content = FileParser(pdf_file_path).parse()print(content)docx_file_path = "/Users/admin/PycharmProjects/document_qa_with_llm/files/haicaihua.docx"content = FileParser(docx_file_path).parse()print(content)url = "https://gaokao.xdf.cn/202303/12967078.html"url = "https://www.hntv.tv/50rd/article/1/1700396378818207745?v=1.0"content = FileParser(url).parse()print(content)