ChatGPT | Word表格整体输出

 本文来自欧巴Godwin的博客 ,引用必须注明出处!

用LangChain读取Word和PDF的文字内容是好的,但如果内容包含表格则读取出来的内容完全没法看。用ChatGPT往往是做企业知识库,所以会出现一个场景,即员工想让ChatGPT讲解包含表格的内容。

要达到效果,本文的做法是:

1、用pandoc把Doc文档转为MarkDown而且是GitHub模式,是重点,因为MarkDown可以作为文本被embedding并且输出内容包含原汁原味的表格<Table>标签

2、用"\n## "作为MarkDown文件的切割符,用TXTLoader读取MD文件并embedding

3、这里只用embedding而不用ChatGPT,本文只做整体表格输出,不做表格格单元具体分析

直接贴出Doc表格和embedding输出的MarkDown表格对比:

1、先贴出pandoc的命令,用pandoc把Doc转为MD文件:

pandoc -s test.docx -t gfm -o test.md

2、贴出Python源码:

import os
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import Chromafrom langchain.document_loaders.pdf import PDFMinerLoader
from langchain.document_loaders import TextLoader
from langchain.document_loaders import UnstructuredMarkdownLoader# 1、把MD文件当做TXT加载
loader = TextLoader(".\\单文件\\test.md","UTF-8")
pages = loader.load_and_split()# 2、拆分文件
text_splitter = CharacterTextSplitter(separator = "\n## ",chunk_size = 500, #chunk_size = 1000,chunk_overlap = 0
)# 切割加载的 document
split_docs = text_splitter.split_documents(pages)
print(f'documents:{len(split_docs)}')
#print("拆分后的文档:" + str(split_docs))# 3、将文件embedding
os.environ["OPENAI_API_TYPE"] = "azure"
os.environ["OPENAI_API_KEY"] = "xxxxxxxxxxxx"
os.environ["OPENAI_API_BASE"] = "https://yyyyyyyyyyy.openai.azure.com/"
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002", deployment="lk-text-embedding-ada-002", chunk_size=1)print("开始embedding")# 4、将拆分后的文本embeddings后存储到Vector数据库
vectordb = Chroma.from_documents(split_docs, embedding=embeddings, persist_directory="./")
vectordb.persist()result_list=vectordb.search("岗位设置是什么",'similarity')
print(result_list[0])

3、运行代码终端输出的内容,把内容贴到txt文件另保存为.md,再上传到有道云笔记这类支持MD格式的软件即可看到上图MD格式内容:

page_content='岗位设置\n\n根据项目研发过程主要分为需求整理、项目研发、生产发布三个阶段。明确工作职责,逐步实现产品经理、项目经理、软件工程师师、测试工程师、运维工程师的岗位设置。\n\n<table>\n<colgroup>\n<col style="width: 16%" />\n<col style="width: 56%" />\n<col style="width: 27%" />\n</colgroup>\n<thead>\n<tr class="header">\n<th><strong>岗位</strong></th>\n<th><strong>工作内容</strong></th>\n<th><strong>责任</strong></th>\n</tr>\n</thead>\n<tbody>\n<tr class="odd">\n<td>产品经理</td>\n<td><p>1、负责分析需求、整理需求,编写需求文档。</p>\n<p>2、绘制界面原型demo等,设计功能使用的具体描述、行为者、前置条件、后置条件、UI描述、业务流程/子流程/分支流程,界面
说明等,完成大部分的前端设计,小部分的后端设计。</p>\n<p>3、对项目组成员详细讲解需求。</p>\n<p>4、项目过程中维护和跟踪需求状态。</p></td>\n<td><p>1、对产品需求的真实
度负责。</p>\n<p>2、对产品整体风格负责。</p>\n<p>3、对项目整体设计流程负责。</p>\n<p>4、对需求的生命周期负责。</p></td>\n</tr>\n<tr class="even">\n<td>项目经理</td>\n<td><p>1、选定项目组成员,成立项目组,安排任务分工。</p>\n<p>2、制定研发主计划,包括需求,设计,编码,测试这几个阶段的计划。</p>\n<p>3、评估项目研发投入的资源。</p>\n<p>4、制定项目组开发进度表, 对组内人员工作进度监控。</p>\n<p>5、对文档的质量进行检查、把关。</p>\n<p>6、组织需求评审、技术评审等会议。</p></td>\n<td><p>1、对项目资源
有效使用负责。</p>\n<p>2、对各岗位沟通协调工作负责。</p>\n<p>3、对项目的进度负责。</p>\n<p>4、对系统总体设计、详细设计文档质量负责。</p>\n<p>5、对项目组会议质量负责。</p></td>\n</tr>\n<tr class="odd">\n<td>软件工程师</td>\n<td><p>1、负责把产品需求分解为研发任务。</p>\n<p>2、负责系统的模块设计。</p>\n<p>3、负责模块的代码编写、维护
。</p>\n<p>4、负责技术文档的编写、维护。</p>\n<p>5、负责与测试工程师的交互,处理测试工程师的问题。</p>\n<p>6、对项目组成员进行技术指导。</p></td>\n<td><p>1、对研发任
务的有效性负责。</p>\n<p>2、对模块设计的有效性负责。</p>\n<p>3、对模块的开发效率和代码质量负责。</p>\n<p>4、对技术文档的完整性、实时性、可读性负责。</p></td>\n</tr>\n<tr class="even">\n<td>测试工程师</td>\n<td><p>1、根据需求分析和系统总体设计,编写测试文档和测试用例。</p>\n<p>2、对系统的功能、性能、异常进行测试。</p>\n<p>3、编写测试报告。</p>\n<p>4、组织SIT、UAT等各类测试活动。</p></td>\n<td><p>1、对测试的质量负责。</p>\n<p>2、对测试报告负责。</p>\n<p>3、对各类测试活动的质量负责。</p></td>\n</tr>\n<tr class="odd">\n<td>运维工程师</td>\n<td><p>1、保障线上环境的正常运行,处理线上的各种问题;</p>\n<p>2、监控线上系统,分析和预防线上系统出现问题;</p>\n<p>3、构建自动化运维平台,提高运维效率;</p>\n<p>4、规范运维流程,定期提交汇总报告;</p>\n<p>5、\n周期做数据备份,测试数据备份的正确性和完整性,以增强服务器的安全性。</p></td>\n<td><p>1、对线上环境的稳定性负责。</p>\n<p>2、对服务器的安全性负责。</p>\n<p>3、对数据备份的正确性和完整性负责。</p></td>\n</tr>\n</tbody>\n</table>' metadata={'source': '.\\单文件\\test.md'}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/4393.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

postman发送post请求一直不成功

我的post请求方式 postman结果返回415 后台springboot拦截到的路径&#xff0c;此时发现url中存在error 解决方案&#xff1a; 第一步&#xff1a;添加头部 第二步&#xff1a;使用原生的json格式&#xff0c;点击send 返回的正确结果

Postman模拟大量请求

一、Postman Postman 是一个款 HTTP 请求模拟工具 二、请求演示 首先演示一下 Postman 最基本的使用&#xff0c;创建一个 Spring Boot 项目&#xff0c;测试的代码如下&#xff1a; import org.springframework.web.bind.annotation.GetMapping; import org.springframew…

(ChatGPT)429 You are being rate limited

我们在注册或者登录chatGPT时&#xff0c;网页时常会出现ChatGPT 429 You are being rate limited。当您尝试在短时间内向 ChatGPT API 发送过多请求时&#xff0c;通常会出现此错误消息。简单来说&#xff0c;系统无法处理您的请求。 本文提供一些解决方案&#xff0c;供参考…

微软杀疯了!全家桶嵌入ChatGPT,云平台Azure强到发指

【导读】微软又双叒出大招了&#xff01;ChatGPT即将整合进Azure&#xff0c;谷歌一个月惨遭Triple Kill 2023刚开年&#xff0c;微软就杀疯了&#xff01; 搜索引擎必应、办公全家桶Office、云计算平台Azure&#xff0c;相继加入当今最火爆AI语言模型——ChatGPT。 吓得谷…

刺激!微软或将ChatGPT加入Word、PPT和Excel全家桶!

点击下方卡片&#xff0c;关注“CVer”公众号 AI/CV重磅干货&#xff0c;第一时间送达 点击进入—>CV微信技术交流群 转载自&#xff1a;新智元 | 编辑&#xff1a;编辑部 【导读】微软又憋大招了&#xff0c;ChatGPT或将整合进Office&#xff0c;谷歌一周内破防两次&#x…

王炸!微软发布Visual ChatGPT:视觉模型加持ChatGPT实现丝滑聊天

近来&#xff0c;AI领域迎来各个领域的大突破&#xff0c;ChatGPT展现出强大的语言问答能力和推理能力&#xff0c;然而作为一个自然语言模型&#xff0c;它无法处理视觉信息。 与此同时&#xff0c;视觉基础模型如Visual Transformer或者Stable Diffusion等&#xff0c;则展现…

微软下个十年的想象力,藏在ChatGPT里

解释最新科技进展&#xff0c;报道硅谷大事小情 点击上方“硅星人”关注我们~ 押注AI再放大招&#xff0c;微软要把ChatGPT嵌入旗下全家桶。 —— 文&#xff5c;Juny 编辑&#xff5c;VickyXiao 老生常谈的人工智能技术&#xff0c;去年终于在应用领域迎来了一次久违的爆发。…

微软支持的ChatGPT激增,但不要低估苹果和谷歌

微软和 OpenAI 可能在 AI 聊天机器人爆炸式增长的市场中具有先发优势&#xff0c;但不要排除其他一些可以访问大量 AI 训练数据的科技巨头&#xff0c;例如 Apple 和 Google。 通过其对 ChatGPT 开发商 OpenAI 的早期和持续支持&#xff0c;微软在AI 军备竞赛中目前处于领先地…

ChatGPT火了!微软砍掉元宇宙

来源&#xff1a;数据观综合 编辑&#xff1a;蒲蒲 ChatGPT从2022年底火到现在&#xff0c;在全球范围内掀起热潮&#xff0c;风头甚至盖过了元宇宙。 近日&#xff0c;投资咨询机构瑞银发布的一项最新研究报告显示&#xff0c;仅仅发布两个月&#xff0c;ChatGPT月活跃用户已达…

两款语音合成助手,微软语音合成

一点红语音合成 By&#xff1a;zbb2012 语音合成算是吾爱中热度比较高的一类工具了 之前推荐过一款微软语音合成助手&#xff0c;不过由于长时间不更新现在也不怎么好用了 这款工具调用的Edge语音合成接口&#xff0c;效果跟声音类型都跟微软的差不多 比较棒的是没有字数限制…

OpenPie 和 ChatGPT 聊聊云上数据计算的那些事儿

要说时下科技圈最火的新技术话题&#xff0c;那就非 ChatGPT 莫属了。由它引发的各类 “人工智能&#xff08;AI&#xff09;能否取代人工” 的讨论狂飙不停&#xff0c;抛开法律和道德层面的争议&#xff0c;ChatGPT 确实可以准确地回答用户大部分的通用知识问题。那么大家是否…

爆火的ChatGPT太强了!写代码、改bug,网友:可取代Stack Overflow了

点击上方“Java基基”&#xff0c;选择“设为星标” 做积极的人&#xff0c;而不是积极废人&#xff01; 每天 14:00 更新文章&#xff0c;每天掉亿点点头发... 源码精品专栏 原创 | Java 2021 超神之路&#xff0c;很肝~中文详细注释的开源项目RPC 框架 Dubbo 源码解析网络应…

基于C# .NetCore WebApi 接入ChatGPT 方法

1.新建一个.NetCore WebApi项目,演示是基于.Net Core 6 2.添加Nuget引用 OpenAi 3.新建一个控制器 ChatGPTController using Microsoft.AspNetCore.Mvc; using OpenAI_API; using OpenAI_API.Completions;namespace ChatGPTApi.Controllers {public class ChatGPTController : …

chatgpt怎么用

前言&#xff1a; 随着人工智能的不断发展&#xff0c;聊天型语言模型成为了人机交互领域的重要技术。其中&#xff0c;由OpenAI开发的ChatGPT以其出色的性能和广泛的应用领域引起了广泛关注。本文将介绍ChatGPT的概况、用途、使用方法以及其优势与限制&#xff0c;并展望了其…

ChatGPT Plus解放程序员双手?

近年来&#xff0c;随着人工智能技术的迅猛发展&#xff0c;各种智能工具和软件开始在各个行业中得到广泛应用&#xff0c;其中包括程序员使用的一些智能开发工具。ChatGPT Plus就是这样一款智能开发工具&#xff0c;它使用自然语言处理和机器学习等技术&#xff0c;可以为程序…

ChatGPT + MindShow 制作PPT

&#x1f34f;&#x1f350;&#x1f34a;&#x1f351;&#x1f352;&#x1f353;&#x1fad0;&#x1f951;&#x1f34b;&#x1f349;&#x1f95d; ChatGPT MindShow 制作PPT 文章目录 &#x1f350;具体操作&#x1f433;结语 &#x1f350;具体操作 ChatGP…

外媒报道,ChatGPT的漏洞可能暴露用户的个人信息

据国外媒体报道&#xff0c;2023年3月20日&#xff0c;OpenAI的ChatGPT出现全球性故障&#xff0c;引发了用户的担忧。然而&#xff0c;在发现服务中存在严重漏洞后&#xff0c;OpenAI主动披露有关漏洞的详细信息。 据分享的详情称&#xff0c;在注意到可能会侵犯用户隐私的漏…

直接攻击,越狱攻击,道德攻击……这样做,ChatGPT 就会泄漏你的隐私

夕小瑶科技说 原创作者 | 小戏 大模型的出现让我们的隐私比以往任何时候都危险。 一个很直观的例子&#xff0c;在大模型向黑洞一样不断吞噬现有网络中的文本数据之时&#xff0c;伴随着模型训练的文本数量从 GPT-2 的 40GB 文本到 GPT-3 的 45TB 文本&#xff0c;我们可以非常…

技术分享|终端安全防护|ChatGPT会创造出超级恶意软件吗?

ChatGPT是一个强大的人工智能聊天机器人&#xff0c;它使用大量的数据收集和自然语言处理与用户“交谈”&#xff0c;感觉像是和正常的人类对话。它的易用性和相对较高的准确性让用户可以利用它做任何事情&#xff0c;从解决复杂的数学问题&#xff0c;到写论文&#xff0c;创建…