ChatGPT | Word文档如何更好地提取表格内容给ChatGPT

本文来自http://blog.csdn.net/hellogv/ ,引用必须注明出处!

Word文档如何更好地提取表格内容给ChatGPT做知识库,这属于文本预处理工作。

本文只讲思路、测试结果,技术实现用Python和Java都能完成,下一篇文章再贴源码。

预处理的思路:

  1. 源文件建议采用DOCX文档而非PDF文档,因为PDF文档会多出冗余的"\n\n"
  2. 把DOCX文件转为Markdown格式,删除表格内容,因为Markdown格式表格冗余
  3. 把DOCX表格转为CSV表格,另存为CSV格式的TXT文件,对于格式复杂表格,ChatGPT对CSV表格理解能力最强
  4. 把无表格的Markdown格式TXT文件 与 CSV表格的TXT文件一起embedding
  5. 由于切片会破坏表格内容(破坏列与行的数据关系),所以建议列表内容作为TXT在一个切片内

总结一下,DOCX转Markdown删表格 -> DOCX表格转CSV表格->MD格式TXT与CSV表格TXT->embedding->ChatGPT

原表格如下,signMsg部分格式复杂:

参数名称

参数含义

长度

可否为空

参数说明

mchntid

商户编号

15

不可空

统一分配给商户的商户编号,用以区分不同商户。

orderId

订单编号

16

不可空

商户提交给系统的交易订单编号。

每个商户提交的订单号,必须在自身账户交易中唯一。

reserved

商户保留域

60

可空

商户通过此字段向支付系统发送信息,其将依原样填充返回给商户。

signMsg

数字签名

32

不可空

以上所有参数及其值与密钥组合,经MD5 加密生成并转化为大写的32 位字符串。

对于所有值的参数及对应值,按照如上顺序和如下规则组成字符串,其中key为密钥:

参数1={参数1}&参数2={参数2}&……&参数n={参数n}&key={key}

然后进行32位算法的MD5 加密后,将结果转化为大写。

signMsg=MD5(参数1={参数1}&参数2={参数2}&……&参数n={参数n}&key={key})

childMchntid

子商户号

15

可空

支付系统统一分配给商户的子商户编号,不参与验签

对比Markdown表格与CSV表格的文本体积:

Markdown表格的文本体积超过4K,冗余浪费Token

商户向支付系统的支付接入地址(http)提交订单信息,提交页面中应该包括如下信息(注意各字段的大小写):

+-------------+-------------+-----+--------+-------------------------+
| *           | *           | *   | **可否 | **参数说明**            |
| *参数名称** | *参数含义** | *长 | 为空** |                         |
|             |             | 度  |        |                         |
|             |             | **  |        |                         |
+=============+=============+=====+========+=========================+
| mchntid     | 商户编号    | 15  | 不可空 | 统一分配给商户的商户编  |
|             |             |     |        | 号,用以区分不同商户。  |
+-------------+-------------+-----+--------+-------------------------+
| orderId     | 订单编号    | 16  | 不可空 | 商户提交                |
|             |             |     |        | 给系统的交易订单编号。  |
|             |             |     |        |                         |
|             |             |     |        | 每个                    |
|             |             |     |        | 商户提交的订单号,必须  |
|             |             |     |        | 在自身账户交易中唯一。  |
+-------------+-------------+-----+--------+-------------------------+
| bgUrl       | 后台        | 80  | 不可空 | 后台接收应答地          |
|             | 交易接收Url |     |        | 址,用于商户记录交易信  |
|             |             |     |        | 息和处理,对于使用者是  |
|             |             |     |        | 不可见的。需URLEncoder  |
|             |             |     |        | \"UTF-8\"处理           |
+-------------+-------------+-----+--------+-------------------------+
| productName | 商品名称    | 60  | 可空   | 需URLEncoder            |
|             |             |     |        | \"UTF-8\"处理           |
+-------------+-------------+-----+--------+-------------------------+
| productNum  | 商品数量    | 8   | 可空   |                         |
+-------------+-------------+-----+--------+-------------------------+
| productDesc | 商品描述    | 100 | 可空   | 需URLEncoder            |
|             |             |     |        | \"UTF-8\"处理           |
+-------------+-------------+-----+--------+-------------------------+
| reserved    | 商户保留域  | 60  | 可空   | 商户通过此字段向        |
|             |             |     |        | 支付系统发送信息,其将  |
|             |             |     |        | 依原样填充返回给商户。  |
+-------------+-------------+-----+--------+-------------------------+
| signMsg     | 数字签名    | 32  | 不可空 | 以上所有参数            |
|             |             |     |        | 及其值与密钥组合,经MD5 |
|             |             |     |        | 加                      |
|             |             |     |        | 密生成并转化为大写的32  |
|             |             |     |        | 位字符串。              |
+-------------+-------------+-----+--------+-------------------------+
|             | 对于        |     |        |                         |
|             | 所有值的参  |     |        |                         |
|             | 数及对应值  |     |        |                         |
|             | ,按照如上  |     |        |                         |
|             | 顺序和如下  |     |        |                         |
|             | 规则组成字  |     |        |                         |
|             | 符串,其中  |     |        |                         |
|             | key为密钥: |     |        |                         |
|             |             |     |        |                         |
|             | 参数1       |     |        |                         |
|             | ={参数1}&参 |     |        |                         |
|             | 数2={参数2  |     |        |                         |
|             | }&......&参 |     |        |                         |
|             | 数n={参数n  |     |        |                         |
|             | }&key={key} |     |        |                         |
|             |             |     |        |                         |
|             | 然后进行32  |     |        |                         |
|             | 位算法的MD5 |     |        |                         |
|             | 加密后      |     |        |                         |
|             | ,将结果转  |     |        |                         |
|             | 化为大写。  |     |        |                         |
|             |             |     |        |                         |
|             | signMs      |     |        |                         |
|             | g=MD5(参数1 |     |        |                         |
|             | ={参数1}&参 |     |        |                         |
|             | 数2={参数2  |     |        |                         |
|             | }&......&参 |     |        |                         |
|             | 数n={参数n} |     |        |                         |
|             | &key={key}) |     |        |                         |
+-------------+-------------+-----+--------+-------------------------+
| c           | 子商户号    | 15  | 可空   | 支付                    |
| hildMchntid |             |     |        | 系统统一分配给商户的子  |
|             |             |     |        | 商户编号,不参与验签。  |
+-------------+-------------+-----+--------+-------------------------+

CSV表格的文本体积精简

商户向支付系统的支付接入地址(http)提交订单信息,提交页面中应该包括如下信息(注意各字段的大小写):

参数名称,参数含义,长度,可否为空,参数说明
mchntid,商户编号,15,不可空,统一分配给商户的商户编号,用以区分不同商户。
orderId,订单编号,16,不可空,商户提交给系统的交易订单编号。
,,,,每个商户提交的订单号,必须在自身账户交易中唯一。
reserved,商户保留域,60,可空,商户通过此字段向支付系统发送信息,其将依原样填充返回给商户。
signMsg,数字签名,32,不可空,以上所有参数及其值与密钥组合,经MD5 加密生成并转化为大写的32 位字符串。
,对于所有值的参数及对应值,按照如上顺序和如下规则组成字符串,其中key为密钥:,,,
,参数1={参数1}&参数2={参数2}&……&参数n={参数n}&key={key},,,
,然后进行32位算法的MD5 加密后,将结果转化为大写。,,,
,signMsg=MD5(参数1={参数1}&参数2={参数2}&……&参数n={参数n}&key={key}),,,
childMchntid,子商户号,15,可空,支付系统统一分配给商户的子商户编号,不参与验签。
 

ChatGPT答复的结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/9611.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分享一个淘宝/天猫/京东/阿里 图片抓取工具

链接:https://pan.baidu.com/s/1lbTL8UNQr4o45Z30J_YGLA提取码:xr3z 复制这段内容后打开百度网盘手机App,操作更方便哦 转载于:https://www.cnblogs.com/ForStudyAlways/p/11212591.html

利用python爬取淘宝的商品图片

代码 from selenium import webdriver from selenium.webdriver.common import keys import time import requests import random# 创建浏览器 def functions():browser webdriver.Chrome(rG:\taobao\chromedriver.exe)# 让浏览器打开淘宝browser.get("https://www.taob…

JavaScript实现淘宝商品展示(鼠标放在小图片上,上面会出现相应的大图片)

最终效果&#xff1a; 代码部分&#xff1a; <!DOCTYPE html> <html><head><meta charset"utf-8" /><meta name"viewport" content"widthdevice-width, initial-scale1"><title>图片放大效果</title&…

html转化成图片,相当于生成海报,长按保存到手机

html <div class"tab-con" id"erweima"><div class"erweima-box"><div class"erweima"><div class"top"><span>扫码支付</span><span>排队免单</span></div><di…

淘宝图片服务器的学习

一、淘宝网的困境 对于淘宝网这样的大型电子商务网站&#xff0c;对于图片服务的要求特别的高。而且对于卖家来说&#xff0c;图片远胜于文字描述&#xff0c;因此卖家也格外看重图片的显示质量、访问速度等问题。根据淘宝网的流量分析&#xff0c;整个淘宝网流量中&#xff0c…

用ChatGPT/midjourney生成创意营销图片素材,产品图、虚拟主播、终端店铺图

营销素材对应的关键词库&#xff08;3个&#xff09;&#xff1a; 元素、风格、AI绘画工具midjourney 提问模板&#xff1a; 第一步&#xff0c;先预设场景&#xff0c;询问应该包含的关键词范围 假设你是一位世界一流水平的设计师&#xff0c;你想要使用AI绘画工具midjourn…

仿淘宝的详情页图片切换

鼠标放在小图片上&#xff0c;上面的大图会切换到相应的图片 html代码&#xff1a; css代码&#xff1a; js代码&#xff1a; 完整代码&#xff1a; <!DOCTYPE html><html lang"en"> <head> <meta charset"utf-8"> …

html css js肝撸淘宝官网代码(淘宝web端官网页面+部分js功能实现)

大家好&#xff0c;我是梅巴哥er。本篇是我写的一个练习&#xff0c;淘宝首页。用html, css, js写的。交互功能只写了一部分&#xff0c;仅供学习参考。如想下载源码&#xff0c;请移步https://github.com/guozi007a/taobao-homepage.git我传到github上了。在这个页面点Code选项…

ChatGPT对于普通人有什么机会和影响?

ChatGPT爆火“出圈”&#xff0c;短短三个月里&#xff0c;势如破竹。 月活已经达到1亿&#xff0c;什么概念呢&#xff1f;Tiktok在海外达到1亿月活用了将近9个月时间&#xff0c;Instagram用了大约2年半&#xff0c;就连比尔盖茨都表示“Web3没那么重要&#xff0c;元宇宙没…

ChatGPT爆火,真有那么神?

近来&#xff0c;人工智能聊天机器人ChatGPT实火。上线仅仅2个月&#xff0c;ChatGPT的活跃用户就突破一亿&#xff0c;曾创下无数增长奇迹的TikTok都望尘莫及。连比尔盖茨都没忍住承认&#xff1a;ChatGPT出现的意义&#xff0c;不亚于互联网和个人电脑的诞生。 ChatGPT真有那…

震惊!火爆全网的ChatGPT背后使用的数据库居然是……

摘要&#xff1a;ChatGPT承认了自己背后使用的数据库是Cassandra。 OpenAI最近发布的AI驱动的智能聊天机器人ChatGPT在互联网上掀起了一阵风暴&#xff0c;热衷于尝试这一新AI成果的网民不在少数。ChatGPT针对网友广泛的问题提供了非常有针对性的回答&#xff0c;其不可思议的能…

赛狐ERP率先引入ChatGPT 一键生成优质Listing

最近被火遍全球的ChatGPT刷屏了&#xff0c;作为以人工智能技术驱动的自然语言处理工具&#xff0c;它正在用一种新的方式改变着我们的工作和生活。为了更好地赋能卖家&#xff0c;赛狐ERP研发团队快速响应市场需求&#xff0c;率先引入了ChatGPT技术&#xff0c;基于亚马逊畅销…

谷歌推出PaLM-E,能超越ChatGPT么?

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 ChatGPT的横空出世&#xff0c;打的老牌科技巨头谷歌措手不及。在OpenAI微软的双重压力下&#xff0c;自赋“红码”的谷歌亮出“大招”。 近日&#xff0c;谷歌和柏林工业大学的团队重磅推出史上最大的视觉语言模型——PaLM…

“文心一言”和“ChatGPT”两者有何差距?

如果说现阶段火遍全球应用是什么&#xff0c;绝大多数人会脱口而出——ChatGPT。当然最近我们国内版也出来了&#xff0c;就是百度的“文心一言”&#xff0c;文心一言和ChatGPT都是当下以语言模型为核心的人工智能平台&#xff0c;这两者对比之下有何不一样呢&#xff1f;下面…

ChatGPT+Midjourney

一键部署属于你的ChatGPTMidjourney网页&#xff0c;目前已实现&#xff1a; 1.imagin 想象 2.upscale 放大 3.variation 变幻 4.describe 识图 5.blend 混图 6.垫图 开源地址&#xff1a;https://github.com/Licoy/ChatGPT-Midjourney 欢迎大家访问&#xff1a;http://…

ChatGPT 的议论文究竟写的怎么样?111 位高中教师告诉你答案

夕小瑶科技说 原创 作者 | 小戏、Python 在 OpenAI GPT-4 发布时发布的《GPT-4 Technical Report》中&#xff0c;其中很吸引人眼球的一部分是 GPT-4 应用于教育领域的出色表现&#xff0c;通过让 GPT-4 去完成美国的 AP 课程及考试&#xff0c;来评估 GPT-4 在多个学科中的性…

刚刚!ChatGPT演示即将上线王炸功能!不仅推出官方版AutoGPT,还能联网,支持处理Excel,发推购物一条龙!...

转载自量子位 OpenAI官方AutoGPT&#xff0c;要来了&#xff01; 就在AutoGPT项目破10万Star之际&#xff0c;OpenAI也放出重磅炸弹&#xff0c;由联合创始人格雷格布洛克曼&#xff08;Greg Brockman&#xff09;亲自现场演示了ChatGPT即将上线的新功能。 比如要一张这样有氛围…

【历史上的今天】7 月 10 日:iOS App Store 问世;台积电创始人出生;第一台被“越狱”的 iPhone

整理 | 王启隆 透过「历史上的今天」&#xff0c;从过去看未来&#xff0c;从现在亦可以改变未来。 今天是 2023 年 7 月 10 日&#xff0c;在 1856 年的今天&#xff0c;交流电的发明者尼古拉特斯拉&#xff08;Nikola Tesla&#xff09;出生。特斯拉被认为是电力商业化的重要…

沙龙|AI iPhone时刻来临!如何获得登上类ChatGPT的船票?

出品&#xff5c;网易科技数字星球 作者&#xff5c;袁宁 编辑&#xff5c;丁广胜 兴奋麻了&#xff01;还没从ChatGPT带来的震撼中回过神来&#xff0c;过去几天GPT-4、Microsoft 365 Copilot、Midjourney V5、Google PaLM API、文心一言相继引爆&#xff0c;互联网巨头纷纷抢…

来自 ChatGPT 的威胁?谷歌、百度纷纷入局,苹果被迫“开卷”

整理 | 朱珂欣 出品 | CSDN程序人生&#xff08;ID&#xff1a;coder_life&#xff09; 近年来&#xff0c;AIGC 应用可谓是多处开花&#xff0c;成为了科技巨头的“必争之地”。 随着 ChatGPT 在互联网上“高热不下”&#xff0c;除了拍案叫绝的聊天能力以及惊人的准确率备…