google patent爬取专利数据

网址:
g​​​​​​​whttps://patents.google.com/

通过F12找到请求头

https://patents.google.com/xhr/query?url=q=(google)&oq=google&exp=&tags=

# -*- coding: utf-8 -*-
import scrapy
import io
import sys
import requests
import xlrd
from xlwt import *
from openpyxl import Workbook as wb
import os
import re
import csv
import time
import random
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8')def read_company():fileName0 = 'sample.xlsx'bk=xlrd.open_workbook(fileName0)shxrange=range(bk.nsheets)try:sh=bk.sheet_by_name("Sheet1")except:print ("代码出错")# ncols=sh.ncols #获取列数# nrows=sh.nrows #获取列数book = Workbook(encoding='utf-8')# sheet = book.add_sheet('Sheet1') #创建一个sheetUPC = []tmp1 = sh.col_values(0)[1:]  #companytmp2 = sh.col_values(1)[1:]  #tic# tmp3 = sh.col_values(2)[1:]  #IRIreturn tmp1def start_requests():base_url = 'https://patents.google.com/xhr/query?'company = 'CANCERVAX CORP'patent_name = 'url=assignee=' + company + '&oq=' + company + '&exp=&download=true'param = {}suburl = base_url + patent_nameprint(suburl)file_name = 'test.csv'r = requests.get(suburl)fo = open(file_name,'wb')                         # 注意要用'wb',b表示二进制,不要用'w'fo.write(r.content)                               # r.content -> requests中的二进制响应内容:以字节的方式访问请求响应体,对于非文本请求fo.close()# start_requests()
read_company()
proxies = {"https": "https://127.0.0.1:1080", "http": "http://127.0.0.1:1080"}
base_url = 'https://patents.google.com/xhr/query?'
url_list = []
company_list = read_company()
headers = {'user_agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36',
'authority':'patents.google.com',
'method':'GET',
'scheme':'https',
'accept':'*/*',
'accept-encoding':'gzip, deflate, br',
'accept-language':'en,en-US;q=0.9,zh-CN;q=0.8,zh;q=0.7',
'cookie':'_ga=GA1.3.650546010.1557842690; 1P_JAR=2019-06-13-03; NID=185=HFLQWsc9gyTy7jWJiX-sZ242_kqMdEVUKf89m0r0R8jrCT1n2jN8cuSFmh6abb50bDB8u6qYhcF7KXWHgZy4TPj-zkheFl9g6kiLCqFrNEf6G_2hLhWzCfjwkz7EjLB8jrROilpayn5NIIKf0WLZsZCBemnNt88RdO4Tik_zYwg; _gid=GA1.3.814134454.1560407883; _gat=1'
}
user_agent_pool = ["Mozilla/5.0 (Macintosh; U; Mac OS X Mach-O; en-US; rv:2.0a) Gecko/20040614 Firefox/3.0.0 ",
"Mozilla/5.0 (Macintosh; U; PPC Mac OS X 10.5; en-US; rv:1.9.0.3) Gecko/2008092414 Firefox/3.0.3",
"Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.5; en-US; rv:1.9.1) Gecko/20090624 Firefox/3.5",
"Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; en-US; rv:1.9.2.14) Gecko/20110218 AlexaToolbar/alxf-2.0 Firefox/3.6.14",
"Mozilla/5.0 (Macintosh; U; PPC Mac OS X 10.5; en-US; rv:1.9.2.15) Gecko/20110303 Firefox/3.6.15",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1"]
ip_pool = ['114.230.69.170:9999','61.135.155.82:443']
print(company_list)
for company in company_list:# print(company)patent_name = 'url=assignee=' + company + '&oq=' + company + '&exp=&download=true'url = base_url + patent_namefilename = './company_patent/' + company + '.csv'# print(url)ip = ip_pool[random.randrange(0,2)]headers['user_agent'] = user_agent_pool[random.randrange(0,len(user_agent_pool))]proxy_ip = 'http://'+ipproxies = {'http':proxy_ip}r = requests.get(url,headers=headers,proxies=proxies)fo = open(filename,'wb')                         # 注意要用'wb',b表示二进制,不要用'w'fo.write(r.content)                               # r.content -> requests中的二进制响应内容:以字节的方式访问请求响应体,对于非文本请求# filename1 = './company_patent/' + company + '.csv'# with open(filename1) as f:#     csv_reader =csv.reader(f)# for line in csv_reader:#     print(line)fo.close() time.sleep(15)
  • 导入需要的库,如Scrapy、requests、xlrd等;
  • 通过read_company()函数读取excel表格中的公司名称;
  • 通过start_requests()函数发送GET请求获取特定公司的专利信息,并将响应内容写入csv文件中;
  • 最后循环遍历所有公司,调用requests库发送GET请求获取专利信息,再将响应内容写入csv文件中。

反爬措施:

(1)随机ip池
(2)随机user-agent池
(3)增加每次爬取的延时

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/18120.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【工具类】如何查找PCT专利的授权情况

如何查找PCT专利的授权情况 一、需要用到的网址二、常识补充2.1 PCT2.2 WO 三、技巧 一、需要用到的网址 这里我推荐几个比较常用和实用的 WIPO全球专利检索系统(Global Patent Search Network,GPSN):https://patentscope.wipo.…

小米责令泄密合作方赔偿一百万;Facebook母公司元宇宙部门亏损900亿;谷歌测试新AI聊天产品丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 IPO 展新股份IPO被终止 据深交所网站2月1日消息,根据《深圳证券交易所创业板股票发行上市审核规则》第六十七条的有关规定,深交所决定终止对太仓展新胶粘材料股份有限公司(以下简称“…

阿里版ChatGPT来了!100问火速测评

——你是谁? ——我是一个能够回答问题、创作文字,还能表达观点、撰写代码的超大规模语言模型。可以用于各种自然语言处理任务,如语言翻译、文本生成、问答系统等。 这是阿里云今天开启企业邀测的大语言模型“通义千问”对自己的定义&#xf…

《基于机器学习的雷达辐射源分选与识别技术研究》论文解读

《基于机器学习的雷达辐射源分选与识别技术研究》论文解读 Data:2023-2-04 Ref: 李雪琼, “基于机器学习的雷达辐射源分选与识别技术研究,” PhD Thesis, 国防科技大学, 2020. 文章目录 《基于机器学习的雷达辐射源分选与识别技术研究》论文解读背景重频(PRI) 基于已知信号的雷…

2023,本命年向阳而生

2023,本命年向阳而生 ——Maynor的2022复盘及2023目标 幸运且努力 先说结论:2022年是极不平凡的一年。 有很多重大事件发生,且与我们的生活息息相关。最令人高兴的是疫情的缓解,2023年也将有更多的机会。 我在这一年经历的事…

最新IT类offer档次排名

上一篇:阿里巴巴裁员19576人! 首先给大家看一份网上流传的《IT类offer档次排名》 第一档:股份制银行总行,证券公司,基金公司IT部门(民生,中信,兴业,浦发,南方…

Python网络爬虫:爬取腾讯招聘网职位信息 并做成简单可视化图表

hello,大家好,我是wangzirui32,今天我们来学习如何爬取腾讯招聘网职位信息,并做成简单可视化图表,开始学习吧! 文章目录 1. 网页分析2. 获取json数据3. 转换为Excel4. 招聘城市信息可视化 1. 网页分析 首…

深度解读智能时代下,微软如何开启数字化转型新纪元?

作者 | 伍杏玲 出品 | CSDN 今年以来,微软频频放大招,以 Microsoft Build 大会为例,接连重磅更新引发 IT圈热议。微软正在创造未来,将最前沿的智能技术贯穿各业务线,有效提高生产研发效率、办公协同效率,助…

独立开发变现周刊(第96期):一个课程学习网站,月收入2.6万美元

分享独立开发、产品变现相关内容,每周五发布。 目录 1、TTime: 一款开源简洁截图、划词翻译软件2、Memberstack: 轻松在你的网站上集成会员服务3、web-check: 一站式全面了解分析网站4、ShortGPT: 一款开源强大的视频创建框架5、一个后端课程学习网站,月…

微软收购暴雪计划遭拒/ Edge被曝泄露浏览记录/ 微信小程序可用数字人民币...今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大家好,今天是4月27日星期四,是这个月倒数第二天上班了~ 在假期可以翘首以待的日子里,还是来和日报君看看今天的科技圈资讯吧~ 微信支持数字人民币 昨日,微信官方在其公众号“微信派”中…

GPT-4被要求禁止商业化/ 百度打假冒牌文心一言/ Meta仍坚信元宇宙是未来…今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大噶好,今天是3月31日星期五,一周又过去啦~ 最近科技圈都有哪些新鲜事,一起来康康吧。 百度:应用商店中含“文心一言”的APP均为仿冒 假冒文心一言的APP开始在苹果、安卓应用…

只需一段话,「一键生成」短视频的工具来了

巨头们还不敢放出这种非常早期的试验性应用,但创业公司敢。 作者 | 宛辰编辑 | 靖宇 抖音和快手火了之后,短视频成为人们「杀时间」最高效的工具。但直到微信视频号推出后,人们才认真思考,短视频可能不仅是网红和「土味」大片的舞…

这两年大家都在吃瘪,结果微软他闷声发大财了?!

ChatGPT 轰轰烈烈的来了,留下风波不断。 美版 “ 今日头条 ” BuzzFeed 宣布用 ChatGPT 生成文章,不知道哪天会抢了我的饭碗。 美国前两天一个调查显示,现在美国学生有 80% 都用过 ChatGPT 替自己写作业。。。 谷歌和百度赶紧推出类似的产品…

ChatGPT,又爆了...

这马斯克,Bengio等千位AI科技人士签署暂停巨型 AI 实验公开信,在这封信里马斯克等人呼吁所有人工智能实验室立即暂停训练比 GPT-4 更强大的人工智能系统(包括目前正在训练的 GPT-5)至少 6 个月,同时利用这段时间共同开…

ChatGPT,GPT-4会让大家失业么? OpenAI自己的报告来了。

本文主要基于OpenAI前一段时间发布的报告:GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models https://arxiv.org/abs/2303.10130 ChatGPT及后续的GPT-4一个比一个牛,作为一个程序员,在测试Chat…

为什么计算机无法访问u盘,U盘插入电脑提示无法访问?别怕,我找到解决办法了...

原标题:U盘插入电脑提示无法访问?别怕,我找到解决办法了 U盘是一种使用USB接口来连接电脑的储存工具,使用方法快捷有效,携带也很方便。但是最近有一位小伙伴反馈说U盘插入电脑后发现无法访问U盘,这是怎么回…

Android Study 之聊聊权限那点事儿~别怕,就是干~!!!

LZ-Says: 江湖上流传着这样一首诗: 床前明月光,我会写代码;千山鸟飞绝,我会写代码; 松下问童子,我会写代码;春眠不觉晓,我会写代码; 白日依山尽&#xff0c…

线上出bug了?别怕,这么定位!

小编推荐: Fundebug提供JS、微信小程序、微信小游戏,Node.js和Java错误监控。真的是一个很好用的错误监控服务,众多大佬公司都在使用。 摘要: Source Map还是很神奇的。 原文:线上出bug了?别怕&#xff0…

手机进水开机android,手机进水?别怕,一个软件就能自救!

原标题:手机进水?别怕,一个软件就能自救! 号称防水的手机,越来越多了。但无论哪种级别,都不可能绝对保证手机的安全。 毕竟,有句话怎么说来着:「防水贱不防手贱」。 当你在泳池旁边玩…

别怕,卷积其实很简单

原文地址:https://blog.csdn.net/qq_39521554/article/details/79083864 相信很多时候,当我们在看到“卷积”时,总是处于一脸懵逼的状态,不但因为它的本义概念比较难理解,还因为它在不同的应用中发挥出的变幻莫测的作…