【网络爬虫 | Python】数字货币ok链上bitcoin大额交易实时爬取,存入 mysql 数据库

文章目录

  • 一、网站分析
  • 二、js 逆向获取 X-Apikey
  • 三、python 调用 js 获取 X-Apikey
  • 四、python 爬虫部分
  • 五、mysql 数据库、日志、配置文件、目录结构
  • 六、结尾


一、网站分析

oklink:https://www.oklink.com/
btc 大额交易:https://www.oklink.com/btc/tx-list/large

在这里插入图片描述
Txn hash,交易哈希。链上的交易都会有一个交易哈希值
block,区块。链上交易都会被矿工打包到区块上,成功打包的区块会被添加到区块链上
input amount,交易数额
Txn fee,就是gas 费,矿工打包肯定不能白干活,这些钱是给矿工的

交易数据是动态加载的,这些数据要么智能合约直接从链上抓取,要么抓包 requests 从网站上拿。今天的主题不是合约,废话不多说开始爬

在这里插入图片描述
抓包,随便一个交易哈希值,直接定位到了惟一的一个数据包,一眼丁真,交易数据都是从这儿加载的

看一下数据包头部

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

这个网站还是很好爬的,通过数据包头部我们可以知道:

  1. 这是一个get请求
  2. 请求携带参数,t 是时间戳,limit一页显示的数量,sort,curType 排序方式

我们直接请求url,不带任何 request body 试试

在这里插入图片描述

响应 API_KEY_NOT_FIND。显然,请求缺乏 api key 这个参数
再回到数据包中,发现请求头里面有一个参数叫 X-Apikey
带上这个参数,发现请求成功了

但是过一会再请求,发现响应:

在这里插入图片描述

不懂英文没关系,看到有个单词叫 expired
某个东西过期了。
我们请求的东西,跟时间有关的有两个

  1. get 请求的 params 的时间戳
  2. X-Apikey

肯定就是 X-Apikey 过期了
好,下一步,js 逆向,构造 X-Apikey


二、js 逆向获取 X-Apikey

抓包,搜索一下 X-Apikey

在这里插入图片描述

一眼就能看出来,x-apikey 这个参数是在 index.exxxx.js 里面构造的。没错,这个网站逆向就是这么顺利

在这里插入图片描述
右键,在来源面板中打开
在这里插入图片描述
ctrl+f 查找 X-Apikey
在这里插入图片描述
发现只有一个搜索结果

var n = new XMLHttpRequest;
n.open("get", e, !0),
n.setRequestHeader("x-apiKey", p.Z.getApiKey()),

显然,在这块代码,构造了一个 XMLHttpRequest请求
在请求头添加了 x-apiKey 参数
那么,这个参数就是从 p.Z.getApiKey() 获取的
我们抓包页面查找 getApiKey 这个函数,注意不要在当前js代码查找

在这里插入图片描述
对比一下,应该可以确定,这个函数是在第二、三个js代码里面被定义的
打开那段代码
在这里插入图片描述

key: "getApiKey",
value: function() {var e = (new Date).getTime(), t = this.encryptApiKey();return e = this.encryptTime(e),this.comb(t, e)
}

学过 js 的应该知道,这段代码定义了object中的 getApiKey 这个方法,下面是方法体

这段代码很明显了

首先获取当前时间的时间戳
然后把 ApiKey 加密一下
把时间加密一下
最后调用 comb 函数,返回最终结果

现在,要用上面的方法,查找这段代码里面出现的自定义函数,以及里面定义的函数,ctrl+f 查找

encryptApiKey:
在这里插入图片描述
encryptTime
在这里插入图片描述
comb
在这里插入图片描述

嗯,是这三个,但是还不止这三个
encryptApiKey 有一个参数,this.API_KEY
encryptTime 有一个 l 参数
查找一下

在这里插入图片描述

嗯,就在这儿了
注意哈,等会我们改写 js 代码的时候,一定要把这两个参数设置成请求获取的,不能保证这两个参数永远站方不会变,但是调试的时候可以

综合一下上面的 js 代码

key: "getApiKey",
value: function() {var e = (new Date).getTime(), t = this.encryptApiKey();return e = this.encryptTime(e),this.comb(t, e)
}key: "encryptApiKey",
value: function() {var e = this.API_KEY, t = e.split(""), r = t.splice(0, 8);return e = t.concat(r).join("")
}key: "encryptTime",
value: function(e) {var t = (1 * e + l).toString().split(""), r = parseInt(10 * Math.random(), 10), n = parseInt(10 * Math.random(), 10), i = parseInt(10 * Math.random(), 10);return t.concat([r, n, i]).join("")
}key: "comb",
value: function(e, t) {var r = "".concat(e, "|").concat(t);return window.btoa(r)
}

把它改写一下

API_KEY = "a2c903cc-b31e-4547-9299-b6d07b7631ab";
l = 1111111111111;function encryptApiKey(API_KEY) {var e = API_KEY, t = e.split(""), r = t.splice(0, 8);return t.concat(r).join("");
}function encryptTime(e, l) {var t = (1 * e + l).toString().split(""), r = parseInt(10 * Math.random(), 10), n = parseInt(10 * Math.random(), 10), i = parseInt(10 * Math.random(), 10);return t.concat([r, n, i]).join("")
}function comb(e, t) {var r = "".concat(e, "|").concat(t);return btoa(r);
}function getApiKey(API_KEY, l) {var e = (new Date).getTime(), t = encryptApiKey(API_KEY);e = encryptTime(e, l);return comb(t, e);
}a = getApiKey(API_KEY, l);
console.log(a);

用 node.js 运行一下

在这里插入图片描述
运行成功了

但是,我们等会用 python 执行的话,comb 下的 btoa 这个函数是运行不了的,因为它属于 window.btoa,属于 bom 而不是 ecmascript

所以我们等会只能先把 r 返回,再通过 python 实现 btoa


三、python 调用 js 获取 X-Apikey

在 python 中,有很多库可以调用 js,本文选择 js2py。你用哪个都行

首先创建一个 js 运行环境
把上面写的那段 js 代码读进来
请求获取刚刚我们说的 api_key 这个变量,通过正则表达式提取 api_key
python 调用 js 的 getApiKey 方法,获取未 btoa 过的数据
python 实现 btoa ,获取 X-Apikey

context = js2py.EvalJs()
with open("config\\X-Apikey.js", "r") as f:js = f.read()
context.execute(js)
# 获取 API_KEY
r = requests.get(url="https://static.oklink.com/cdn/assets/okfe/oklink-nav/vender/index.681aa2a6.js").text
API_KEY = re.findall('this.API_KEY.*?=.*?"(.*?)"', r)[0]
l = 1111111111111
# 调用 js 
api_key = context.getApiKey(API_KEY, l)
return base64.b64encode(api_key.encode("utf-8")).decode("utf-8")	# btoa

至此,X-Apikey 解决了,那所有问题都解决了,无非就是构造一下请求,存一下 mysql

四、python 爬虫部分

import re
import yaml
import time
import json
import base64
import js2py
import requests
import datetime
from requests.models import Response
from db import Database
from logger import Loggerclass Spider:LAST_HASH = ""def __init__(self) -> None:self.X_ApiKey = Falseself.readConfig()self.init(host=self.config.get('host'),port=self.config.get('port'),user=self.config.get('user'),password=self.config.get('password'))def init(self, host, port, user, password) -> None:self.logger = Logger()self.databse = Database(host=host,port=port,user=user,password=password,logger=self.logger)def readConfig(self) -> None:with open("config\\config.yaml", "r") as f:self.config = yaml.safe_load(f.read())keys = ['refresh', 'host', 'port', 'user', 'password']for k in keys:if self.config.get(k) is None:raise Exception("missing config key: ", k)self.__init_X_ApiKey()def __init_X_ApiKey(self) -> None:if not self.X_ApiKey:self.X_ApiKey = self.__getApiKey()def __getApiKey(self) -> str:context = js2py.EvalJs()with open("config\\X-Apikey.js", "r") as f:js = f.read()context.execute(js)# get API_KEY and lr = requests.get(url="https://static.oklink.com/cdn/assets/okfe/oklink-nav/vender/index.681aa2a6.js").textAPI_KEY = re.findall('this.API_KEY.*?=.*?"(.*?)"', r)[0]l = 1111111111111api_key = context.getApiKey(API_KEY, l)return base64.b64encode(api_key.encode("utf-8")).decode("utf-8")def request(self) -> list:r = requests.get(url='https://www.oklink.com/api/explorer/v1/btc/transactionsNoRestrict?offset=0&txType=&limit=20&sort=realTransferValue,desc&curType=large&t='+str(int(time.time())),headers={"X-Apikey": self.X_ApiKey})parse = r.json()status = Trueif parse.get("code") != 0 or    \parse.get("msg") != "" or   \parse.get("data") is None:status = Falsereturn (status, r)def dataClean(self, res: Response) -> list:data: list = res.json()['data']['hits']result = []for each in data:item = [each['hash'], each['blockHeight'], each['blocktime'], each['inputsCount'], each['outputsCount'], each['inputsValue'],int(each['fee'])*0.000000001]t = datetime.datetime.fromtimestamp(int(item[2]))item.append(f'{t.month}/{t.day}/{t.year}, {t.hour}:{t.minute}:{t.second}')result.append(item)result.sort(key=lambda x: x[2], reverse=True)index = len(result)for idx in range(len(result)):if result[idx][0] == self.LAST_HASH:index = idxbreakreturn result[:index]def write(self, data: list[list]) -> None:if len(data) == 0:returnstatus = self.databse.write(data)if status:self.LAST_HASH = data[0][0]self.logger.info(msg="入库")def run(self) -> None:while True:res = self.request()if res[0]:  # 请求成功data = self.dataClean(res[1])self.write(data)else:self.logger.write_log(location='oklink.run',err=json.dumps(res[1]))self.X_ApiKey = Nonetime.sleep(self.config.get('refresh'))if __name__ == "__main__":spider = Spider()while True:try:spider.run()except:pass

五、mysql 数据库、日志、配置文件、目录结构

mysql

import time
import datetime
import threading
from logger import Logger
import pymysql as pysqlclass Database:database_lock: threading.Lock = threading.Lock()def __init__(self, host, port, user, password, logger: Logger) -> None:self.connect(host=host,port=port,user=user,password=password)self.sql_sentences()self.init_database()self.logger = loggerdef connect(self, host, port, user, password) -> None:self.conn = pysql.connect(host=host,port=port,user=user,passwd=password)self.cursor = self.conn.cursor()def sql_sentences(self, database: str="oklink") -> None:t = datetime.datetime.fromtimestamp(time.time())table_name = 'bitcoin'self.database = databaseself.sql_create_database = '''create database if not exists %s''' % (database, )self.sql_create_table = '''create table if not exists %s (hash char(64) primary key comment '交易哈希',block int comment '区块',t int comment '时间戳',input int comment 'input',output int comment 'output',input_amount char(30) comment '交易数额',Txn_fee char(30) comment 'gas费',transaction_time char(30) comment '交易时间')''' % (table_name)self.sql_store = f'''insert into {database}.{table_name} (hash, block, t, input, output, input_amount, Txn_fee, transaction_time) value ('%s', %d, %d, %d, %d, '%s', '%s', '%s');'''def init_database(self) -> None:self.cursor.execute(self.sql_create_database)self.cursor.execute('use %s' % self.database)self.cursor.execute(self.sql_create_table)self.conn.commit()def write(self, data: list[list]) -> bool:try:with Database.database_lock:for item in data:self.cursor.execute(self.sql_store % tuple(item))self.conn.commit()return Trueexcept Exception as e:self.conn.rollback()self.logger.write_log(location="db.write",err=e)return False

日志

import os
import csv
import time
import datetime
import threadingtry:os.mkdir("log")
except:passclass Logger:def __init__(self) -> None:self.f = open("log\\"+datetime.datetime.now().strftime("%Y-%m-%d %H-%M-%S")+".csv", "w", newline="", encoding="u8")self.csv_writer = csv.writer(self.f)self.logger_lock: threading.Lock = threading.Lock()def write_log(self, location: str, err) -> None:with self.logger_lock: self.print_log(location=location, err=err)self.csv_writer.writerow([datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"),location,err])self.f.flush()def print_log(self, location: str, err) -> None:format = f'time: {datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")} | location: <{location}> | error: {err}'print(format)def info(self, msg: str) -> None:format = f'time: {datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")} | msg: 'print(format, msg)

配置文件

refresh:10
host:'localhost'
port:3306
user:'root'
password:'SpiderXbest'

目录结构

在这里插入图片描述


六、结尾

喜欢的话,点个关注吧~
在这里插入图片描述

原创文章,禁止抄袭!!!!!!!!!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/167612.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

初始Redis 分布式结构的发展演变

目录 Redis的特点和使用场景 分布式系统的引入 单机系统 分布式系统 应用服务器的增多&#xff08;处理更多的请求&#xff09; 数据库读写分离&#xff08;数据服务器的增多) 引入缓存 应对更大的数据量 业务拆分&#xff1a;微服务 Redis的特点和使用场景 我们先来…

Notepad++正则查询替换操作

Notepad编辑器查找功能非常强大&#xff0c;本处记录一些实战中常用到复杂查询替换操作。 注意&#xff1a;如果是重要文件&#xff0c;替换操作前最好备份&#xff1b;当前一个操作后也可以用ctrlz恢复。 查找重复行 用查找(ctrlf)功能&#xff0c;用正则表达式模式匹配。 查…

YOLOV8目标检测——模型训练

文章目录 1下载yolov8&#xff08;[网址](https://github.com/ultralytics/ultralytics)&#xff09;2用pycharm打开文件3训练自己的YOLOV8数据集4run下运行完了之后没有best.pt文件5导出为onnx文件 本章内容主要解决如何训练自己的YOLOV8模型。 1下载yolov8&#xff08;网址&a…

SpringCloud之OpenFeign调用解读

目录 基本介绍 引进 OpenFeign概述 OpenFeign作用 FeignClient EnableFeignClients Java代码实战 实战架构 父工程pom文件 teacher-service服务 student-service服务 测试 自定义配置 基本介绍 引进 如果我们利用RestTemplate发起远程调用的代码时会存在一些…

[ 云计算 | AWS 实践 ] Java 如何重命名 Amazon S3 中的文件和文件夹

本文收录于【#云计算入门与实践 - AWS】专栏中&#xff0c;收录 AWS 入门与实践相关博文。 本文同步于个人公众号&#xff1a;【云计算洞察】 更多关于云计算技术内容敬请关注&#xff1a;CSDN【#云计算入门与实践 - AWS】专栏。 本系列已更新博文&#xff1a; [ 云计算 | …

Openssl数据安全传输平台004:Socket C-API封装为C++类 / 服务端及客户端代码框架和实现

文章目录 0. 代码仓库1. 客户端C API2. 客户端C API的封装分析2.1 sckClient_init()和sckClient_destroy()2.2 sckClient_connect2.3 sckClient_closeconn()2.4 sckClient_send()2.5 sckClient_rev()2.6 sck_FreeMem 3. 客户端C API4. 服务端C API5. 服务端C6. 客户端和服务端代…

react封装一个简单的upload组件(待完善)

目录 react封装一个简单的upload组件component / uploadImg / uploadImg.jsx使用效果 react封装一个简单的upload组件 component / uploadImg / uploadImg.jsx import React, { useState } from react; import { LoadingOutlined, PlusOutlined } from ant-design/icons; imp…

C#,数值计算——分类与推理Phylo_nj的计算方法与源程序

1 文本格式 using System; using System.Collections.Generic; namespace Legalsoft.Truffer { public class Phylo_nj : Phylagglom { public double[] u; public override void premin(double[,] d, int[] nextp) { i…

什么是卷积神经网络?解决了什么问题?

什么是卷积神经网络&#xff1f; 卷积神经网络&#xff08;Convolutional Neural Network&#xff0c;CNN&#xff09;是一种深度神经网络模型&#xff0c;主要用于图像识别、语音识别和自然语言处理等任务。它通过卷积层、池化层和全连接层来实现特征提取和分类。 解决了什么问…

您账号或密码有误,请重新输入?

1、网站不让我进? 2、警告&#xff1a;声明未成年人不可轻易模仿&#xff01;可刑 3、MYSQL函数特性是如何被黑客利用的&#xff1f; --- SQL 注入原理&#xff1a; 账号登录场景&#xff1a; --- 数据库概述&#xff1a; --- MYSQL系统库(默认)&#xff1a; MYSQL数据…

【STM32】标准库与HAL库对照学习系列教程大全

【STM32】标准库与HAL库对照学习系列教程大全 一、前言二、准备工作三、基础篇四、进阶篇五、特别篇六、外设篇 一、前言 前言&#xff1a;开始工作后&#xff0c;学习的时间变少了很多&#xff0c;但是今年的1024节&#xff0c;还是打算送个福利给大家&#xff0c;将之前的STM…

buuctf[极客大挑战 2019]Havefun 1

网页环境title标题每一帧都不要放过&#xff0c;或许那个不起眼的地方就存在重要信息到这并未发现什么重要信息&#xff0c;F12看看在源代码底部发现PHP代码&#xff1a; <!-- $cat$_GET[cat]; echo $cat; if($catdog){ echo Syc{cat_cat_cat_cat}; } --> PHP代码…

【Java 进阶篇】Java XML组成部分:理解XML的结构

XML&#xff08;可扩展标记语言&#xff09;是一种常用于存储和交换数据的标记语言。了解XML的结构和组成部分对于有效处理XML数据至关重要。在本篇博客中&#xff0c;我们将深入探讨XML的组成部分&#xff0c;以及如何使用Java来处理和操作XML数据。 什么是XML&#xff1f; …

STM32:TIM通道输入捕获

本文主要讲解如何使用TIMER通道的输入脉冲捕获功能。基于STM32F7的Timer2 Channel3来进行讲解。 配置时钟 Timer2的时钟频率&#xff0c;对应APB1 Timer。 分频设置为96-1&#xff0c;这样设置每次count计数&#xff0c;对应的时间为1us。Counter设置为最大即可&#xff0c;默…

oracle实现搜索不区分大小写

<if test"code ! null and code ! ">and upper(code) like upper(%${code}%) </if>关键字upper

UE4/5 批量进行贴图Texture压缩、修改饱和度

该插件下载地址&#xff1a; &#x1f35e;正在为您运送作品详情https://mbd.pub/o/bread/ZZWYmpxw 适用于 UE4 4.25/4.26/4.27 UE5 以上版本 在Edit - Plugins中分别开启 插件 Python Editor Script Plugin 插件 Editor Scripting Utilites 如果会python代码&#xff0c;…

Mybatis的SqlRunner执行流程

Mybatis的SqlRunner执行流程 SqlRunner exec new SqlRunner(connection); Map<String, Object> row exec.selectOne("SELECT * FROM PRODUCT WHERE PRODUCTID ?", "FI-SW-01");connection.close();assertEquals("FI-SW-01", row.ge…

【C进阶】动态内存管理

一、为什么存在动态内存分配 我们之前学的都是开辟固定大小的空间&#xff0c;但有时候需要空间的大小只有在程序运行时才能知道&#xff0c;那么就引入了动态内存开辟 内存分布所在&#xff1a; 二、动态内存函数的介绍 2.1malloc和free 动态内存开辟的函数 void * malloc…

【Java 进阶篇】Java XML约束:确保数据一致性和有效性

XML&#xff08;可扩展标记语言&#xff09;是一种常用的数据交换格式&#xff0c;用于存储和交换数据。然而&#xff0c;为了确保数据的一致性和有效性&#xff0c;通常需要定义XML约束。XML约束是一种规则集&#xff0c;定义了XML文档的结构、元素、属性和数据类型。本篇博客…

centos如何根据端口号查询程序路径

centos如何根据端口号查询程序路径 如果是半路接受的应用&#xff0c;上个人只给你说了程序的端口号&#xff0c;别的都没&#xff0c;那怎么找程序的路径哪&#xff1f;一是给上上个人要&#xff0c;二是自己找&#xff08;我是自己找的&#xff09; 小白教程&#xff0c;一…