获取哔站评论

一、文章立论

哔哩哔哩（B站）是当前年轻人十分喜爱的视频分享平台，以其丰富多样的内容、互动性强的社区氛围以及独特的弹幕文化深受用户喜爱。在该平台上，用户不仅可以观看各种类型的视频，如动画、游戏、科技、生活、影视、音乐等，还可以通过弹幕和评论表达自己的观点，与其他观众进行实时交流。这种互动机制极大地增强了用户的沉浸感和参与感，使得B站成为了一个兼具娱乐性和社交属性的内容生态平台。

由于B站的弹幕与评论系统承载了大量用户的实时反馈和情感表达，对这些文本数据进行深入分析，可以挖掘出许多有价值的信息。例如，通过语义分析可以理解视频的核心立意，以及观众对内容的看法；而情感分析则能揭示用户对于某个视频的情感倾向，是正面、负面还是中立。通过大规模采集和处理这些数据，我们不仅可以研究视频的受欢迎程度，还能分析不同类型视频的受众特征、热点话题的传播规律，甚至洞察某些文化现象的演变趋势。本篇文章将介绍如何利用Python高效地批量获取B站视频的评论信息。

二、爬虫分析

通过浏览器开发者工具捕获获取评论的请求，通过搜素大法找到具体链接——https://api.bilibili.com/x/v2/reply/wbi/main

其载荷参数为

通过搜素发现oid和pagination_str中的session_id是和视频直接相关的，w_rid搜不到，应该是一个加密的密文，wts应该是一个时间戳，转为标准时间后就可以确定其确实就是一个当前时间戳。再请求发现其余参数为固定的。

再去分析其他视频的评论，发现接口是一致的，但是载荷参数不一致。

区别主要是pagination_str字段。

利用搜素大法搜素w_rid，在可疑的地方打上断点，再次请求评论，发现断点断在了

return {w_rid: at(y + a),wts: u.toString()
}

输出 at(y + a)和wts的值，长度与接口参数一致。放开断点看最新请求，加密参数与刚刚输出的一致，即找到了加密位置。其中主要的代码逻辑为：

, o = n.imgKey, i = n.subKey;if (o && i) {for (var a = (t = o + i,r = [],[46, 47, 18, 2, 53, 8, 23, 32, 15, 50, 10, 31, 58, 3, 45, 35, 27, 43, 5, 49, 33, 9, 42, 19, 29, 28, 14, 39, 12, 38, 41, 13, 37, 48, 7, 16, 24, 55, 40, 61, 26, 17, 0, 1, 60, 51, 30, 4, 22, 25, 54, 21, 56, 59, 6, 63, 57, 62, 11, 36, 20, 34, 44, 52].forEach((function(e) {t.charAt(e) && r.push(t.charAt(e))})),r.join("").slice(0, 32)), u = Math.round(Date.now() / 1e3), s = Object.assign({}, e, {wts: u}), c = Object.keys(s).sort(), l = [], f = /[!'()*]/g, d = 0; d < c.length; d++) {var p = c[d], h = s[p];h && "string" == typeof h && (h = h.replace(f, "")),null != h && l.push("".concat(encodeURIComponent(p), "=").concat(encodeURIComponent(h)))}var y = l.join("&");return {w_rid: at(y + a),wts: u.toString()}}

通过调试得到e就是请求参数中除去w_rid和wts的一个字典。o和i的值是固定的。为了判断快速at方法，在控制台输出at("123456")，结果为e10adc3949ba59abbe56e057f20f883e，即可判断at方法即为md5算法。至此爬虫分析完毕。

三、爬虫实现

将网页的JavaScript代码扣下来之后，稍微修改，将结果封装为一个方法。

let o = "7cd084941338484aae1ad9425b84077c"
let i = "4932caff0ff746eab6f01bf08b70ac45"
var CryptoJS = require("crypto-js")
function getEncryptedParams(e){for (var a = (t = o + i,r = [],[46, 47, 18, 2, 53, 8, 23, 32, 15, 50, 10, 31, 58, 3, 45, 35, 27, 43, 5, 49, 33, 9, 42, 19, 29, 28, 14, 39, 12, 38, 41, 13, 37, 48, 7, 16, 24, 55, 40, 61, 26, 17, 0, 1, 60, 51, 30, 4, 22, 25, 54, 21, 56, 59, 6, 63, 57, 62, 11, 36, 20, 34, 44, 52].forEach((function(e) {t.charAt(e) && r.push(t.charAt(e))})),r.join("").slice(0, 32)), u = Math.round(Date.now() / 1e3), s =Object.assign({}, e, { wts: u }),c = ["cm_from_track_id","mode","oid","pagination_str","plat","seek_rpid","type","web_location","wts"], l = [], f = /[!'()*]/g, d = 0; d < c.length; d++) {var p = c[d], h = s[p];h && "string" == typeof h && (h = h.replace(f, "")),null != h && l.push("".concat(encodeURIComponent(p), "=").concat(encodeURIComponent(h)))}var pagination_str = l[2]var y =CryptoJS.MD5(l.join("&") + a).toString()wts =  u.toString()return {y,  wts, pagination_str}
}

python代码利用excjs调用上述JavaScript代码文件获得加密结果，并用requests库发送请求获得放回信息。

import execjs
import requestsheaders = {"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7","accept-language": "zh-CN,zh;q=0.9","upgrade-insecure-requests": "1","user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/133.0.0.0 Safari/537.36"
}
def getEncryptedParams(e):js_codes = open("newbilibili.js", "r").read()ctx = execjs.compile(js_codes)return ctx.call("getEncryptedParams", e)params = {"oid": "22661051","type": "1","mode": "3","pagination_str": "{\"offset\":\"{\\\"type\\\":1,\\\"direction\\\":1,\\\"data\\\":{\\\"pn\\\":1}}\"}","plat": "1","web_location": "1315875"
}
encryptedParams = getEncryptedParams(params)
pagination_str = encryptedParams["pagination_str"].replace("pagination_str=", "").replace("%3A", ":")
w_rid, wts = encryptedParams["y"], encryptedParams["wts"]
url = (f"https://api.bilibili.com/x/v2/reply/wbi/main?oid={params['oid']}&type=1&mode=3&pagination_str={pagination_str}"f"&plat=1&web_location=1315875&w_rid={w_rid}&wts={wts}")
text = requests.get(url=url, headers=headers).json()
datas = text["data"]["replies"]
for data in datas:print(data["content"]["message"].replace("\n", ""))

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/28285.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！