Python实战 | 如何抓取tx短片弹幕并作词云图分析

前言

嗨喽~大家好呀,这里是魔王呐 ❤ ~!

本次目的:采集tx短片弹幕,并且做词云图可视化分析

这个不少漫迷应该都看过吧~

哪里都好,就是更新太慢了一点,剧情磨蹭了一点,哎

那今天我们就来采集一下它的弹幕吧,看看其他小伙伴的反应怎么样~

知识点介绍:

  1. 基本思路流程

  2. requests模块的使用

  3. pandas读取表格数据

环境介绍:

  • python 3.8

  • pycharm

  • requests >>> pip install requests

  • pandas >>> pip install pandas

  • jieba

  • stylecloud

如果安装python第三方模块:

  1. win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车

  2. 在pycharm中点击Terminal(终端) 输入安装命令

原理:

模拟成 浏览器 / 客户端 向 服务器 发送网络请求

如何去实现一个案例:

找数据

静态的数据: 如果在网页源代码当中能够找到的内容 静态的数据

动态的数据: 找不到就是动态的

代码实现过程:

  1. 发送请求

  2. 获取数据

  3. 解析数据

  4. 保存数据

🎯 博主所有文章素材、解答、源码、教程领取处:点击

代码展示

采集数据

import requests     # 发送请求 第三方模块
import csv          # 内置模块 保存数据

f = open('弹幕.csv', mode='a', newline='', encoding='utf-8-sig')
csv_writer = csv.writer(f)
csv_writer.writerow(['nick', 'create_time', 'content'])

请求头: 伪装

: 拼音

: 字

{'user-agent': 'Mozilla/5.0....'} Python叫做字典 存储数据的

列表也是存储数据的 []

headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'
}
for i in range(0, 100):

请求方法: GET

1. 发送请求

函数传参 默认位置传参, 指定参数传参

    response = requests.get(url, headers=headers)

2. 获取数据

<Response [200]>: 请求成功

.text: 只要是文本内容 都可以用.text

.content: 获取二进制数据, 如果当你访问的链接为 图片/视频/音频

.json(): 只支持 {}/[] 取出来之后的数据 要么是字典 要么是列表 要么就是报错

    json_data = response.json()

3. 解析数据 提取数据

字典(可以通过键取值) 和 列表 的取值方式

[1,2,3,4,5,6,7]

    barrage_list = json_data['barrage_list']for barrage in barrage_list:content = barrage['content']nick = barrage['nick']create_time = barrage['create_time']print(nick, create_time, content)

4. 保存数据

        csv_writer.writerow([nick, create_time, content])

词云图

import pandas as pd  # 第三方模块
import jieba
import stylecloud# 1. 导入数据
df = pd.read_csv('弹幕.csv')def get_cut_words(content_):# 定义停用词的表stop_words = []with open('stop_words.txt', 'r', encoding='utf-8-sig') as f:lines = f.readlines()for line in lines:stop_words.append(line.strip())# 添加关键词my_words = ['666', '某音']for i in my_words:jieba.add_word(i)word_num = jieba.lcut(content_.str.cat(sep='。'), cut_all=False)word_num_selected = [i for i in word_num if i not in stop_words and len(i) >= 2]return word_num_selectedtext = get_cut_words(df['content'])stylecloud.gen_stylecloud(text=' '.join(text),collocations=False,font_path=r'C:\Windows\Fonts\msyh.ttc',icon_name='fab fa-youtube',size=768,output_name='video.png'
)

推荐往期文章

🎯 博主所有文章素材、解答、源码、教程领取处:点击

对python感兴趣的小伙伴也可以看一下博主其他相关文章哦~

python小介绍:

python是什么?工作前景如何?怎么算有基础?爬数据违法嘛?。。

python数据分析前景:

用python分析“数据分析”到底值不值得学习,以及学完之后大概能拿到多少工资

python基础自测题:

Python 800 道习题 (°ー°〃) 测试你学废了嘛

最后推荐一套Python视频给大家,希望对大家有所帮助:

全套教程!你和大佬只有一步之遥【python教程】

尾语

要成功,先发疯,下定决心往前冲!

学习是需要长期坚持的,一步一个脚印地走向未来!

未来的你一定会感谢今天学习的你。

—— 心灵鸡汤

本文章到这里就结束啦~感兴趣的小伙伴可以复制代码去试试哦 😝

👇问题解答 · 源码获取 · 技术交流 · 抱团学习请联系👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/49307.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

html5中分镜图文脚本,企业宣传片脚本如何撰写分镜头?

企业宣传片脚本如何撰写分镜头? 在整个企业宣传片制作中&#xff0c;宣传片拍摄可谓是其中重要环节。而企业宣传片的拍摄脚本则是沟通宣传片策划与拍摄之间的桥梁所在。企业宣传片脚本可以说是宣传片拍摄过程中策划方案实施的指明灯&#xff0c;为整个拍摄指明方向&#xff0c…

html5分镜头脚本范例,分镜头脚本范本.pdf

分镜头脚本范本.pdf (3页) 本资源提供全文预览&#xff0c;点击全文预览即可全文预览,如果喜欢文档就下载吧&#xff0c;查找使用更方便哦&#xff01; 19.90 积分 镜 号 景别摄法时间画面解说音 乐 备注 1中景卡住男生和女生的中 景&#xff0c; 男生为背面斜侧&#xff0c; …

html5分镜头脚本范例,分镜头脚本模板(小故事分镜头脚本范例)

分镜头脚本最重要的就是可视化的语言阐述内容&#xff0c;在内容上有场次&#xff0c;镜号&#xff0c;景别&#xff0c;拍摄内容&#xff0c;拍摄方法&#xff0c;声音(人声&#xff0c;音乐&#xff0c;音响)&#xff0c;时长&#xff0c;实例图片等 其中&#xff0c;实际图片…

qq一注销账号就服务器繁忙,qq熊熊怎样解除服务器繁忙的问题

熊熊服务器将进行不停机更新升级到最新版本,请您使用自动升级或手动升级将您的熊熊客户端升级为最新,以便体验最新游戏。正在社区的用户在服务器升级时有可能会被强制退出游戏,您可以再次登陆升级即可,对大家造成的不便,敬请谅解! 版本更新内容预知 一、新增小游戏 新增两…

华为手机显示服务器繁忙,显示服务器繁忙

显示服务器繁忙 内容精选 换一换 云耀云服务器的网卡分为主网卡和扩展网卡,主网卡不可删除。本节操作介绍在控制台删除扩展网卡的操作步骤。登录管理控制台。单击管理控制台左上角的,选择区域和项目。选择“计算 >云耀云服务器”。在云服务器列表中,单击待删除网卡的云服…

国内最强微服务框架,必学!

大家好&#xff0c;我是R哥&#xff0c;祝大家五一快乐。 关注了一段时间公众号的小伙伴都知道&#xff0c;R哥的 Spring Cloud 微服务课程每月都会给小伙伴搞一波活动。 51 假期来了&#xff0c;很多小伙伴都在等 51 的活动&#xff0c;这次活动&#xff0c;福利全新升级&…

国内最强微服务框架,不接受反驳!

大家好&#xff0c;我是栈长。 关注了一段时间公众号的小伙伴都知道&#xff0c;栈长的 Spring Cloud 微服务课程每到节假日都会给小伙伴搞一波活动。 很多小伙伴都在等 618 的活动&#xff0c;这次活动&#xff0c;福利全新升级&#xff0c;千万不要错过&#xff01;&#xff…

【.Net/C#之ChatGPT开发系列】二、C#异步流+SSE通信实现ChatGPT流式响应并实现打字机效果...

【.Net/C#之ChatGPT开发系列】一、开发准备及实现与ChatGPT的初次对话 前面我们利用了ChatGPT提供的聊天API接口&#xff0c;实现了一个简单的聊天应用&#xff0c;可以与ChatGPT进行基本的对话交互&#xff0c;今天我们继续&#xff0c;还请大家点个关注。 &#x1f447; 当你…

【.Net/C#之ChatGPT开发系列】二、C#异步流+SSE通信实现ChatGPT流式响应并实现打字机效果

目录 1、C#异步流 2、SSE通信 ​一、 服务端接口调整 二、Web端js脚本调整 三、服务端优化 四、Web端再次调整 前面我们利用了ChatGPT提供的聊天API接口&#xff0c;实现了一个简单的聊天应用&#xff0c;可以与ChatGPT进行基本的对话交互&#xff0c;今天我们继续&#…

RocketMQ4.4.0搭建过程记录

版本选型 https://zhuanlan.zhihu.com/p/573949726 官方demo https://rocketmq.apache.org/zh/docs/quickStart/01quickstart/ 官方部署方案选型 https://rocketmq.apache.org/zh/docs/deploymentOperations/01deploy rocketmq-client官方支持 https://github.com/apache/rocke…

北大直博保送生论文涉嫌抄袭?原作者实名举报,北大南开火速调查

【导读】保送北大直博的学生被扒出抄袭了川大学生的SCI论文&#xff0c;还是从论文机构买的&#xff1f; 南开保送北大直博的学生&#xff0c;抄袭川大学生的SCI论文发了本普刊&#xff0c;还是直接英翻中&#xff1f; 更为离奇的是&#xff0c;这篇抄袭论文似乎是从论文辅导…

完成童年的梦想,用python画一个奥特曼

上班闲来无事 画个凹凸曼给女同事博博她开心。 首先奥特曼是由斜的椭圆&#xff0c;圆角矩形&#xff0c;圆形&#xff0c;以及曲线的组成的。此处绘制中&#xff0c;主要应用了曲线的的绘制&#xff0c;将奥特曼画的比较饱满。 本次绘制过过程中&#xff0c;自己编写了两个函…

OpenAI大动作|山姆·奥特曼亲探 GPT4: 极速+便宜将变成现实!

Laf 公众号已接入了 AI 绘画工具 Midjourney&#xff0c;可以让你轻松画出很多“大师”级的作品。同时还接入了 AI 聊天机器人&#xff0c;支持 GPT、Claude 以及 Laf 专有模型&#xff0c;可通过指令来随意切换模型。欢迎前来调戏&#x1f447; <<< 左右滑动见更多 &…

Sam Altman 山姆奥特曼:强化学习进展 Reinforcement Learning Progress

目录 Reinforcement Learning Progress 强化学习进展 PPO(近端策略优化)

Sam Altman 山姆奥特曼:How To Invest In Startups如何投资初创公司

How To Invest In Startups 如何投资初创公司 There is a lot of advice about how to be a good startup founder. But there isn’t very much about how to be a good startup investor. 关于如何成为一名优秀的创业公司创始人&#xff0c;有很多建议。但是&#xff0c;关于…

危险试探,产品经理赋予AI人格来打造品牌忠诚度

图片来源&#xff1a;由无界 AI工具生成 你可能不会相信&#xff0c;你的手机很可能变成你的虚拟情人&#xff0c;升级情人需要升级手机&#xff0c;而你从此再也不想换其他品牌手机。 AI时代&#xff0c;赋予产品以人格&#xff0c;让用户爱上产品&#xff0c;这或许是接下来产…

爬虫 post请求百度翻译 v2transapi 爬取信息失败

问题&#xff1a;在写爬虫的时候&#xff0c;使用到了eidtplus&#xff0c;将图中的表单数据复制下来之后&#xff0c;放入eidtplus添加成字典数据格式的时候&#xff0c;没有注意到query后面的单词的空格&#xff0c;导致爬虫爬取信息失败。 解决办法&#xff1a;将love单词前…

QT接入百度翻译api实现翻译

思路&#xff1a;将自己需要翻译的内容添加到百度翻译的api里面&#xff0c;然后通过get方法发送请求&#xff0c;异步接收返回的json格式数据并解析&#xff0c;然后将解析后的内容显示到界面。 步骤&#xff1a; 1.要实现该功能首先需要百度api的相关信息&#xff0c;因此需…

百度翻译API的调用

首先需要注册一个账号并申请成为个人开发者获取APP ID和密匙 百度翻译开放平台进入该网站注册即可 完成之后即可点击开通翻译其他服务 选择通用翻译并选择标准版&#xff0c;然后填入信息即可&#xff0c;服务器地址百度搜索IP地址&#xff0c;然后填写搜到的本机地址就可以了…

调用百度翻译api(超简单)

&#xff08;一共十行代码在最下面&#xff09; 1.打开百度翻译官网network找api 2.查看网址 和请求方式 3.查看传入的字典参数 4.返回的参数解析 返回的参数 s{errno: 0, data: [{k: good, v: adj. 好的; 优秀的; 有益的; 漂亮的&#xff0c;健全的 n. 好处&#xff0c;利益…