15分钟学 Python 第39天:Python 爬虫入门(五)

Day 39:Python 爬虫入门数据存储概述

在进行网页爬虫时,抓取到的数据需要存储以供后续分析和使用。常见的存储方式包括但不限于:

  • 文件存储(如文本文件、CSV、JSON)
  • 数据库存储(如SQLite、MySQL、MongoDB)
  • 内存存储(如使用Python的数据结构)

每种存储方式有其优缺点,选择合适的存储方案可以提高数据处理效率。

一、文件存储

1.1 文本文件

文本文件是最简单的数据存储方式,适合于小规模数据。可以使用Python的内置文件操作来实现数据写入和读取。

示例代码:

# 写入数据到文本文件
data = "Hello, World!"
with open("output.txt", "w") as file:file.write(data)# 从文本文件读取数据
with open("output.txt", "r") as file:content = file.read()
print(content)  # 输出: Hello, World!

1.2 CSV文件

CSV(Comma Separated Values)文件用于存储表格数据,适合处理结构化数据。可以使用Python的csv模块来处理CSV文件。

示例代码:

import csv# 写入数据到CSV文件
data = [["name", "age"], ["Alice", 30], ["Bob", 25]]
with open("output.csv", "w", newline="") as file:writer = csv.writer(file)writer.writerows(data)# 从CSV文件读取数据
with open("output.csv", "r") as file:reader = csv.reader(file)for row in reader:print(row)  # 输出: ['name', 'age'], ['Alice', '30'], ['Bob', '25']

1.3 JSON文件

JSON(JavaScript Object Notation)文件适合存储嵌套的数据结构,易于人类阅读和书写。可以使用Python的json模块。

示例代码:

import json# 写入数据到JSON文件
data = {"users": [{"name": "Alice", "age": 30},{"name": "Bob", "age": 25}]
}
with open("output.json", "w") as file:json.dump(data, file)# 从JSON文件读取数据
with open("output.json", "r") as file:content = json.load(file)
print(content)  # 输出: {'users': [{'name': 'Alice', 'age': 30}, {'name': 'Bob', 'age': 25}]}

二、数据库存储

对于大规模数据及高效查询,使用数据库存储更为合适。常用的数据库有SQLite、MySQL和MongoDB。

2.1 SQLite

SQLite是一个轻量级的关系数据库,适合小型应用。Python内置支持SQLite,通过sqlite3模块操作。

示例代码:

import sqlite3# 创建数据库连接
conn = sqlite3.connect('example.db')
c = conn.cursor()# 创建表
c.execute('''CREATE TABLE users (name text, age integer)''')# 插入数据
c.execute("INSERT INTO users VALUES ('Alice', 30)")
c.execute("INSERT INTO users VALUES ('Bob', 25)")# 提交并关闭连接
conn.commit()
conn.close()# 查询数据
conn = sqlite3.connect('example.db')
c = conn.cursor()
for row in c.execute('SELECT * FROM users'):print(row)  # 输出: ('Alice', 30), ('Bob', 25)
conn.close()

2.2 MySQL

MySQL是一个广泛使用的关系数据库,适合大规模的应用。首先要安装mysql-connector-python模块。

示例代码:

import mysql.connector# 创建数据库连接
conn = mysql.connector.connect(host="localhost",user="yourusername",password="yourpassword",database="yourdatabase"
)
cursor = conn.cursor()# 创建表
cursor.execute("CREATE TABLE users (name VARCHAR(255), age INT)")# 插入数据
cursor.execute("INSERT INTO users (name, age) VALUES ('Alice', 30)")
cursor.execute("INSERT INTO users (name, age) VALUES ('Bob', 25)")# 提交事务并关闭连接
conn.commit()
cursor.close()
conn.close()# 查询数据
conn = mysql.connector.connect(host="localhost",user="yourusername",password="yourpassword",database="yourdatabase"
)
cursor = conn.cursor()cursor.execute("SELECT * FROM users")
for row in cursor.fetchall():print(row)  # 输出: ('Alice', 30), ('Bob', 25)cursor.close()
conn.close()

2.3 MongoDB

MongoDB是一个文档型数据库,适合存储非结构化数据。使用pymongo模块进行操作。

示例代码:

from pymongo import MongoClient# 创建数据库连接
client = MongoClient('localhost', 27017)
db = client["testdb"]
collection = db["users"]# 插入数据
collection.insert_one({"name": "Alice", "age": 30})
collection.insert_one({"name": "Bob", "age": 25})# 查询数据
for user in collection.find():print(user)  # 输出: {'_id': ..., 'name': 'Alice', 'age': 30}, {'_id': ..., 'name': 'Bob', 'age': 25}client.close()

三、内存存储

在某些情况下,可以将数据存储在内存中,适合快速处理和临时使用。使用Python的内置数据结构(如字典、列表)即可。

示例代码:

# 使用Python内置数据结构存储数据
data_storage = []# 存储数据
data_storage.append({"name": "Alice", "age": 30})
data_storage.append({"name": "Bob", "age": 25})# 读取数据
for item in data_storage:print(item)  # 输出: {'name': 'Alice', 'age': 30}, {'name': 'Bob', 'age': 25}

四、选择适合的存储方式

在选择数据存储方式时,考虑以下几点:

  1. 数据规模:数据量小可使用文件存储,量大则应考虑数据库。
  2. 查询需求:如果需要复杂查询,选择数据库存储更为合适。
  3. 数据结构:嵌套数据优先考虑JSON文件或MongoDB。
  4. 性能要求:内存存储能提供最快的读取速度,但数据持久化不可用。

五、数据存储流程图

以下是一个简单的数据存储流程图,帮助理解数据存储的步骤:

[网页爬虫]|V
[数据提取]|V
[选择存储方式]|+----- [文件存储] -----+|                     ||                     |+----- [数据库存储] --+|                     ||                     |+----- [内存存储] ----+|V
[存储数据]

六、总结

数据存储是爬虫开发中的一个关键环节,不同的存储方式各有优劣,学习如何高效存储数据对于数据分析、后续利用都至关重要。通过上述讲解,您可以更好地选择数据存储方案以满足不同需求。


在这里插入图片描述

怎么样今天的内容还满意吗?再次感谢观众老爷的观看。
最后,祝您早日实现财务自由,还请给个赞,谢谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/440046.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

无神论文解读之ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

一、什么是ControlNet ControlNet是一种能够控制模型生成内容的方法,能够对文生图等模型添加限制信息(边缘、深度图、法向量图、姿势点图等),在当今生成比较火的时代很流行。 这种方法使得能够直接提供空间信息控制图片以更细粒…

PCL 1.8.1 + VTK 1.8.0 + QT5.14.2+ VS2017 环境搭建

先看看效果: PCL 1.8.1下载安装: Tags PointCloudLibrary/pcl GitHub 安装完成后: 如果VTK想重新编译的,可以看我的这篇博客:

Spring14——案例:利用AOP环绕通知计算业务层接口执行效率

前面介绍了这么多种通知类型,具体该选哪一种呢? 我们可以通过一些案例加深下对通知类型的学习。 34-案例:利用AOP环绕通知计算业务层接口执行效率 需求分析 这个需求也比较简单,前面我们在介绍AOP的时候已经演示过: 需求:任意业务层接口…

冯诺依曼体系|操作系统

目录 一、硬件:冯诺依曼体系 1.冯诺依曼体系结构 2.冯诺依曼体系结构组成 3.内存的重要性 (1)提升运行速度 (2)提升运行效率 二、软件:操作系统 1.什么是操作系统 (1)内部理…

【GeekBand】C++设计模式笔记6_Decorator_装饰模式

1. “单一职责”模式 在软件组件的设计中,如果责任划分的不清晰,使用继承得到的结果往往是随着需求的变化,子类急剧膨胀,同时充斥着重复代码,这时候的关键是划清责任。典型模式 DecoratorBridge 2. Decorator 装饰模…

地理空间数据存储与处理:MySQL空间数据类型的优化与应用!

在 MySQL 数据库中,空间数据类型用于存储和处理地理空间数据。这些数据类型允许我们在开发时可在数据库中存储和操作地理位置、几何形状和地理空间关系等信息。 一、什么是空间数据类型 MySQL 中的空间数据类型主要包括以下几种: GEOMETRY&#xff1a…

iMazing只能苹果电脑吗 Win和Mac上的iMazing功能有区别吗

在当今数字时代,管理和备份手机数据变得越来越重要。无论是转移照片、备份短信,还是管理应用程序,一个强大的工具可以大大简化这些操作。iMazing作为一款备受好评的iOS设备管理软件,已经成为许多用户的选择。但是,许多…

SpringBoot+ElasticSearch7.12.1+Kibana7.12.1简单使用

案例简介 本案例是把日志数据保存到Elasticsearch的索引中,并通过Kibana图形化界面的开发工具给查询出来添加的日志数据,完成从0到1的简单使用 ElasticSearch职责用法简介 ElasticSearch用在哪 ElasticSearch在我这个案例中,不是用来缓解增…

STM32编码器接口解析及抗噪声措施探讨

1. 引言 在现代控制系统中,编码器扮演着非常重要的角色。它就像一个精密的测量工具,可以告诉我们机械部件的位置和运动状态。在STM32微控制器中,编码器接口可以轻松地与各种编码器连接,实现精确的控制。我将在这里探讨STM32编码器…

图文深入理解Oracle Network配置管理(一)

List item 本篇图文深入介绍Oracle Network配置管理。 Oracle Network概述 Oracle Net 服务 Oracle Net 监听程序 <oracle_home>/network/admin/listener.ora <oracle_home>/network/admin/sqlnet.ora建立网络连接 要建立客户机或中间层连接&#xff0c;Oracle…

sublime配置(竞赛向)

我也想要有jiangly一样的sublime 先决条件 首先&#xff0c;到官网上下载最新的sublime4&#xff0c;然后在mingw官网上下载最新的mingw64 mingw64官网&#xff1a;左边菜单栏点击dowloads,然后选择MinGW-W64-builds(可能会有点慢)——然后有时候会变成选LLVM-minGW,接着选择…

人工智能专业就业方向与前景

随着产业结构升级的持续推进&#xff0c;未来行业领域对于人工智能专业人才的需求量会逐渐增加&#xff0c;一部分高校也开始陆续在本科阶段开设人工智能专业&#xff0c;以缓解人工智能领域人才缺口较大的问题。下面是小编整理的人工智能专业就业方向与前景&#xff0c;欢迎阅…

数据结构阶段测试2的一点小补充

数据结构阶段测试2的一点小补充 1.已知⼩根堆为8,15,10,21,34,16,12&#xff0c;删除关键字8之后需重建堆&#xff0c;最后的叶⼦ 节点为() A. 34 B. 21 C. 16 D. 12 解题思路 向下调整算法删除堆顶元素 &#x1f4a1; 答案&#xff1a;C 删除堆顶元素的思路&#xff1a; …

详解Java中的堆内存

详解Java中的堆内存 堆是JVM运行数据区中的一块内存空间&#xff0c;它是线程共享的一块区域&#xff08;注意了&#xff01;&#xff01;&#xff01;&#xff09;&#xff0c;主要用来保存数组和对象实例等&#xff08;其实对象有时候是不在堆中进行分配的&#xff0c;想要了…

python-pptx 中 placeholder 和 shape 有什么区别?

在 python-pptx 库中&#xff0c;placeholder 和 shape 是两个核心概念。虽然它们看起来相似&#xff0c;但在功能和作用上存在显著的区别。为了更好地理解这两个概念&#xff0c;我们可以通过它们的定义、使用场景以及实际代码示例来剖析其差异。 Python-pptx 的官网链接&…

【微服务】服务注册与发现 - Eureka(day3)

CAP理论 P是分区容错性。简单来说&#xff0c;分区容错性表示分布式服务中一个节点挂掉了&#xff0c;并不影响其他节点对外提供服务。也就是一台服务器出错了&#xff0c;仍然可以对外进行响应&#xff0c;不会因为某一台服务器出错而导致所有的请求都无法响应。综上所述&…

【MySQL 06】表的增删查改

目录 1.insert 增添数据 1.1单行数据 全列插入 1.2多行数据 指定列插入 1.3插入否则更新 1.4.插入否则替换 2.select查找 2.1 全列查找 2.2指定列查找 2.3查询字段为表达式 2.4为查询结果指定别名 2.5 结果去重 2.6 where条件查询 2.7结果排序 2.8.筛选分页结果…

指针(7)

目录 1. sizeof和strlen的对⽐ 1.1 sizeof 1.2 strlen sizeof 和 strlen 总结&#xff1a; 2. 数组和指针 2.1 ⼀维数组 2.2 字符数组 1. sizeof和strlen的对⽐ 1.1 sizeof 计算的是使⽤类型创建的变量所占内存空间的⼤⼩。sizeof不在乎你里面放的什么。sizieof是操作符…

指 针

回顾一下&#xff1a; 1. 指针 1.1 基本知识 指针变量——指针&#xff08;存放地址的变量&#xff09; 指针变量所占用的大小&#xff0c;与数据类型无关&#xff0c;跟编译器有关。&#xff08;32位&#xff1a;4字节&#xff0c;64位&#xff1a;8字节&#xff09; 1.2 …

使用阿里云试用资源快速部署web应用-dofaker为例

本文介绍使用阿里云的试用资源部署dofaker的方法&#xff0c;本教程主要作学习在阿里云部署web应用之用&#xff0c;部署好应用之后&#xff0c;可以在任何地点通过公网ip访问web应用。 一、创建云主机 登录阿里云账户之后&#xff0c;点击控制台&#xff1a; 点击云服务器EC…