学习日志012--python中多进程，多线程

简简单单小练习

1.线程的并发执行

import threading
import time# 创建要执行的两个函数
def print_hello():for _ in range(10):print("hello")time.sleep(1)def print_world():for _ in range(10):print("world")time.sleep(1)# 创建线程对象 注意这里要写函数名，不能调用函数
thread_hello = threading.Thread(target=print_hello)
thread_world = threading.Thread(target=print_world)# 开始进行线程
thread_hello.start()
thread_world.start()# 等待线程结束
thread_hello.join()
thread_world.join()

总结：

准备一个函数。
使用 import threading 创建一个线程对象 t 。
使用 t.start() 来启动线程。
使用 t.join() 来等待线程的结束.

2.单线程与多线程的比较

下面是一个简单的爬虫案例，我们之后将用单线程与多线程分别操作进行比较

import requestsurls = [f"https://www.cnblogs.com/#p{page}" for page in range(1,51)]def craw(url):r = requests.get(url)print(url,len(r.text))craw(urls[0])

import threading
import time
import requestsurls = [f"https://www.cnblogs.com/#p{page}" for page in range(1,51)]def craw(url):r = requests.get(url)print(url,len(r.text))# 这里由于列表在函数上面作为全局变量，故没使用参数
def single_thread():print("单线程函数开始")# 遍历每一个网页for url in urls:craw(url)print("single_thread end")def multi_thread():"""多进程函数这里是真正的多线程操作之前的是通过休眠来模拟:return:"""print("multi_thread begin")# 创建空列表接受线程threads = []# 将创建的多个线程对象存入列表中for url in urls:threads.append(threading.Thread(target=craw,args=(url,)))# 启动线程for thread in threads:thread.start()# 等待线程结束for thread in  threads:thread.join()print("multi_thread end")# 确定作为主程序执行
if __name__ == '__main__':# 建立时间标记start = time.time()single_thread()end = time.time()print(f"单线程需要{end - start}秒")start = time.time()multi_thread()end = time.time()print(f"多线程需要{end - start}秒")

multi_thread begin
单线程需要6.053725004196167秒
single_thread endmulti_thread begin多线程需要0.2576422691345215秒
multi_thread end

从结果来看多线程的确能缩短进程所需时间，但面对大数据这些还是不够看，这时就要请出消费者生产者模型，简单来说就是边查边处理数据

import threading
import time
import requests
from bs4 import BeautifulSoup# 创建网址列表urls = [(f"https://www.cnblogs.com/#p{page}") for page in range(1,51)]# 生产者获取网址元素
def craw(url):r = requests.get(url)return r.text# 消费者将获取到的元素计算
def parse(html):# html时指定的对象 html.parser是指定的解析器soup = BeautifulSoup(html,"html.parser")#这里使用BS的方法根据关键字类查找信息links = soup.find_all("a",class_ = "post-item-title")# 返回解析的列表return [(link["href"],link.get_text()) for link in links]if __name__ == '__main__':for result in parse(craw(urls[2])):print(result)

这里我们利用之前学的模块在新的python文件内实现

import threading
import time
import requests
from bs4 import BeautifulSoup# 创建网址列表urls = [(f"https://www.cnblogs.com/#p{page}") for page in range(1,51)]# 生产者获取网址元素
def craw(url):r = requests.get(url)return r.text# 消费者将获取到的元素计算
def parse(html):# html时指定的对象 html.parser是指定的解析器soup = BeautifulSoup(html,"html.parser")#这里使用BS的方法根据关键字类查找信息links = soup.find_all("a",class_ = "post-item-title")# 返回解析的列表return [(link["href"],link.get_text()) for link in links]if __name__ == '__main__':for result in parse(craw(urls[2])):print(result)

import randomfrom jinja2.utils import url_quoteimport part_1
import threading
import time
import requests
from bs4 import BeautifulSoup
import queue# 创建两个队列一个负责接受网页，一个负责接受网页解析下的元素
def do_craw(url_queue:queue.Queue,html_queue:queue.Queue):while True:# 队列的get方法，即出队，指向队首url = url_queue.get()# 捕获网页html = part_1.craw(url)# 队列的put方法即入列html_queue.put(html)# 打印相关日志print(threading.current_thread().name,f"craw{url}","url_queue.size = ",url_queue.qsize())time.sleep(random.randint(1,2))def do_parse(html_queue:queue.Queue,fout):while True:# 出队html = html_queue.get()# 队列的put方法即入列results = part_1.parse(html)for result in results:fout.write(str(result)+"\n")# 打印相关日志print(threading.current_thread().name,f"results.size",len(results),"html_queue_size=",html_queue.qsize())time.sleep(random.randint(1,2))if __name__ == '__main__':url_queue  = queue.Queue()html_queue = queue.Queue()for url in part_1.urls:url_queue.put((url))for idx in range(3):t = threading.Thread(target=do_craw,args=(url_queue,html_queue),name=f"craw{idx}")t.start()fout = open("spider_data.txt","w")for idx in range(2):t = threading.Thread(target=do_parse,args=(html_queue,fout),name=f"parse{idx}")t.start()

笔记

不知你还记不记得这样一个问题，小华煮饭花费20分钟，炒菜5分钟，洗菜5分钟，淘米5分钟，打扫卫生10分钟，问一共花费多长时间？通过这道题了解到，有时候我们可以’同时‘做多件事情。计算机也能将任务分解成多个小问题，花费更少的时间资源。

譬如

场景1：一个网络爬虫，顺序爬取一个网页花了一个小时，采用并发下载就减少到了20分钟。

场景2：一个应用软件优化前每次打开网页需要3秒，采用异步并发提升到了200毫秒。

假设一个工程的工作量为100，不采用并发编程就相当于由一个人去完成这个工作量为100的所有工作内容，可能需要1个小时来做完。

但是还是这工作量为100的工程，我们采用并发编程就相当于是由2个人或者3个人去共同完成这份100工作量的工作，可能这份工作只需要半个小时就能做完。

总之引入并发就相当于提升程序进行速度

进程、线程

概念

程序：程序是一系列按照特定顺序组织的计算机指令和数据的集合，这些指令和数据被设计用来执行特定的任务或解决特定的问题。程序是静态的，它存在于磁盘等存储介质上，等待被加载和执行。程序本身不占用系统的运行资源，如CPU、内存等

与进程和线程的关系‌：程序是进程和线程的基础，一个程序可以被多次加载和执行，形成多个进程或线程。我们下载好的软件是程序，当我们运行他时，创建了进程。

进程：进程是具有一定独立功能的程序在某个数据集合上的一次执行过程，是操作系统进行资源分配和保护的基本单位。进程赋予程序以生命活力，让静态的程序，变得动态起来。进程具有动态性，它拥有自己的地址空间、全局变量、文件句柄等资源，可以独立地执行程序中的指令。进程是系统资源分配和调度的基本单位，每个进程都有自己的生命周期，可以因创建而产生，因完成任务而被撤消。

‌与线程和程序的关系‌：进程是程序的一次执行过程，一个程序可以对应多个进程。同时，进程内部可以包含多个线程，这些线程共享进程的资源

线程：线程是进程中的一个执行单元，是操作系统能够进行运算调度的最小单位。线程共享进程的资源，如地址空间、全局变量等，但具有自己独立的栈、程序计数器以及局部变量等。线程可以并发执行，提高程序的执行效率。线程的切换比进程的切换更加快速和高效。

与进程和程序的关系‌：线程是进程中的一个执行路径，一个进程可以包含多个线程。线程是程序并发执行的基础，通过合理地使用线程，可以提高程序的响应速度、执行效率和资源利用率。