简简单单小练习
1.线程的并发执行
import threading
import time# 创建要执行的两个函数
def print_hello():for _ in range(10):print("hello")time.sleep(1)def print_world():for _ in range(10):print("world")time.sleep(1)# 创建线程对象 注意这里要写函数名,不能调用函数
thread_hello = threading.Thread(target=print_hello)
thread_world = threading.Thread(target=print_world)# 开始进行线程
thread_hello.start()
thread_world.start()# 等待线程结束
thread_hello.join()
thread_world.join()
总结:
- 准备一个函数。
- 使用 import threading 创建一个线程对象 t 。
- 使用 t.start() 来启动线程。
- 使用 t.join() 来等待线程的结束.
2.单线程与多线程的比较
下面是一个简单的爬虫案例,我们之后将用单线程与多线程分别操作进行比较
import requestsurls = [f"https://www.cnblogs.com/#p{page}" for page in range(1,51)]def craw(url):r = requests.get(url)print(url,len(r.text))craw(urls[0])
import threading
import time
import requestsurls = [f"https://www.cnblogs.com/#p{page}" for page in range(1,51)]def craw(url):r = requests.get(url)print(url,len(r.text))# 这里由于列表在函数上面作为全局变量,故没使用参数
def single_thread():print("单线程函数开始")# 遍历每一个网页for url in urls:craw(url)print("single_thread end")def multi_thread():"""多进程函数这里是真正的多线程操作之前的是通过休眠来模拟:return:"""print("multi_thread begin")# 创建空列表接受线程threads = []# 将创建的多个线程对象存入列表中for url in urls:threads.append(threading.Thread(target=craw,args=(url,)))# 启动线程for thread in threads:thread.start()# 等待线程结束for thread in threads:thread.join()print("multi_thread end")# 确定作为主程序执行
if __name__ == '__main__':# 建立时间标记start = time.time()single_thread()end = time.time()print(f"单线程需要{end - start}秒")start = time.time()multi_thread()end = time.time()print(f"多线程需要{end - start}秒")
multi_thread begin
单线程需要6.053725004196167秒
single_thread endmulti_thread begin多线程需要0.2576422691345215秒
multi_thread end
从结果来看多线程的确能缩短进程所需时间,但面对大数据这些还是不够看,这时就要请出消费者生产者模型,简单来说就是边查边处理数据
import threading
import time
import requests
from bs4 import BeautifulSoup# 创建网址列表urls = [(f"https://www.cnblogs.com/#p{page}") for page in range(1,51)]# 生产者获取网址元素
def craw(url):r = requests.get(url)return r.text# 消费者将获取到的元素计算
def parse(html):# html时指定的对象 html.parser是指定的解析器soup = BeautifulSoup(html,"html.parser")#这里使用BS的方法根据关键字类查找信息links = soup.find_all("a",class_ = "post-item-title")# 返回解析的列表return [(link["href"],link.get_text()) for link in links]if __name__ == '__main__':for result in parse(craw(urls[2])):print(result)
这里我们利用之前学的模块在新的python文件内实现
import threading
import time
import requests
from bs4 import BeautifulSoup# 创建网址列表urls = [(f"https://www.cnblogs.com/#p{page}") for page in range(1,51)]# 生产者获取网址元素
def craw(url):r = requests.get(url)return r.text# 消费者将获取到的元素计算
def parse(html):# html时指定的对象 html.parser是指定的解析器soup = BeautifulSoup(html,"html.parser")#这里使用BS的方法根据关键字类查找信息links = soup.find_all("a",class_ = "post-item-title")# 返回解析的列表return [(link["href"],link.get_text()) for link in links]if __name__ == '__main__':for result in parse(craw(urls[2])):print(result)
import randomfrom jinja2.utils import url_quoteimport part_1
import threading
import time
import requests
from bs4 import BeautifulSoup
import queue# 创建两个队列一个负责接受网页,一个负责接受网页解析下的元素
def do_craw(url_queue:queue.Queue,html_queue:queue.Queue):while True:# 队列的get方法,即出队,指向队首url = url_queue.get()# 捕获网页html = part_1.craw(url)# 队列的put方法即入列html_queue.put(html)# 打印相关日志print(threading.current_thread().name,f"craw{url}","url_queue.size = ",url_queue.qsize())time.sleep(random.randint(1,2))def do_parse(html_queue:queue.Queue,fout):while True:# 出队html = html_queue.get()# 队列的put方法即入列results = part_1.parse(html)for result in results:fout.write(str(result)+"\n")# 打印相关日志print(threading.current_thread().name,f"results.size",len(results),"html_queue_size=",html_queue.qsize())time.sleep(random.randint(1,2))if __name__ == '__main__':url_queue = queue.Queue()html_queue = queue.Queue()for url in part_1.urls:url_queue.put((url))for idx in range(3):t = threading.Thread(target=do_craw,args=(url_queue,html_queue),name=f"craw{idx}")t.start()fout = open("spider_data.txt","w")for idx in range(2):t = threading.Thread(target=do_parse,args=(html_queue,fout),name=f"parse{idx}")t.start()
笔记
不知你还记不记得这样一个问题,小华煮饭花费20分钟,炒菜5分钟,洗菜5分钟,淘米5分钟,打扫卫生10分钟,问一共花费多长时间?通过这道题了解到,有时候我们可以’同时‘做多件事情。计算机也能将任务分解成多个小问题,花费更少的时间资源。
譬如
场景1:一个网络爬虫,顺序爬取一个网页花了一个小时,采用并发下载就减少到了20分钟。
场景2:一个应用软件优化前每次打开网页需要3秒,采用异步并发提升到了200毫秒。
假设一个工程的工作量为100,不采用并发编程就相当于由一个人去完成这个工作量为100的所有工作内容,可能需要1个小时来做完。
但是还是这工作量为100的工程,我们采用并发编程就相当于是由2个人或者3个人去共同完成这份100工作量的工作,可能这份工作只需要半个小时就能做完。
总之引入并发就相当于提升程序进行速度
进程、线程
概念
程序:程序是一系列按照特定顺序组织的计算机指令和数据的集合,这些指令和数据被设计用来执行特定的任务或解决特定的问题。程序是静态的,它存在于磁盘等存储介质上,等待被加载和执行。程序本身不占用系统的运行资源,如CPU、内存等
与进程和线程的关系:程序是进程和线程的基础,一个程序可以被多次加载和执行,形成多个进程或线程。我们下载好的软件是程序,当我们运行他时,创建了进程。
进程:进程是具有一定独立功能的程序在某个数据集合上的一次执行过程,是操作系统进行资源分配和保护的基本单位。进程赋予程序以生命活力,让静态的程序,变得动态起来。进程具有动态性,它拥有自己的地址空间、全局变量、文件句柄等资源,可以独立地执行程序中的指令。进程是系统资源分配和调度的基本单位,每个进程都有自己的生命周期,可以因创建而产生,因完成任务而被撤消。
与线程和程序的关系:进程是程序的一次执行过程,一个程序可以对应多个进程。同时,进程内部可以包含多个线程,这些线程共享进程的资源
线程:线程是进程中的一个执行单元,是操作系统能够进行运算调度的最小单位。线程共享进程的资源,如地址空间、全局变量等,但具有自己独立的栈、程序计数器以及局部变量等。线程可以并发执行,提高程序的执行效率。线程的切换比进程的切换更加快速和高效。
与进程和程序的关系:线程是进程中的一个执行路径,一个进程可以包含多个线程。线程是程序并发执行的基础,通过合理地使用线程,可以提高程序的响应速度、执行效率和资源利用率。
从终端输入tasklist后我们可以看到当前的进程
程序提速的方法(从进程与线程角度上说)
1.我们之前练习的代码多是按照顺序执行,即单线程执行的,比如一个线程执行开始后开始CPU【运算器和控制器】执行,之后进行IO操作,在IO完成之后CPU再次进行运算,也就是说在这个线程的执行过程中CPU与IO是不能同时工作的。
缺点:在整体时间上有些浪费,在CPU工作时,IO并不工作,如果他们能共同工作就好了。
2.多线程执行。从之前的导言里我们知道一段代码的执行是由最基本的单元线程来计算的。可不可以分配好任务让多个线程同时运行呢?答案是肯定的。
此时情况为在CPU工作时,IO同样能进行。CPU进行工作,当运行到IO操作后,此时就会有一个新的task去执行IO操作,CPU也可以继续执行自己的运算,当IO完成后也会通知CPU进行下一步的处理。就像电饭煲专门负责做饭,需要大量蒸饭时,煤气灶不影响微波炉运转,同时也能蒸饭。
注意:CPU运算与IO操作,这两个是可以同时并行执行的,也就是说在IO读取内存磁盘的时候,这个过程是不需要CPU参与的,CPU与IO可以同时处理自己工作,这相对于单线程串行来说就实现了并行的加速效果,更加合理的利用了时间资源。
3.多cpu执行。多这种多核CPU多条线同时处理我们的程序,这种并行的方式才是真正的并发。就像多个厨师,可运用多个灶台,主要解决需要大量计算操作的问题。
Python对并发编程的支持
- 多线程:threading模块,利用CPU和IO可以同时执行的原理,让CPU不会干巴巴的等待IO完成。
- 多进程:multiprocessing模块,利用多核CPU的能力,真正的并行执行任务。
- 异步IO:asyncio模块,在单线程中利用CPU和IO同时执行的原理,实现函数异步执行。
Python还提供了辅助这些模块的函数:
- 多线程与多进程同时访问同一个文件同时写入的话就会冲突,可以使用Python提供的Lock来对资源进行加锁,防止冲突访问,就能实现顺序访问同一个文件。
- 使用Queue模块(队列)实现不同线程/进程之间的数据通信,实现生产者-消费者模式,比如实现一个生产者消费者模式来改造爬虫,生产者一边爬取,消费者就一边解析。
- 使用线程池/进程池,简化线程/进程的任务提交,等待结束,获取结果。
- 使用subprocess启动外部程序的进程,并进行输入输出交互。
Python怎样选择多线程,多进程与多协程
什么是CPU密集型计算,IO密集型计算
CPU密集型其实就是你程序的运行最终会受到CPU的限制,CPU是你程序运行的瓶颈,IO密集型则是你程序的运行最终会受到IO的限制,IO是你程序运行的瓶颈。
CPU密集型(CPU-bound):
CPU密集型也叫计算密集型,是指IO操作在很短的时间内就能完成,CPU需要大量的计算和处理,而并不需要频繁的磁盘读写,网络传输等操作,特点是CPU占用率相当高。
例如:加密解密,图像处理,科学计算等需要大量的CPU运算能力以及较少的IO操作等任务。
并行优势:【多进程】CPU密集型任务可以通过并行在不同的处理器核心上同时执行提高性能。
IO密集型(IO-bound):
IO密集型指的是系统运作大部分的状况是CPU在等IO(硬盘/内存)的读/写操作,CPU占用率低,不需要CPU进行大量的运算,CPU大部分时间通常是在等待IO操作的完成。
例如:文件处理程序,读写程序库程序,网络爬虫程序,用户输入等需要大量的IO操作而较少的CPU运算等任务。
并发优势:【多线程】IO密集型任务可以通过并发执行来提高效率,因为在等待一个IO操作完成时,CPU可以切换到另一个任务执行。
多线程,多进程与多协程的对比
多进程 Process(multiprocessing)
优点:可以利用多核CPU并行运算
缺点:占用资源最多,可启动数目比线程少,受CPU的限制
适用:CPU密集型计算,你比如自己使用IO读取了数据,然后需要在CPU上运行大量的次数和时间这个时候就可以使用进程process来实现
多线程 Thread(threading)
一个进程中可以启动N个线程
优点:相比进程,更加轻量级,占用资源少
缺点:相比进程:Python多线程只能并发执行,也就是说只能同时使用一个CPU,不能利用多CPU(因为一个叫GIL的东西)
相比协程:启动数目有限制,占用内存资源,有线程切换开销
适用:IO密集型计算,并且同时运行的任务数目要求不多
多协程 Coroutine(asyncio)
在单线程内通过协作方式切换执行任务,实现函数异步执行。
优点:内存开销最小,启动协程数量最多
缺点:支持的库有限制,代码实现复杂
怎样根据任务选择对应技术
拿到我们的任务后,首先分析我们的任务特点:
- 如果任务需要大量的CPU运算,那他就属于我们的CPU密集型,此时我们采用多进程multiprocessing来实现。
- 如果任务需要大量的IO操作,那他就属于我们的IO密集型了,此时我们应该采用多线程threading来实现或者多协程asyncio来实现。
对于多线程与多协程我们应该如何选择呢,一般如果我们符合以下三点,我们就会使用多协程来实现,否则就会采用多线程来实现
这三点分别是:
- 是否有超多任务量
- 是否有线程的协程库来支持
- 协程实现的复杂度是不是能够接受
如果这三点都能够满足,那么我们不妨尝试使用协程来实现我们的任务,因为我们的协程是一个新的技术,性能会最好。