python多任务笔记
多任务介绍
在现实生活中,有很多的场景中的事情是同时进行的,比如跳舞和唱歌是同时进行的。
在程序中,可以使用代码来模拟唱歌和跳舞的功能:
from time
import sleep
def sing():
for i
in range(
3):
print(
"正在唱歌...%d"%i)
sleep(
1)
def dance():
for i
in range(
3):
print(
"正在跳舞...%d"%i)
sleep(
1)
if __name__ ==
'__main__':
sing()
#唱歌
dance()
#跳舞
- 很显然刚刚的程序并没有完成唱歌和跳舞同时进行的要求
- 如果想要实现“唱歌跳舞”同时进行,那么就需要一个新的方法,叫做:多任务
多任务概念
什么叫“多任务”呢?简单地说,就是操作系统可以同时运行多个任务。打个比方,你一边在用浏览器上网,一边在听MP3,一边在用Word赶作业,这就是多任务,至少同时有3个任务正在运行。还有很多任务悄悄地在后台同时运行着,只是桌面上没有显示而已。
现在,多核CPU已经非常普及了,但是,即使过去的单核CPU,也可以执行多任务。由于CPU执行代码都是顺序执行的,那么,单核CPU是怎么执行多任务的呢?
答案就是操作系统轮流让各个任务交替执行,任务1执行0.01秒,切换到任务2,任务2执行0.01秒,再切换到任务3,执行0.01秒……这样反复执行下去。表面上看,每个任务都是交替执行的,但是,由于CPU的执行速度实在是太快了,我们感觉就像所有任务都在同时执行一样。
真正的并行执行多任务只能在多核CPU上实现,但是,由于任务数量远远多于CPU的核心数量,所以,操作系统也会自动把很多任务轮流调度到每个核心上执行。
对于操作系统来说,一个任务就是一个进程(Process),比如打开一个浏览器就是启动一个浏览器进程,打开一个记事本就启动了一个记事本进程,打开两个记事本就启动了两个记事本进程,打开一个Word就启动了一个Word进程。
有些进程还不止同时干一件事,比如Word,它可以同时进行打字、拼写检查、打印等事情。在一个进程内部,要同时干多件事,就需要同时运行多个“子任务”,我们把进程内的这些“子任务”称为线程(Thread)。
由于每个进程至少要干一件事,所以,一个进程至少有一个线程。当然,像Word这种复杂的进程可以有多个线程,多个线程可以同时执行,多线程的执行方式和多进程是一样的,也是由操作系统在多个线程之间快速切换,让每个线程都短暂地交替运行,看起来就像同时执行一样。当然,真正地同时执行多线程需要多核CPU才可能实现。
我们前面编写的所有的Python程序,都是执行单任务的进程,也就是只有一个线程。如果我们要同时执行多个任务怎么办?
有两种解决方案:
一种是启动多个进程,每个进程虽然只有一个线程,但多个进程可以一块执行多个任务。
还有一种方法是启动一个进程,在一个进程内启动多个线程,这样,多个线程也可以一块执行多个任务。
当然还有第三种方法,就是启动多个进程,每个进程再启动多个线程,这样同时执行的任务就更多了,当然这种模型更复杂,实际很少采用。
总结一下就是,多任务的实现有3种方式:
- 多进程模式;
- 多线程模式;
- 多进程+多线程模式。
注意:
- 并发:指的是任务数多余cpu核数,通过操作系统的各种任务调度算法,实现用多个任务“一起”执行(实际上总有一些任务不在执行,因为切换任务的速度相当快,看上去一起执行而已)
- 并行:指的是任务数小于等于cpu核数,即任务真的是一起执行的。
线程访问全局变量
import threading
g_num =
0def test(n):
global g_num
for x
in range(n):
g_num += x
g_num -= x
print(g_num)
if __name__ ==
'__main__':
t1 = threading.Thread(target=test, args=(
10,))
t2 = threading.Thread(target=test, args=(
10,))
t1.start()
t2.start()
在一个进程内的所有线程共享全局变量,很方便在多个线程间共享数据。缺点就是,线程是对全局变量随意遂改可能造成多线程之间对全局变量的混乱(即线程非安全)。
线程的安全问题
import threading
import time
ticket =
20
def sell_ticket():
global ticket
while
True:
if ticket >
0:
time.sleep(
0.5)
ticket -=
1
print(
'{}卖了一张票,还剩{}'.format(threading.current_thread().name, ticket))
else:
print(
'{}票卖完了'.format(threading.current_thread().name))
break
for i
in range(
5):
t = threading.Thread(target=sell_ticket, name=
'thread-{}'.format(i +
1))
t.start()
同步
当多个线程几乎同时修改某一个共享数据的时候,需要进行同步控制。同步就是协同步调,按预定的先后次序进行运行。线程同步能够保证多个线程安全访问竞争资源,最简单的同步机制是引入互斥锁。
互斥锁
互斥锁为资源引入一个状态:锁定/非锁定
某个线程要更改共享数据时,先将其锁定,此时资源的状态为“锁定”,其他线程不能更改;直到该线程释放资源,将资源的状态变成“非锁定”,其他的线程才能再次锁定该资源。互斥锁保证了每次只有一个线程进行写入操作,从而保证了多线程情况下数据的正确性。
threading模块中定义了Lock类,可以方便的处理锁定:
# 创建锁
mutex = threading.Lock()
# 锁定
mutex.acquire()
# 释放
mutex.release()
注意:
- 如果这个锁之前是没有上锁的,那么acquire不会堵塞
如果在调用acquire对这个锁上锁之前 它已经被 其他线程上了锁,那么此时acquire会堵塞,直到这个锁被解锁为止。
和文件操作一样,Lock也可以使用with语句快速的实现打开和关闭操作。
使用互斥锁解决卖票问题
import threading
import time
ticket =
20
lock = threading.Lock()
def sell_ticket():
global ticket
while
True:
lock.acquire()
if ticket >
0:
time.sleep(
0.5)
ticket -=
1
lock.release()
print(
'{}卖了一张票,还剩{}'.format(threading.current_thread().name, ticket))
else:
print(
'{}票卖完了'.format(threading.current_thread().name))
lock.release()
break
for i
in range(
5):
t = threading.Thread(target=sell_ticket, name=
'thread-{}'.format(i +
1))
t.start()
上锁过程:
当一个线程调用锁的acquire()方法获得锁时,锁就进入“locked”状态。
每次只有一个线程可以获得锁。如果此时另一个线程试图获得这个锁,该线程就会变为“blocked”状态,称为“阻塞”,直到拥有锁的线程调用锁的release()方法释放锁之后,锁进入“unlocked”状态。
线程调度程序从处于同步阻塞状态的线程中选择一个来获得锁,并使得该线程进入运行(running)状态。
总结
锁的好处:
- 确保了某段关键代码只能由一个线程从头到尾完整地执行
锁的坏处:
- 阻止了多线程并发执行,包含锁的某段代码实际上只能以单线程模式执行,效率就大大地下降了。
- 由于可以存在多个锁,不同的线程持有不同的锁,并试图获取对方持有的锁时,可能会造成死锁。
线程间通信
线程之间有时需要通信,操作系统提供了很多机制来实现进程间的通信,其中我们使用最多的是队列Queue.
Queue的原理
Queue是一个先进先出(First In First Out)的队列,主进程中创建一个Queue对象,并作为参数传入子进程,两者之间通过put( )放入数据,通过get( )取出数据,执行了get( )函数之后队列中的数据会被同时删除,可以使用multiprocessing模块的Queue实现多进程之间的数据传递。
import threading
import time
from queue
import Queue
def producer(queue):
for i
in range(
100):
print(
'{}存入了{}'.format(threading.current_thread().name, i))
queue.put(i)
time.sleep(
0.1)
return
def consumer(queue):
for x
in range(
100):
value = queue.get()
print(
'{}取到了{}'.format(threading.current_thread().name, value))
time.sleep(
0.1)
if
not value:
return
if __name__ ==
'__main__':
queue = Queue()
t1 = threading.Thread(target=producer, args=(queue,))
t2 = threading.Thread(target=consumer, args=(queue,))
t3 = threading.Thread(target=consumer, args=(queue,))
t4 = threading.Thread(target=consumer, args=(queue,))
t6 = threading.Thread(target=consumer, args=(queue,))
t1.start()
t2.start()
t3.start()
t4.start()
t6.start()
多线程版聊天
import socket
import threading
s = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
s.bind(('0.0.0.0', 8080))
def send_msg():
ip = input('请输入您要聊天的ip:')
port = int(input('请输入对方的端口号:'))
while True:
msg = input('请输入聊天内容:')
s.sendto(msg.encode('utf-8'), (ip, port))
if msg == "bye":
ip = input('请输入您要聊天的ip:')
port = int(input('请输入对方的端口号:'))
def recv_msg():
while True:
content, addr = s.recvfrom(1024)
print('接收到了{}主机{}端口的消息:{}'.format(addr[0], addr[1], content.decode('utf-8')),file=open('history.txt', 'a', encoding='utf-8'))
send_thread = threading.Thread(target=send_msg)
recv_thread = threading.Thread(target=recv_msg)
send_thread.start()
recv_thread.start()
进程
程序:例如xxx.py这是程序,是一个静态的。
进程:一个程序运行起来后,代码+用到的资源 称之为进程,它是操作系统分配资源的基本单元。
不仅可以通过线程完成多任务,进程也是可以的。
进程的状态
工作中,任务数往往大于cpu的核数,即一定有一些任务正在执行,而另外一些任务在等待cpu进行执行,因此导致了有了不同的状态。
- 就绪态:运行的条件都已经满足,正在等在cpu执行。
- 执行态:cpu正在执行其功能。
- 等待态:等待某些条件满足,例如一个程序sleep了,此时就处于等待态。
创建进程
multiprocessing模块就是跨平台版本的多进程模块,提供了一个Process类来代表一个进程对象,这个对象可以理解为是一个独立的进程,可以执行另外的事情。
示例:创建一个进程,执行两个死循环。
from multiprocessing
import Process
import time
def run_proc():
"""子进程要执行的代码"""
while
True:
print(
"----2----")
time.sleep(
1)
if __name__==
'__main__':
p = Process(target=run_proc)
p.start()
while
True:
print(
"----1----")
time.sleep(
1)
说明
- 创建子进程时,只需要传入一个执行函数和函数的参数,创建一个Process实例,用start()方法启动
方法说明
Process( target [, name [, args [, kwargs]]])
- target:如果传递了函数的引用,可以任务这个子进程就执行这里的代码
- args:给target指定的函数传递的参数,以元组的方式传递
- kwargs:给target指定的函数传递命名参数
- name:给进程设定一个名字,可以不设定
Process创建的实例对象的常用方法:
- start():启动子进程实例(创建子进程)
- is_alive():判断进程子进程是否还在活着
- join([timeout]):是否等待子进程执行结束,或等待多少秒
- terminate():不管任务是否完成,立即终止子进程
Process创建的实例对象的常用属性:
- name:当前进程的别名,默认为Process-N,N为从1开始递增的整数
- pid:当前进程的pid(进程号)
示例:
from multiprocessing
import Process
import os
from time
import sleep
def run_proc(name, age, **kwargs):
for i
in range(
10):
print(
'子进程运行中,name= %s,age=%d ,pid=%d...' % (name, age, os.getpid()))
print(kwargs)
sleep(
0.2)
if __name__==
'__main__':
p = Process(target=run_proc, args=(
'test',
18), kwargs={
"m":
20})
p.start()
sleep(
1)
# 1秒中之后,立即结束子进程
p.terminate()
p.join()
Pool
开启过多的进程并不能提高你的效率,反而会降低你的效率,假设有500个任务,同时开启500个进程,这500个进程除了不能一起执行之外(cpu没有那么多核),操作系统调度这500个进程,让他们平均在4个或8个cpu上执行,这会占用很大的空间。
如果要启动大量的子进程,可以用进程池的方式批量创建子进程:
def task(n):
print(
'{}----->start'.format(n))
time.sleep(
1)
print(
'{}------>end'.format(n))
if __name__ ==
'__main__':
p = Pool(
8)
# 创建进程池,并指定线程池的个数,默认是CPU的核数
for i
in range(
1,
11):
# p.apply(task, args=(i,)) # 同步执行任务,一个一个的执行任务,没有并发效果
p.apply_async(task, args=(i,))
# 异步执行任务,可以达到并发效果
p.close()
p.join()
进程池获取任务的执行结果:
def task(n):
print(
'{}----->start'.format(n))
time.sleep(
1)
print(
'{}------>end'.format(n))
return n **
2
if __name__ ==
'__main__':
p = Pool(
4)
for i
in range(
1,
11):
res = p.apply_async(task, args=(i,))
# res 是任务的执行结果
print(res.get())
# 直接获取结果的弊端是,多任务又变成同步的了
p.close()
# p.join() 不需要再join了,因为 res.get()本身就是一个阻塞方法
异步获取线程的执行结果:
import time
from multiprocessing.pool
import Pool
def task(n):
print(
'{}----->start'.format(n))
time.sleep(
1)
print(
'{}------>end'.format(n))
return n **
2
if __name__ ==
'__main__':
p = Pool(
4)
res_list = []
for i
in range(
1,
11):
res = p.apply_async(task, args=(i,))
res_list.append(res)
# 使用列表来保存进程执行结果
for re
in res_list:
print(re.get())
p.close()
进程间不能共享全局变量
from multiprocessing
import Process
import os
nums = [
11,
22]
def work1():
"""子进程要执行的代码"""
print(
"in process1 pid=%d ,nums=%s" % (os.getpid(), nums))
for i
in range(
3):
nums.append(i)
print(
"in process1 pid=%d ,nums=%s" % (os.getpid(), nums))
def work2():
"""子进程要执行的代码"""
nums.pop()
print(
"in process2 pid=%d ,nums=%s" % (os.getpid(), nums))
if __name__ ==
'__main__':
p1 = Process(target=work1)
p1.start()
p1.join()
p2 = Process(target=work2)
p2.start()
print(
'in process0 pid={} ,nums={}'.format(os.getpid(),nums))
运行结果:
in process1 pid=
2707 ,nums=[
11,
22]
in process1 pid=
2707 ,nums=[
11,
22,
0]
in process1 pid=
2707 ,nums=[
11,
22,
0,
1]
in process1 pid=
2707 ,nums=[
11,
22,
0,
1,
2]
in process0 pid=
2706 ,nums=[
11,
22]
in process2 pid=
2708 ,nums=[
11]
线程和进程
功能
- 进程,能够完成多任务,比如 在一台电脑上能够同时运行多个QQ。
- 线程,能够完成多任务,比如 一个QQ中的多个聊天窗口。
定义的不同
- 进程是系统进行资源分配和调度的一个独立单位.
- 线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它可与同属一个进程的其他的线程共享进程所拥有的全部资源。
区别
- 一个程序至少有一个进程,一个进程至少有一个线程.
- 线程的划分尺度小于进程(资源比进程少),使得多线程程序的并发性高。
- 进程在执行过程中拥有独立的内存单元,而多个线程共享内存,从而极大地提高了程序的运行效率
- 线线程不能够独立执行,必须依存在进程中
- 可以将进程理解为工厂中的一条流水线,而其中的线程就是这个流水线上的工人
优缺点
线程和进程在使用上各有优缺点:线程执行开销小,但不利于资源的管理和保护;而进程正相反。
进程间通信-Queue
from multiprocessing
import Queue
q=Queue(
3)
#初始化一个Queue对象,最多可接收三条put消息
q.put(
"消息1")
q.put(
"消息2")
print(q.full())
#False
q.put(
"消息3")
print(q.full())
#True
#因为消息列队已满下面的try都会抛出异常,第一个try会等待2秒后再抛出异常,第二个Try会立刻抛出异常try:
q.put(
"消息4",
True,
2)
except:
print(
"消息列队已满,现有消息数量:%s"%q.qsize())
try:
q.put_nowait(
"消息4")
except:
print(
"消息列队已满,现有消息数量:%s"%q.qsize())
#推荐的方式,先判断消息列队是否已满,再写入if
not q.full():
q.put_nowait(
"消息4")
#读取消息时,先判断消息列队是否为空,再读取if
not q.empty():
for i
in range(q.qsize()):
print(q.get_nowait())
说明
初始化Queue()对象时(例如:q=Queue()),若括号中没有指定最大可接收的消息数量,或数量为负值,那么就代表可接受的消息数量没有上限(直到内存的尽头);
- Queue.qsize():返回当前队列包含的消息数量;
- Queue.empty():如果队列为空,返回True,反之False ;
- Queue.full():如果队列满了,返回True,反之False;
- Queue.get([block[, timeout]]):获取队列中的一条消息,然后将其从列队中移除,block默认值为True;
1)如果block使用默认值,且没有设置timeout(单位秒),消息列队如果为空,此时程序将被阻塞(停在读取状态),直到从消息列队读到消息为止,如果设置了timeout,则会等待timeout秒,若还没读取到任何消息,则抛出"Queue.Empty"异常;
2)如果block值为False,消息列队如果为空,则会立刻抛出"Queue.Empty"异常;
- Queue.get_nowait():相当Queue.get(False);
- Queue.put(item,[block[, timeout]]):将item消息写入队列,block默认值为True;
1)如果block使用默认值,且没有设置timeout(单位秒),消息列队如果已经没有空间可写入,此时程序将被阻塞(停在写入状态),直到从消息列队腾出空间为止,如果设置了timeout,则会等待timeout秒,若还没空间,则抛出"Queue.Full"异常;
2)如果block值为False,消息列队如果没有空间可写入,则会立刻抛出"Queue.Full"异常;
- Queue.put_nowait(item):相当Queue.put(item, False);
使用Queue实现进程共享
我们以Queue为例,在父进程中创建两个子进程,一个往Queue里写数据,一个从Queue里读数据:
from multiprocessing
import Process, Queue
import os, time, random
# 写数据进程执行的代码:def write(q):
for value
in [
'A',
'B',
'C']:
print(
'Put %s to queue...' % value)
q.put(value)
time.sleep(random.random())
# 读数据进程执行的代码:def read(q):
while
True:
if
not q.empty():
value = q.get(
True)
print(
'Get %s from queue.' % value)
time.sleep(random.random())
else:
break
if __name__==
'__main__':
# 父进程创建Queue,并传给各个子进程:
q = Queue()
pw = Process(target=write, args=(q,))
pr = Process(target=read, args=(q,))
# 启动子进程pw,写入:
pw.start()
# 等待pw结束:
pw.join()
# 启动子进程pr,读取:
pr.start()
pr.join()
print(
'所有数据都写入并且读完')
进程池
当需要创建的子进程数量不多时,可以直接利用multiprocessing中的Process动态成生多个进程,但如果是上百甚至上千个目标,手动的去创建进程的工作量巨大,此时就可以用到multiprocessing模块提供的Pool方法。
初始化Pool时,可以指定一个最大进程数,当有新的请求提交到Pool中时,如果池还没有满,那么就会创建一个新的进程用来执行该请求;但如果池中的进程数已经达到指定的最大值,那么该请求就会等待,直到池中有进程结束,才会用之前的进程来执行新的任务,请看下面的实例:
from multiprocessing
import Pool
import os, time, random
def worker(msg):
t_start = time.time()
print(
"%s开始执行,进程号为%d" % (msg,os.getpid()))
# random.random()随机生成0~1之间的浮点数
time.sleep(random.random()*
2)
t_stop = time.time()
print(msg,
"执行完毕,耗时%0.2f" % (t_stop-t_start))
po = Pool(
3)
# 定义一个进程池,最大进程数3for i
in range(
0,
10):
# Pool().apply_async(要调用的目标,(传递给目标的参数元祖,))
# 每次循环将会用空闲出来的子进程去调用目标
po.apply_async(worker,(i,))
print(
"----start----")
po.close()
# 关闭进程池,关闭后po不再接收新的请求
po.join()
# 等待po中所有子进程执行完成,必须放在close语句之后
print(
"-----end-----")
运行效果:
----start----
0开始执行,进程号为
214661开始执行,进程号为
214682开始执行,进程号为
214670
执行完毕,耗时
1.013开始执行,进程号为
214662
执行完毕,耗时
1.244开始执行,进程号为
214673
执行完毕,耗时
0.565开始执行,进程号为
214661
执行完毕,耗时
1.686开始执行,进程号为
214684
执行完毕,耗时
0.677开始执行,进程号为
214675
执行完毕,耗时
0.838开始执行,进程号为
214666
执行完毕,耗时
0.759开始执行,进程号为
214687
执行完毕,耗时
1.038
执行完毕,耗时
1.059
执行完毕,耗时
1.69
-----end-----
multiprocessing.Pool常用函数解析:
- apply_async(func[, args[, kwds]]) :使用非阻塞方式调用func(并行执行,堵塞方式必须等待上一个进程退出才能执行下一个进程),args为传递给func的参数列表,kwds为传递给func的关键字参数列表;
- close():关闭Pool,使其不再接受新的任务;
- terminate():不管任务是否完成,立即终止;
- join():主进程阻塞,等待子进程的退出, 必须在close或terminate之后使用;
进程池中的Queue
如果要使用Pool创建进程,就需要使用multiprocessing.Manager()中的Queue(),而不是multiprocessing.Queue(),否则会得到一条如下的错误信息:
RuntimeError: Queue objects should only be shared between processes through inheritance.
下面的实例演示了进程池中的进程如何通信:
# 修改import中的Queue为Managerfrom multiprocessing
import Manager, Pool
import os, time, random
def reader(q):
print(
"reader启动(%s),父进程为(%s)" % (os.getpid(), os.getppid()))
for i
in range(q.qsize()):
print(
"reader从Queue获取到消息:%s" % q.get(
True))
def writer(q):
print(
"writer启动(%s),父进程为(%s)" % (os.getpid(), os.getppid()))
for i
in
"helloworld":
q.put(i)
if __name__ ==
"__main__":
print(
"(%s) start" % os.getpid())
q = Manager().Queue()
# 使用Manager中的Queue
po = Pool()
po.apply_async(writer, (q,))
time.sleep(
1)
# 先让上面的任务向Queue存入数据,然后再让下面的任务开始从中取数据
po.apply_async(reader, (q,))
po.close()
po.join()
print(
"(%s) End" % os.getpid())
运行结果:
(
4171) start
writer
启动(
4173),
父进程为(
4171)
reader
启动(
4174),
父进程为(
4171)
reader
从Queue获取到消息:h
reader
从Queue获取到消息:e
reader
从Queue获取到消息:l
reader
从Queue获取到消息:l
reader
从Queue获取到消息:o
reader
从Queue获取到消息:w
reader
从Queue获取到消息:o
reader
从Queue获取到消息:r
reader
从Queue获取到消息:l
reader
从Queue获取到消息:d
(
4171) End