码迷,mamicode.com
首页 > 系统相关 > 详细

实现多进程爬虫的数据抓取

时间:2017-11-10 11:01:24      阅读:320      评论:0      收藏:0      [点我收藏+]

标签:函数返回   lin   映射   log   imp   ble   使用   自动分配   cti   

要实现多进程爬虫的数据抓取,要用到库multiprocessing并导入Pool:

from multiprocessing import Pool

接着导入进程池

pool = Pool(processes = 4)  #processes后接打开进程的数,与电脑核数有关,不加即自动分配。
pool.map(get_all_links_from,channel_list.split())

所有的程序会被放到进程池Pool()中并分配CPU。

此处用到了map函数,map函数会根据提供的函数对指定序列做映射。第一个参数 function 以参数序列中的每一个元素调用 function 函数,返回包含每次 function 函数返回值的新列表。举例说明如下:

print(list(map(double,[1,2,3,4])))
#[2,4,6,8]

以上即调用多进程,重点为Pool函数的使用。

实现多进程爬虫的数据抓取

标签:函数返回   lin   映射   log   imp   ble   使用   自动分配   cti   

原文地址:http://www.cnblogs.com/zjlbupt/p/7813121.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!