Python爬虫之使用celery加速爬虫

栏目: Python · 发布时间: 7年前

内容简介：celery是一个基于分布式消息传输的异步任务队列，它专注于实时处理，同时也支持任务调度。关于celery的更多介绍及例子，笔者可以参考文章本文将介绍如何使用celery来加速爬虫。本文爬虫的例子来自文章：

celery是一个基于分布式消息传输的异步任务队列，它专注于实时处理，同时也支持任务调度。关于celery的更多介绍及例子，笔者可以参考文章 Python之celery的简介与使用。

本文将介绍如何使用celery来加速爬虫。

本文爬虫的例子来自文章： Python爬虫的N种姿势。这里不再过多介绍，我们的项目结构如下：

Python爬虫之使用celery加速爬虫

其中，app_test.py为主程序，其代码如下：

from celery import Celery

app = Celery('proj', include=['proj.tasks'])
app.config_from_object('proj.celeryconfig')

if __name__ == '__main__':
    app.start()

tasks.py为任务函数，代码如下：

import re
import requests
from celery import group
from proj.app_test import app

@app.task(trail=True)
# 并行调用任务
def get_content(urls):
    return group(C.s(url) for url in urls)()

@app.task(trail=True)
def C(url):
    return parser.delay(url)

@app.task(trail=True)
# 获取每个网页的name和description
def parser(url):
    req = requests.get(url)
    html = req.text
    try:
        name = re.findall(r'<span class="wikibase-title-label">(.+?)</span>', html)[0]
        desc = re.findall(r'<span class="wikibase-descriptionview-text">(.+?)</span>', html)[0]
        if name is not None and desc is not None:
            return name, desc
    except Exception as  err:
        return '', ''

celeryconfig.py为celery的配置文件，代码如下：

BROKER_URL = 'redis://localhost' # 使用 Redis 作为消息代理

CELERY_RESULT_BACKEND = 'redis://localhost:6379/0' # 把任务结果存在了Redis

CELERY_TASK_SERIALIZER = 'msgpack' # 任务序列化和反序列化使用msgpack方案

CELERY_RESULT_SERIALIZER = 'json' # 读取任务结果一般性能要求不高，所以使用了可读性更好的JSON

CELERY_TASK_RESULT_EXPIRES = 60 * 60 * 24 # 任务过期时间

CELERY_ACCEPT_CONTENT = ['json', 'msgpack'] # 指定接受的内容类型

最后是我们的爬虫文件，scrapy.py，代码如下：

import time
import requests
from bs4 import BeautifulSoup
from proj.tasks import get_content

t1 = time.time()

url = "http://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&limit=500&from=0"
# 请求头部
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, \
            like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
# 发送HTTP请求
req = requests.get(url, headers=headers)
# 解析网页
soup = BeautifulSoup(req.text, "lxml")
# 找到name和Description所在的记录
human_list = soup.find(id='mw-whatlinkshere-list')('li')

urls = []
# 获取网址
for human in human_list:
    url = human.find('a')['href']
    urls.append('https://www.wikidata.org'+url)

#print(urls)

# 调用get_content函数，并获取爬虫结果
result = get_content.delay(urls)

res = [v for v in result.collect()]

for r in res:
    if isinstance(r[1], list) and isinstance(r[1][0], str):
        print(r[1])


t2 = time.time() # 结束时间
print('耗时：%s' % (t2 - t1))

在后台启动redis，并切换至proj项目所在目录，运行命令：

celery -A proj.app_test worker -l info

输出结果如下(只显示最后几行的输出)：

......
['Antoine de Saint-Exupery', 'French writer and aviator']
['', '']
['Sir John Barrow, 1st Baronet', 'English statesman']
['Amy Johnson', 'pioneering English aviator']
['Mike Oldfield', 'English musician, multi-instrumentalist']
['Willoughby Newton', 'politician from Virginia, USA']
['Mack Wilberg', 'American conductor']
耗时：80.05160284042358

在rdm中查看数据，如下：

Python爬虫之使用celery加速爬虫

在文章 Python爬虫的N种姿势中，我们已经知道，如果用一般的方法来实现这个爬虫，耗时大约为725秒，而我们使用celery，一共耗时约80秒，大概相当于一般方法的九分之一。虽然没有scrapy这个爬虫框架和异步框架aiohttp, asyncio来的快，但这也可以作为一种爬虫的思路。

本次分享到此结束，感谢阅读~

注意：本人现已开通微信公众号： Python爬虫与算法（微信号为：easy_web_scrape），欢迎大家关注哦~~

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

图解物联网

［日］ NTT DATA集团、河村雅人、大塚纮史、小林佑辅、小山武士、宫崎智也、石黑佑树、小岛康平 / 丁　灵 / 人民邮电出版社 / 2017-4 / 59.00元

本书图例丰富，从设备、传感器及传输协议等构成IoT的技术要素讲起，逐步深入讲解如何灵活运用IoT。内容包括用于实现IoT的架构、传感器的种类及能从传感器获取的信息等，并介绍了传感设备原型设计必需的Arduino等平台及这些平台的选择方法，连接传感器的电路，传感器的数据分析，乃至IoT跟智能手机/可穿戴设备的联动等。此外，本书以作者们开发的IoT系统为例，讲述了硬件设置、无线通信及网络安全等运用Io......一起来看看《图解物联网》这本书的介绍吧!

码农工具

Python爬虫之使用celery加速爬虫

图解物联网

HTML 压缩/解压工具

JSON 在线解析

正则表达式在线测试