golang 制作通用爬虫框架

栏目: Go · 发布时间: 7年前

内容简介：自己之前是一个iOS的小工，后来又去后台搬砖。一直准备做一个iOS优质文章的聚合，每天定向爬取大V们的博客。所以就萌生了尝试打造一个通用爬虫框架的想法。加上近期开始golang的学习，所以选择使用go来写。各章内容总结的比较粗糙，有什么问题，欢迎交流，欢迎各位大佬来喷。

golang 制作通用爬虫框架

一、背景

自己之前是一个iOS的小工，后来又去后台搬砖。

一直准备做一个iOS优质文章的聚合，每天定向爬取大V们的博客。所以就萌生了尝试打造一个通用爬虫框架的想法。加上近期开始golang的学习，所以选择使用 go 来写。

各章内容总结的比较粗糙，有什么问题，欢迎交流，欢迎各位大佬来喷。

传送门： julyT
介绍：详细描述

1.1 初识

我给它起名叫JulyT，目前0.1版本支持Xpath数据解析，批量任务并发。简单的规则编写。就可以完成定向数据的提取.

例如：实现抓取列表，再抓取列表页详情数据，接着翻页继续

func rule(node *Xpath.Node,spider *JulySpider.Spider)  {
	path := Xpath.MustCompile("//*[@id=\"archive-page\"]/section")
	it := path.Iter(node)

	for it.Next() {
			urlPath := Xpath.MustCompile("a/@href")
			url,_:= urlPath.String(it.Node())
        	//
			spider.RunNextStep("http://lastdays.cn"+url,analysisData)
			}
	fmt.Println("================一页数据==================")
	nextPath := Xpath.MustCompile("//*[@id=\"page-nav\"]/a[@class=\"extend next\"]/@href")
	if nextPath.Exists(node) {
		url,_ := nextPath.String(node)
		spider.RunNextStep("http://lastdays.cn"+url,rule)
	}
}

1.2 组件简介

1.2.1 任务池

为每一个爬虫实例提供独立的运行空间。自动调度，自动回收空闲任务节点，任务节点复用。提供最底层的任务环境

1.2.2 调度器

管理所有请求，实现请求优先级调度。过滤重复请求。

1.2.3 下载器

提供高并发的HTML下载。

1.2.4 引擎

处理数据流，控制各个模块之间的调度。监控所有请求流程

1.2.5 spider

爬虫实例，支持规则自定义。

1.3 结构图

golang 制作通用爬虫框架

1.4 总结

有很多优秀的开源的爬虫框架。自己造这个轮子的目的也是希望得到一些锻炼，JulyT还有很多需要修正改进的地方，我会持续更新这个玩具。目前还缺少一个输出组件，自定义输出规则。会在0.2版本中体现出来。欢迎大家来喷。

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

运营之光 2.0

黄有璨 / 电子工业出版社 / 2017-4 / 99

在互联网行业内，“运营”这个职能发展到一定阶段后，往往更需要有成熟的知识体系和工作方法来给予行业从业者以指引。《运营之光：我的互联网运营方法论与自白 2.0》尤其难得之处在于：它既对“什么是运营”这样的概念认知类问题进行了解读，又带有大量实际的工作技巧、工作思维和工作方法，还包含了很多对于运营的思考、宏观分析和建议，可谓内容完整而全面，同时书中加入了作者亲历的大量真实案例，让全书读起来深入......一起来看看《运营之光 2.0》这本书的介绍吧!

码农工具

golang 制作通用爬虫框架