golang 制作通用爬虫框架

栏目: Go · 发布时间: 6年前

内容简介:​ 自己之前是一个iOS的小工,后来又去后台搬砖。​ 一直准备做一个iOS优质文章的聚合,每天定向爬取大V们的博客。所以就萌生了尝试打造一个通用爬虫框架的想法。加上近期开始golang的学习,所以选择使用go来写。​ 各章内容总结的比较粗糙,有什么问题,欢迎交流,欢迎各位大佬来喷。

golang 制作通用爬虫框架

一、背景

​ 自己之前是一个iOS的小工,后来又去后台搬砖。

​ 一直准备做一个iOS优质文章的聚合,每天定向爬取大V们的博客。所以就萌生了尝试打造一个通用爬虫框架的想法。加上近期开始golang的学习,所以选择使用 go 来写。

​ 各章内容总结的比较粗糙,有什么问题,欢迎交流,欢迎各位大佬来喷。

1.1 初识

​ 我给它起名叫JulyT,目前0.1版本支持Xpath数据解析,批量任务并发。简单的规则编写。就可以完成定向数据的提取.

例如:实现抓取列表,再抓取列表页详情数据,接着翻页继续

func rule(node *Xpath.Node,spider *JulySpider.Spider)  {
	path := Xpath.MustCompile("//*[@id=\"archive-page\"]/section")
	it := path.Iter(node)

	for it.Next() {
			urlPath := Xpath.MustCompile("a/@href")
			url,_:= urlPath.String(it.Node())
        	//
			spider.RunNextStep("http://lastdays.cn"+url,analysisData)
			}
	fmt.Println("================一页数据==================")
	nextPath := Xpath.MustCompile("//*[@id=\"page-nav\"]/a[@class=\"extend next\"]/@href")
	if nextPath.Exists(node) {
		url,_ := nextPath.String(node)
		spider.RunNextStep("http://lastdays.cn"+url,rule)
	}
}

1.2 组件简介

1.2.1 任务池

​ 为每一个爬虫实例提供独立的运行空间。自动调度,自动回收空闲任务节点,任务节点复用。提供最底层的任务环境

1.2.2 调度器

​ 管理所有请求,实现请求优先级调度。过滤重复请求。

1.2.3 下载器

​ 提供高并发的HTML下载。

1.2.4 引擎

​ 处理数据流,控制各个模块之间的调度。监控所有请求流程

1.2.5 spider

​ 爬虫实例,支持规则自定义。

1.3 结构图

golang 制作通用爬虫框架

1.4 总结

​ 有很多优秀的开源的爬虫框架。自己造这个轮子的目的也是希望得到一些锻炼,JulyT还有很多需要修正改进的地方,我会持续更新这个玩具。目前还缺少一个输出组件,自定义输出规则。会在0.2版本中体现出来。欢迎大家来喷。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Computer Age Statistical Inference

Computer Age Statistical Inference

Bradley Efron、Trevor Hastie / Cambridge University Press / 2016-7-21 / USD 74.99

The twenty-first century has seen a breathtaking expansion of statistical methodology, both in scope and in influence. 'Big data', 'data science', and 'machine learning' have become familiar terms in ......一起来看看 《Computer Age Statistical Inference》 这本书的介绍吧!

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具