手摸手教你用go写爬虫之三(单任务版爬虫1.0)

栏目: Go · 发布时间: 7年前

内容简介:本文介绍爬虫相关流程和搭建我们的需求分三步:step 1 从项目需求中可以分解出俩个信息 三步中均需要抓取 那么就要提供 url 三步中均需要解析 那么需要提供解析函数 func

本文介绍爬虫相关流程和搭建

1. 项目需求

我们的需求分三步:

  1. 从租房网站上获取到杭州市的所有区的链接和名称
  2. 根据每个区的链接抓取第一页列表内容,找到房屋的链接和名称
  3. 根据第2步中获取的链接,抓取对应的房屋的具体信息

2. 项目流程

step 1 从项目需求中可以分解出俩个信息 三步中均需要抓取 那么就要提供 url 三步中均需要解析 那么需要提供解析函数 func

每一步解析到的结果我们需要暂存下来,如果含有链接需要继续抓取 这里我们抽象出两个结构体

//请求结构体
type Request struct {
	Url string
	ParserFunc func(string) RequestResult
}

//结果解析结构体
type RequestResult struct {
	r []Request
	Items interface{}
}

step2 然后我们需要解析三个地方

. 获取杭州市的所有区域页面

func ParseArea(contents string)([]string){}

. 获取区域中第一页列表的页面

func ParseList(contents string)([]string,error){}

. 获取房屋详情的页面

func ParseHouse(contents string)([]string,error){}

step3 我们最终要存储的数据是房屋信息

type House struct {
    BuildingName string //小区名称
	PayType string  // 付3押1 
	UnitType string // 3室2厅2卫 
	Area int //面积
	Toword string // 朝向
	Loft string // 楼层
	Decorate string //装修
	HouseType string //类型: 普通住宅
	PublicTime string //发布时间
	Price float32 //租金
	HouseNo string //房屋编号
}

据此,我们得到一个简版的数据流程图和文件结构图

手摸手教你用 <a href='https://www.codercto.com/topics/6127.html'>go</a> 写爬虫之三(单任务版爬虫1.0)

github地址: house_spider 项目可能优化,可以根据提交记录查看


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

技术的本质

技术的本质

布莱恩•阿瑟(Brian Arthur) / 曹东溟、王健 / 浙江人民出版社 / 2014-4-1 / 62.90

★《技术的本质》是复杂性科学奠基人、首屈一指的技术思想家、“熊彼特奖”得主布莱恩•阿瑟所创建的一套关于技术产生和进化的系统性理论,本书是打开“技术黑箱”的钥匙,它用平实的语言将技术最本质的思想娓娓道来。 ★技术,是一个异常美丽的主题,它不动声色地创造了我们的财富,成就了经济的繁荣,改变了我们存在的方式。尽管技术如此重要,却少有人在快节奏的生活中停下来深入思考技术。我们了解技术的原理,却不知道......一起来看看 《技术的本质》 这本书的介绍吧!

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具