前嗅ForeSpider教程:采集CSDN

栏目: ASP.NET · 发布时间: 6年前

内容简介:今天小编再来为大家演示一下,如何采集CSDN论坛,同样适用于所有的自媒体论坛。第一步:新建任务①点击左上角“加号”新建任务,如图1:

今天小编再来为大家演示一下,如何采集CSDN论坛,同样适用于所有的自媒体论坛。

第一步:新建任务

①点击左上角“加号”新建任务,如图1:

前嗅ForeSpider教程:采集CSDN

②在弹窗里填写采集地址,任务名称,如图2:

前嗅ForeSpider教程:采集CSDN

③点击下一步,选择进行数据抽取还是链接抽取,本次采集当前列表页博文的正文数据,正文数据是通过点击列表链接进入的,所以本次需要抽取列表链接,所以点击抽取链接,如图3:

前嗅ForeSpider教程:采集CSDN

第二步:通过定位过滤,得到所需链接

①按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域,点击“确认选区”按钮,如图4:

前嗅ForeSpider教程:采集CSDN

②点击采集预览确认链接是否过滤完全,如图5所示。

前嗅ForeSpider教程:采集CSDN

第三步:关联模板

在软件中模板的关联关系,与网页中链接跳转的关系相同。

根据网页跳转规律,将“链接列表”关联模板二“链接列表:02”,此处由于我们开始就选择了创建列表链接,所以软件自动关联好了模板二。如果配置的时候发现关联有问题,可以自己进行更改,如图6:

前嗅ForeSpider教程:采集CSDN

第四步:填写模板二示例地址并新建数据抽取

①将模板一过滤得到的任意一条链接,作为模板二的示例地址。如: https://blog.csdn.net/voke_/a... , 见图7:

前嗅ForeSpider教程:采集CSDN

②新建数据抽取

方法一:通过点击“下一步”后勾选抽取数据,再次点击“下一步”得到数据抽取。

方法二:直接点击模板二,点击上面“新建数据抽取”按钮,得到数据抽取,如图8:

前嗅ForeSpider教程:采集CSDN

第五步:创建/选择表单

在ForeSpider爬虫中,表单是可以复用的,所以可以在数据表单出直接选择之前建过的表单,也可以通过表单ID来进行查找并关联数据表单。此处使用的是之前建过的CSDN的表单。

方法一:通过下拉菜单或表单ID选择已有表单

方法二:点击创建表单进入快速建表页面,新建表单,如图9所示:

前嗅ForeSpider教程:采集CSDN

方法三:点击“采集配置”-“数据建表”,点击采“采集表单”后面的如图10:

前嗅ForeSpider教程:采集CSDN

第六步:配置表单

根据所需内容,配置表单字段(即表头),此处配置了包括网页主键、网页标题、访问数量、正文、作者5个字段,表单如图11:

前嗅ForeSpider教程:采集CSDN

第七步:字段取值

取值方法:按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域。

read_num、text、author字段,如图12:

前嗅ForeSpider教程:采集CSDN

第八步:模板预览

①鼠标右键点击“数据抽取”,然后点击“模板预览”,如图13:

前嗅ForeSpider教程:采集CSDN

②预览结果如图14:

前嗅ForeSpider教程:采集CSDN

第九步:采集预览

①点击右上角采集预览,如图15:

前嗅ForeSpider教程:采集CSDN

②双击任意一条链接,看看是否可以得到和网页对应的规整的数据,如图16:

前嗅ForeSpider教程:采集CSDN


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

The Definitive Guide to Django

The Definitive Guide to Django

Adrian Holovaty、Jacob Kaplan-Moss / Apress / 2007-12-06 / CAD 45.14

Django, the Python-based equivalent to the Ruby on Rails web development framework, is presently one of the hottest topics in web development today. In The Definitive Guide to Django: Web Development ......一起来看看 《The Definitive Guide to Django》 这本书的介绍吧!

SHA 加密
SHA 加密

SHA 加密工具

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具