随想录（爬虫的几个技巧）

栏目: 编程工具 · 发布时间: 7年前

之前因为个人的兴趣和工作的需要，编写过一些爬虫。但是这些爬虫都不是很好用。等到接触到scrapy框架的时候，才发现自己其实做了很多无用功。有数据表明，现在互联网上有很大一部分的访问来自于爬虫的访问，从这可以看出爬虫的猖獗。爬虫和反爬虫本身就是一对冤家，其中曲折只能自己体会。

1、agent伪装

一般爬虫都会把自己伪装成浏览器，这个时候就需要对agent进行合理设置。

2、处理cookie

部分网站会让会员登陆后才能继续访问，这个时候就需要进行cookie处理。

3、ip proxy

如果单个用户长时间访问，那么就需要准备ip代理池，轮询访问。

4、sleep一会儿

如果用户需要长期访问和更新某个网站，建议运行一段实践休息一会，不要影响网站运行。

5、多个账户登陆

如果获取数据较多，可以选择同时使用多个账户登陆的方法，这样可以提高爬虫效率。

6、selenium使用

部分网站将重要资料用js的方法获取，这个时候就要用selenium进行处理。

7、opencv & sklearn

有些网站需要我们输入验证码，这个时候不光要selenium，opencv也要用上，甚至于要学一点机器学习的知识。

爬虫无所谓对错，但是爬虫千万不能影响网站的运行。如果爬虫本身无节制地搜索，逼着反爬虫的同学和你对着干，那么对谁都是不好的。这一点希望大家牢记。爬虫最重要的地方不是说检索数据、构建正则表达式这些，而是如何学着和web开发的同学和平相处，获取到自己需要的资料而不影响网站的运行。除此之外，如何获得app的api数据，本身也是很有趣的一门学问。有兴趣的同学可以试试。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

左手打工，右手创业

韩垒 / 东北师大 / 2011-4 / 29.80元

《左手打工右手创业》内容简介：打工一族，不能没有激情，不能没有梦想，激情能让你战胜困难，勇往直前；同时，要让梦想变成现实，你还必须具备务实的态度和实干的精神，一步一步向目标前进。创业不是简单的乌托邦式的理想，不是仅凭一腔热血加美好梦想就能顺利到达胜利的彼岸。个人创业更多的是要依靠前期科学的规划、多角度的观察、理性的分析、有效的资源分析与整合、成熟高效的运作技能、良好的商业心态等。《左手打工......一起来看看《左手打工，右手创业》这本书的介绍吧!

码农工具

随想录（爬虫的几个技巧）

左手打工，右手创业

HTML 编码/解码

MD5 加密

正则表达式在线测试