这个用Python写的开源爬虫网站让你秒搜所有豆瓣好书

栏目: 软件资讯 · 发布时间: 7年前

内容简介：程序员在提升自己的道路，大多还是会选择阅读编程书籍这一途径，但找到一本好书就没那么容易了。通过查看各大销售网站的销量数据和评价，以及豆瓣评分和评价人数，可以帮助我们更快的挖掘出经典的计算机书籍，还有那些被人们忽视的好书。最近猿哥在GitHub上发现了一个网站，是中国科学院自动化研究所的一大神(lanbing510)用Python写的一个爬虫，他在16年的时候就爬下了豆瓣所有的读书数据并做了个WebApp接口方来挖掘查找和阅读好书。怪我知道的太晚

程序员在提升自己的道路，大多还是会选择阅读编程书籍这一途径，但找到一本好书就没那么容易了。

通过查看各大销售网站的销量数据和评价，以及豆瓣评分和评价人数，可以帮助我们更快的挖掘出经典的计算机书籍，还有那些被人们忽视的好书。

最近猿哥在GitHub上发现了一个网站，是中国科学院自动化研究所的一大神(lanbing510)用 Python 写的一个爬虫，他在16年的时候就爬下了豆瓣所有的读书数据并做了个WebApp接口方来挖掘查找和阅读好书。怪我知道的太晚

这个用Python写的开源爬虫网站让你秒搜所有豆瓣好书

后来lanbing510再次爬了一遍豆瓣读书的数据，总共更新了3232088本图书信息，共2138386KB，并将其开源

为什么说它很好用呢?猿哥演示一遍你就知道了：

这个用Python写的开源爬虫网站让你秒搜所有豆瓣好书

可以看出这网站的界面非常简洁，没有花里花哨的内容，只有干货，你可以直接通过关键字、分数、和评价人数这三个选项进行搜索，比如我们可以搜索关键字：编程;分数：9.0;评价人数：100人以上

查找结果的显示方式有按照分数排序和人数排序两种，按照分数排序的截图如下：

这个用Python写的开源爬虫网站让你秒搜所有豆瓣好书

按照评价人数排序的截图如下：

这个用Python写的开源爬虫网站让你秒搜所有豆瓣好书

除了以上演示的操作，这个网站并实现了以下功能：

可以爬下豆瓣读书标签下的所有图书
按评分排名依次存储
存储到Excel中，可方便大家筛选搜罗，比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet
采用User Agent伪装为浏览器进行爬取，并加入随机延时来更好的模仿浏览器行为，避免爬虫被封

也就是说你不仅可以在网站上搜索，还能通过下载各类目下的Excel书单文件，直接在Excel中搜索

这个用Python写的开源爬虫网站让你秒搜所有豆瓣好书

效果截图如下：

这个用Python写的开源爬虫网站让你秒搜所有豆瓣好书

最后附上网站地址：http://sobook.lanbing510.info

GitHub地址：https://github.com/lanbing510/DouBanSpider

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

密码朋克

[澳] 朱利安·阿桑奇 / Gavroche / 中信出版社 / 2017-10 / 42.00元

互联网已经在世界各地掀起了革命，然而全面的打击也正在展开。随着整个社会向互联网迁移，大规模监控计划也正在向全球部署。我们的文明已经来到一个十字路口。道路的一边通往一个承诺“弱者要隐私，强者要透明”的未来，而另一边则通往一个极权的互联网，在那里，全人类的权力被转移给不受问责的间谍机构综合体及其跨国公司盟友。密码朋克是一群倡导大规模使用强密码术以保护我们的基本自由免遭攻击的活动家。维基解密的......一起来看看《密码朋克》这本书的介绍吧!

码农工具