风铃虫 1.1.0 发布,可以抓取 js 渲染网页的数据了

栏目: 软件资讯 · 发布时间: 4年前

内容简介:wind-bell 风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不常见的浏览器标...

wind-bell 风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不常见的浏览器标识,能够自动处理cookie和网页来源信息,轻松绕过服务器限制,智能调整请求间隔时间,动态调整请求频率,防止对目标服务器造成干扰。此外,风铃虫还是一款对普通用户十分友好的工具,它提供的大量链接提取器和内容提取器让用户可以随心所欲地快速配置,甚至于只要提供一个开始请求地址就能配置出自己爬虫程序。同时,风铃虫也开放了许多自定义接口,让高级用户能够根据需要自定义爬虫功能。最后,风铃虫还天然支持分布式和集群功能,让你突破单机环境的束缚,释放出你的爬虫能力。可以说,风铃虫几乎能抓取目前所有的网站里的绝大部分内容。

本次更新内容如下:

  1. 移除Httpclient网页下载器及其依赖
  2. 新增selenium相关组件,允许用户自定义实现selenium下载器
  3. 新增SeleniumDownloader下载器,可以下载前端渲染网页
  4. 新增资源回收功能,在风铃虫实例停止时自动回收下载器资源
  5. 修复网页SEO信息中keywords提取异常的问题
  6. 增加内置编码提取器,自动提取网页编码信息
  7. 修改请求的间隔时间和超时等待时间 规则属性的单位,使控制能力更精确
  8. 新增关闭请求间隔时间功能,控制能更灵活
  9. 新增非法链接过滤功能,自动过滤非法链接,提升抓取效率
  10. 优化连接过滤规则,提升抓取效率
  11. 优化自定义线程使用数,默认为运行宿主机的核心数

源码地址: https://gitee.com/zhiyubujian/wind-bell

API文档: https://apidoc.gitee.com/zhiyubujian/wind-bell/

 


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

PWA实战

PWA实战

[美]Dean Alan Hume / 郑丰彧 / 电子工业出版社 / 2018-6 / 69

Progressive Web App(PWA)是由谷歌提出的一整套技术解决方案,它致力于为 Web 提供出色的用户体验,并完美体现了渐进增强原则。作为为数不多的实战入门用书,《PWA 实战:面向下一代的Progressive Web App》旨在通过大量清晰示例来介绍 PWA 的主要特性。全书一共由五个部分组成:第一部分介绍 PWA 的概念及解锁 PWA 应用的关键—Service Worker......一起来看看 《PWA实战》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具