R-网页爬虫:分析HTML代码

栏目: Html · 发布时间: 5年前

内容简介:前一篇文章我们学习了选择器(CSS和XPath)。我们可以从HTML包含唯一的

前一篇文章我们学习了选择器(CSS和XPath)。

我们可以从 https://cran.rstudio.com/web/packages/available_packages_by_name.html 这个网页上获取所有可用的R扩展包。网页看起来简单,想知道选择器的表达式,在页面右击,选择菜单中的审查元素选项(大部分浏览器都有),然后就会出现检查面板。我们可以看到网页底层的HTML代码。

HTML包含唯一的 <table> ,因此可以直接将CSS选择器设为 table ,再用 html_table() 提取表格并返回一个数据框:

library(rvest)
#> 载入需要的程辑包:xml2
page = read_html("https://cran.rstudio.com/web/packages/available_packages_by_name.html")
pkg_table = page %>% 
    html_node("table") %>% 
    html_table(fill = TRUE)

head(pkg_table, 5)
#>         X1
#> 1         
#> 2       A3
#> 3   abbyyR
#> 4      abc
#> 5 abc.data
#>                                                                         X2
#> 1                                                                     <NA>
#> 2 Accurate, Adaptable, and Accessible Error Metrics for Predictive\nModels
#> 3                  Access to Abbyy Optical Character Recognition (OCR) API
#> 4                         Tools for Approximate Bayesian Computation (ABC)
#> 5              Data Only: Tools for Approximate Bayesian Computation (ABC)

这里原始表没有表头。结果数据框使用了默认表头,并且第一行是空的,下面代码解决这个问题:

pkg_table = pkg_table[complete.cases(pkg_table), ]
colnames(pkg_table) = c("name", "title")
head(pkg_table, 3)
#>     name
#> 2     A3
#> 3 abbyyR
#> 4    abc
#>                                                                      title
#> 2 Accurate, Adaptable, and Accessible Error Metrics for Predictive\nModels
#> 3                  Access to Abbyy Optical Character Recognition (OCR) API
#> 4                         Tools for Approximate Bayesian Computation (ABC)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

搜

(美)约翰·巴特利 / 张岩、魏平 / 中信出版社 / 2006-1 / 35.00元

这个世界需要什么?如何任何一家公司能回答好这个问题,它就掌握了控制商业社会,乃至整个人类文明的万能钥匙。在过去的几年中,Google正在为获得这把钥匙而努力。虽然Google并非搜索业务的最早开发者,但它凭借着简明、便利、实用的搜索技术和理念,逐渐击败雅虎、Alta Vista等搜索领域的先锋,成为搜索行业名副其实的王者。 本书描述了Google如何从斯坦福一个不起眼的公司迅速崛起为“......一起来看看 《搜》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试