R包dplyr使用集锦

栏目: R语言 · 发布时间: 5年前

内容简介:2018年11月26日

1. 使用 dplyr 包的好处

  1. 大多数时间在操作 tbl_df 对象,而不是 data.frame (特别是含有 factordata.frame )。

  2. magrittr 包的管道更好地结合。

  3. 更丰富的列操作,例如 mutateselectgroup_by 会节省很多for循环。

2. 列操作

  • filter() :过滤列,需要输入一个逻辑向量(注意 xor(x, y) :x和y并集除去交集的部分。 between(x, left, right) :left <= x <= right。 near(x, y) :x和y在一定精度下相等,比 == 安全)。直接使用列名操作,例如 year == 2018 。多列操作相当于 & 。受 group 操作影响。

  • arrange() :列排序(默认升序)。多列操作时,先 排序 第一个,再对第一个相等的排第二个。 desc() 降序排列。 .by_group = FALSE 控制是否需要按照group进行组内操作。

  • select() :选择列,重新组合新的 tbl_df 。结合 tidyselect的starts_with() 前缀、 end_with() 后缀、 contains() 部分字符串、 matches() 正则匹配、 num_range 类似V01和x02之类、 everything() (剩余)所有的列、 last_col(offset = n) 倒数第n+1列(默认n为0)。 select(Col1 = col1) 更改col1列名为Col1,并只返回Col1列。 rename(Col1 = col1) 返回全部列,但更改列名为Col1。不受 group 操作影响。

  • mutate() :增加列,返回原始对象和增加列,增加列放置最后。 transmute() :只返回增加的列。受 group 操作影响。

3. 行操作

sample_n()sample_frac() :随机选择行。

4. 两个表的操作

  • inner_join(x, y) :按照指定的列(可以多列),只返回x和y的共同内容。

  • left_join(x, y) :按照指定的列(可以多列),返回x和y相同内容和剩余x内容(y中没有的用 NA 替代)。

  • right_join(x, y) :等价于 left_join(y, x)

  • full_join(x, y) :全部x和y内容(没有的用 NA 代替)。

  • semi_join(x, y, by) :按照指定的列(可以多列),返回x中与y相同的内容。制定列可以写为 by = c('col1', 'col2') 或者 by = c('colx1' = 'coly1', 'colx2' = 'coly2')

  • anti_join(x, y)semi_join() 后x剩余的内容。

  • bind_rows(x, y)bind_cols(x, y) :行和列连接。

  • intersect(x, y)setdiff(x, y)union(x, y) :对行判断,x和y的交集、x中的余集和并集。

  • setequal(x, y) :x和y的行是否相同(与行顺序无关)。

参考资料

更新记录

2018年11月26日


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

从莎草纸到互联网:社交媒体2000年

从莎草纸到互联网:社交媒体2000年

[英]汤姆·斯丹迪奇 / 林华 / 中信出版社 / 2015-12 / 58.00元

【内容简介】 社交媒体其实并不是什么新鲜的东西。从西塞罗和其他古罗马政治家用来交换信息的莎草纸信,到宗教改革、美国革命、法国大革命期间印制的宣传小册子,过去人类跟同伴交流信息的方式依然影响着现代社会。在报纸、广播和电视在散播信息上面统治了几十年后,互联网的出现使社交媒体重新变成人们与朋友分享信息的有力工具,并推动公共讨论走向一个新的模式。 汤姆•斯丹迪奇在书中提醒我们历史上的社交网络其......一起来看看 《从莎草纸到互联网:社交媒体2000年》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器