内容简介:Hive 中Hive 中的Hive 中的
ORDER BY
Hive 中 ORDER BY
的行为与关系型数据库的 ORDER BY
行为一致,实现了数据集的 全局排序
,支持升序(ASC)和降序(DESC)。
SORT BY
Hive 中的 SORT BY
实现了数据集的 Map 排序
,为每个 reducer 产生一个 排序 文件,支持升序(ASC)和降序(DESC)。如果只有一个 reducer(通过 SET mapred.reduce.tasks=1
),那么 SORT BY
和 ORDER BY
的效果是相同的。
DISTRIBUTE BY
Hive 中的 DISTRIBUTE BY
实现了数据集的 Map 重分区
,保证字段值相同的行在同一个 reducer。
CLUSTER BY
Hive 中的 CLUSTER BY
结合了 SORT BY
和 DISTRIBUTE BY
,实现了数据集的 局部排序
,支持升序(ASC)和降序(DESC)。
参考
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
深入浅出程序设计(中文版)
Paul Barry、David Griffiths / 蒋雁翔、童健 / 东南大学出版社 / 2012-1 / 98.00元
《深入浅出程序设计(中文版)》介绍了编写计算机程序的核心概念:变量、判断、循环、函数与对象——无论运用哪种编程语言,都能在动态且多用途的python语言中使用具体示例和练习来运用并巩固这些概念。学习基本的工具来开始编写你感兴趣的程序,而不是其他人认为你应该使用的通用软件,并对软件能做什么(不能做什么)有一个更好的了解。当你完成这些,你就拥有了必要的基础去使用任何一种你需要或想要学习的语言或软件项目......一起来看看 《深入浅出程序设计(中文版)》 这本书的介绍吧!