内容简介:Hive 中Hive 中的Hive 中的
ORDER BY
Hive 中 ORDER BY
的行为与关系型数据库的 ORDER BY
行为一致,实现了数据集的 全局排序
,支持升序(ASC)和降序(DESC)。
SORT BY
Hive 中的 SORT BY
实现了数据集的 Map 排序
,为每个 reducer 产生一个 排序 文件,支持升序(ASC)和降序(DESC)。如果只有一个 reducer(通过 SET mapred.reduce.tasks=1
),那么 SORT BY
和 ORDER BY
的效果是相同的。
DISTRIBUTE BY
Hive 中的 DISTRIBUTE BY
实现了数据集的 Map 重分区
,保证字段值相同的行在同一个 reducer。
CLUSTER BY
Hive 中的 CLUSTER BY
结合了 SORT BY
和 DISTRIBUTE BY
,实现了数据集的 局部排序
,支持升序(ASC)和降序(DESC)。
参考
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
第二曲线:跨越“S型曲线”的二次增长
[英]查尔斯·汉迪(Charles Handy) / 苗青 / 机械工业出版社 / 2017-6 / 49.00
S型曲线是每个组织和企业在预测未来时一定会参考的工具,一切事物的发展都逃不开S型曲线(“第一曲线”)。 然而,从公司组织、企业治理、市场的变化,到个人职业发展、社会人际关系以及未来的教育与社会价值,多维度地探讨这个世界需要重新以不同的角度来思考问题,不能够总是停留在“第一曲线”的世界。 如果组织和企业能在第一曲线到达巅峰之前,找到带领企业二次腾飞的“第二曲线”,并且第二曲线必须在第一曲......一起来看看 《第二曲线:跨越“S型曲线”的二次增长》 这本书的介绍吧!