大数据之hadoop / hive / hbase 的区别是什么?有什么应用场景?

栏目: 数据库 · 发布时间: 5年前

内容简介:它是一个通俗的说是一个它的优势是对历史数据进行处理,用时下流行的说法是离线计算,因为它的

它是一个 分布式计算+分布式文件系统 ,前者其实就是 MapReduce ,后者是 HDFS 。后者可以独立运行,前者可以选择性使用,也可以不使用

2. hive

通俗的说是一个 数据仓库 ,仓库中的数据是被hdfs管理的数据文件,它支持类似 sql 语句的功能,你可以通过该语句完成分布式环境下的计算功能, hive会把语句转换成MapReduce,然后交给hadoop执行 。这里的计算,仅限于查找和分析,而不是更新、增加和删除。

它的优势是对历史数据进行处理,用时下流行的说法是离线计算,因为它的 底层是MapReduce ,MapReduce在实时计算上性能很差。它的做法是把数据文件加载进来作为一个hive表(或者外部表),让你觉得你的sql操作的是传统的表。

3. hbase

通俗的说,hbase的作用类似于数据库,传统数据库管理的是集中的本地数据文件,而 hbase基于hdfs实现对分布式数据文件的管理,比如增删改查 。也就是说,hbase只是利用hadoop的hdfs帮助其管理数据的持久化文件(HFile), 它跟MapReduce没任何关系。

hbase的优势在于实时计算,所有实时数据都直接存入hbase中,客户端通过API直接访问hbase,实现实时计算。由于它使用的是nosql,或者说是列式结构,从而提高了查找性能,使其能运用于大数据场景,这是它跟MapReduce的区别。

总结

hadoop是hive和hbase的基础,hive依赖hadoop,而hbase仅依赖hadoop的hdfs模块。

hive适用于 离线数据的分析 ,操作的是通用格式的(如通用的日志文件)、被hadoop管理的数据文件,它支持类sql,比编写MapReduce的 java 代码来的更加方便,它的定位是数据仓库,存储和分析历史数据。

hbase适用于 实时计算 ,采用列式结构的nosql,操作的是自己生成的特殊格式的HFile、被hadoop管理的数据文件,它的定位是数据库,或者叫DBMS。

hive可以直接操作hdfs中的文件作为它的表的数据,也可以使用hbase数据库作为它的表。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

正则表达式必知必会

正则表达式必知必会

Ben Forta / 杨涛、王建桥、杨晓云 / 人民邮电出版社 / 2007 / 29.00元

正则表达式是一种威力无比强大的武器,几乎在所有的程序设计语言里和计算机平台上都可以用它来完成各种复杂的文本处理工作。本书从简单的文本匹配开始,循序渐进地介绍了很多复杂内容,其中包括回溯引用、条件性求值和前后查找,等等。每章都为读者准备了许多简明又实用的示例,有助于全面、系统、快速掌握正则表达式,并运用它们去解决实际问题。 本书适合各种语言和平台的开发人员。一起来看看 《正则表达式必知必会》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

在线进制转换器
在线进制转换器

各进制数互转换器

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具