HBase原理

栏目: 数据库 · 发布时间: 7年前

内容简介:HDFS提供了分布式底层文件系统,解决了基础设施层面文件存储的问题,但是对于文件内容的查询等操作需要依赖于MapReduce计算框架,且效率低下。HBase支持在HDFS之上存储大文件,并提供比HDFS更高效检索数据的框架,下面是学习的一写资料整理。下图是网上找到的,虽然版本比较旧,涉及的一些内容在新版本上已有更新,但是基本表述清楚了HBase的整体架构和核心原理。

HDFS提供了分布式底层文件系统,解决了基础设施层面文件存储的问题,但是对于文件内容的查询等操作需要依赖于MapReduce计算框架,且效率低下。HBase支持在HDFS之上存储大文件,并提供比HDFS更高效检索数据的框架,下面是学习的一写资料整理。

总体架构

下图是网上找到的,虽然版本比较旧,涉及的一些内容在新版本上已有更新,但是基本表述清楚了HBase的整体架构和核心原理。

HBase原理

数据流程

要了解数据流程,除了知道前面大图中涉及的HBase基本组件之外,还需要了解以下知识点:

  • HRegion由多个Store组成(每个Store对应一个clumne family),Store内部包含memstore和多个HFile(多个HFile的原因是Minor Compact会生成很多的storeFile,其实storeFile就是HFile);
  • region server上的所有region都共享同一个HLog。

读取流程

hbase:meta
hbase:meta

写入流程

  1. client请求到达region server,region server在写完HLog以后,数据写入的下一个目标就是region的memstore;
  2. 写入到memstore后,该次写入请求就可以被返回,HBase即认为该次数据写入成功(支持三种刷盘方式);
    1. 通过全局内存控制,触发memstore刷盘操作
    2. 手动触发memstore刷盘操作
    3. memstore上限触发数据刷盘
  3. 每次memstore的刷盘都会相应生成一个存储文件storeFile(即HFile在HBase层的轻量级封装);
  4. region server通过compact把大量小的HFile进行文件合并,生成大的HFile文件(支持两种压缩类型);
    1. Minor Compact
    2. Major Compact(对整个region下相同CF的所有HFile进行compact,清理过期或者被删除的数据)

Region分裂

HBase同样提供了region的 split方案来解决大的HFile造成数据查询时间过长问题。

一个较大的region(指其内部的所有sotre总和达到阀值)通过split操作,会生成两个小的region,称之为 Daughter

  • 流程:
    1. region先更改ZK中该region的状态为SPLITING;
    2. Master检测到region状态改变;
    3. region会在存储目录下新建.split文件夹用于保存split后的daughter region信息;
    4. Parent region关闭数据写入并触发flush操作,保证所有写入Parent region的数据都能持久化;
    5. 在.split文件夹下新建两个region,称之为daughter A、daughter B;
    6. Daughter A、Daughter B拷贝到HBase根目录下,形成两个新的region;
    7. Parent region通知修改.META.表后下线,不再提供服务;
    8. Daughter A、Daughter B上线,开始向外提供服务;
    9. 如果开启了balance_switch服务,split后的region将会被重新分布。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

电子邮件营销密码

电子邮件营销密码

[美] Jeanniey Mullen、David Daniesl / 薛剑韬 / 人民邮电出版社 / 2009-9 / 39.00元

在当今互联网蓬勃发展的形势下,电子邮件是互联网应用最广的服务之一。那么如何利用其作为有效的营销工具呢?本书系统地讲解了美国电子邮件营销的预算统筹、营销策略、管理模式、执行机制、涉及的技术、营销实施的细节等,其方法有很强的可循性,并可预见将获得的成果。阅读本书之后,读者会深刻感受到电子邮件营销的博大精深,它既是一门扎实严谨的科学,又是一项充满创造力的艺术。. 本书适合企业管理人员及市场营销人员......一起来看看 《电子邮件营销密码》 这本书的介绍吧!

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

MD5 加密
MD5 加密

MD5 加密工具

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换