关于Cassandra的分段Repair

栏目: 数据库 · 发布时间: 7年前

为什么要Repair

Repair对Cassandra集群是极为重要的，因为频繁的数据删除以及机器Down掉（尽管有Hinted Handoff机制）都会可能导致数据不一致（多个副本之间）。在Cassandra日常维护中，我们要例行对集群进行Repair操作，使用nodetool的Repair命令。

Repair原理

Cassandra在Repair的操作分两个步骤：

第一：创建Merkle tree

Merkle tree是一个二叉树，二叉树最底层是要比较的数据块的hash值，父节点是两个子节点的hash值(=hash(hash1+hash2))。二叉树的高度是15，也就是说最底层有2^15=32768个叶子节点，对应有32768个数据块，如下图所示。

关于Cassandra的分段Repair

计算Merkle Tree的过程需要依赖磁盘IO。为了不影响业务，你可以限制压缩阈值（nodetool setcompactionthroughput )，因为这个过程被称作validation compaction，体现在压缩任务里。

第二：比较Merkle Tree，找出差异进行数据传输。

为每个副本创建Merkle Tree以后，副本之间只要通过比较最顶端的hash是否一致，然后一层层比较下来，就可以找到不一致的那个数据库，然后进行数据传输进行修复即可。

合理分段Repair

上面的修复过程有个问题，就是Merkle Tree是存储在内存里的，所以Cassandra对高度进行了限制，只能有15层，数据只能分为32768数据块。那么这就限制了Merkle Tree的精度，假设一个节点有10万个分区key，每个数据块大约有30个，假设其中有1条数据不一致，那至少要传输30个分区key的数据。这是很浪费集群带宽和修复时间的(修复需要在 gc _grace_seconds周期内完成，防止删掉的数据又出现）

Cassandra的nodetool repair提供了分段Repair的参数，-st -et分别表示token段的范围，假设我们每次repair的数据正好有32768个分区key，那么我们就可以进行精确的修复，减少不必要的传输。当我们把所有的token小段repair完毕，就相当与我们把所有数据进行了repair。

那么问题来了，怎么样对token段进行细分呢？

每个cassandra节点都有个表叫 system. size _estimates（好像是从2.1.4版本开始），在里面记录了每个表在每个token段上大约有多少分区key（partitions_count）以及每个分区key的大小（mean_partition_size）

CREATE TABLE system.size_estimates (

keyspace_name text,

table_name text,

range_start text,

range_end text,

mean_partition_size bigint,

partitions_count bigint,

PRIMARY KEY (keyspace_name, table_name, range_start, range_end)

)

你可以遍历所有的token段进行repair，遇到分区key较多的token段（大于32768），继续细分成多个子token段进行repair。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

新媒体十讲

范卫锋 / 中信出版社 / 2015-8 / 38.00元

“新媒体参谋长”范卫锋解答：媒体人如何转型？怎么创业？如何看准新媒体项目进行投资？作为“新媒体的参谋长”，本书作者范卫锋将十余年从业亲历的经验教训、行业内幕串联成册，从定位、突破、扩张、商业模式、价值几个方面剖析新媒体策略，解密国内媒体圈转型、创业、投资的实操法则。案例信手拈来，观点鞭辟入里，打造出国内第一本由专业新媒体投资人撰写的新媒体实战兵法，涉及媒体人转型、新媒体实操、媒体公关营销、......一起来看看《新媒体十讲》这本书的介绍吧!

码农工具

关于Cassandra的分段Repair

为什么要Repair

Repair原理

合理分段Repair

新媒体十讲

JS 压缩/解压工具

Base64 编码/解码

Markdown 在线编辑器