Facebook开源分布式日志存储系统LogDevice

栏目: 后端 · 发布时间: 6年前

Facebook 开源 了他们的内部分布式日志存储项目LogDevice。它通过复制、持久日志存储和故障恢复实现写入高可用性。

Facebook的大多数需要记录日志应用程序都需要写入高可用性、持久的日志存储以及在性能和延迟方面要求各不相同的工作负载。另一个非常重要的要求是能够承受硬件故障。Facebook有一个叫作 Scribe 的旧项目侧重于将日志聚合到集中式存储中,但这种方案存在数据丢失的情况。Scribe现在使用LogDevice作为日志存储后端。

Facebook将LogDevice用在数据中心内部的流式处理管道、数据库索引更新的发布、机器学习管道、复制管道和持久任务队列(每秒摄取超过1TB的数据)中。尽管Facebook已经构建了很多用于管理LogDevice集群的开源工具,但还没有将它们开源出来,除了一些基本的 工具 集。 LDShell 工具可用于从命令行管理集群,并且可以使用 LDQuery 命令来查看集群统计信息。

LogDevice使用“日志记录”抽象来划分单个日志事件,为每个记录分配一个称为日志序列号(LSN)的唯一ID。LSN由“Sequencer”组件基于时间点生成,而时间点保存在ZooKeeper中。LogDevice只能以追加的模式写入记录,也就是说,一旦写入记录就无法修改。与大多数日志存储系统一样,LogDevice会“修剪”记录,即基于时间或空间策略的日志轮换。它还可以按需进行日志修剪。除此之外,对日志的存储时间没有限制。

LogDevice通过在不同的计算机节点上存储每个日志记录的多个副本来实现高可用性,尤其是 写入高可用性 。每条记录可以跨20-30个存储节点复制。不过,如果某些具有某条日志副本的计算机速度很慢或不可用,那么该日志写入次数的增加会限制吞吐量。LogDevice可以自动检测哪些节点已失效,并不再往这些节点写入新记录。它试图通过尽可能多的复制尽减少硬件故障的影响,并尽可能快地“ 重建 ”丢失的副本。在重建过程中,“可以以每秒5-10GB的速率进行恢复”。LogDevice底层存储基于RocksDB,它也是 由Facebook开源 的一个键值存储系统。

LogDevice团队还必须应对其他挑战,他们发现,LogDevice的用户会执行回填(backfill),请求几个小时或几天内的旧数据。这些请求由使用LogDevice日志的下游服务发出,当这些服务从故障中恢复并重新处理日志时就会发生回填。LogDevice通过在“节点集”之间分摊读取负载来应对这些读取高峰。

LogDevice可以与 Apache BookKeeper 和Apache Kafka等其他日志存储系统进行对比。其中与Kafka的 主要区别 似乎是LogDevice将计算和存储进行了分离,主要是为了应对Facebook规模的日志。LogDevice是用C++开发的,并托管在 GitHub 上。

查看英文原文: Facebook Open Sources LogDevice - a Distributed Data Store for Log Storage


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

增长黑客

增长黑客

范冰 / 电子工业出版社 / 2015-7-1 / CNY 59.00

“增长黑客”这一概念近年来兴起于美国互联网创业圈,最早是由互联网创业者Sean Ellis提出。增长黑客是介于技术和市场之间的新型团队角色,主要依靠技术和数据的力量来达成各种营销目标,而非传统意义上靠砸钱来获取用户的市场推广角色。他们能从单线思维者时常忽略的角度和难以企及的高度通盘考虑影响产品发展的因素,提出基于产品本身的改造和开发策略,以切实的依据、低廉的成本、可控的风险来达成用户增长、活跃度上......一起来看看 《增长黑客》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具