Kafka -- 分布式流处理平台

栏目: 后端 · 发布时间: 4年前

  1. Kafka在刚诞生时是以 消息引擎系统 的面目出现在大众视野中
  2. Kafka在0.10.0.0之前的定位:分布式、分区化且带备份功能的 提交日志 (Commit Log)服务
  3. Kafka在设计之初的功能特性
    • 提供一套API实现 生产者消费者
    • 降低 网络传输磁盘存储 开销
    • 实现 高伸缩 架构

分布式流处理平台

  1. Kafka于2011年正式进入Apache基金会孵化并于次年10月成为Apache顶级项目
  2. Kafka社区于0.10.0.0版本正式推出流处理组件 Kafka Streams ,定位变成了 分布式流处理平台
  3. 同等级的实时流处理平台:Apache Kafka 、Apache Storm 、Apache Spark 、Apache Flink
  4. 目前国内对Kafka是流处理平台的认知还不普及,其核心的流处理组件Kafka Streams更是少有大厂在使用

优势

端到端的正确性

  1. Kafka更容易实现 端到端的正确性 (Correctness)
  2. 流处理要替代批处理需要具备两个核心优势
    • 实现正确性 (正确性是流处理能够匹敌批处理的基石)
    • 提供能够推导时间的工具
  3. 正确性一直都是批处理的强项,而实现正确性的基石是要求框架能提供 精确一次处理语义
    • 即处理一条消息 有且只有 一次机会能够影响系统状态
  4. 目前主流的大数据流处理框架都宣称实现了精确一次处理语义,但这是有 限定条件
    • 即它们只能实现 框架内 的精确一次处理语义,无法实现 端到端
    • 当这些框架与外部消息引擎系统结合使用时,它们无法影响到外部系统的处理语义
    • 例如搭建一套环境使得Spark或Flink从Kafka读取消息之后进行 有状态 的数据计算,最后写回Kafka
    • 这种情况只能保证在Spark或Flink内部,这条消息对于状态的影响只有一次
    • 但计算结果有可能 多次 写入到Kafka,因为它们不能控制Kafka的语义处理
  5. 对于Kafka,因为 所有的数据流转和计算 都在Kafka内部完成,所以Kafka可以实现 端到端的精确一次处理语义

自身定位

  1. Kafka官网:Kafka Streams是一个用于搭建实时流处理的 客户端库 而不是一个完整的功能系统
    • 不提供类似集群调度、弹性部署等开箱即用的运维特性
  2. 大公司的流处理平台一定是大规模部署的,因此具备集群调度功能以及灵活的部署方案是不可或缺的要素
  3. 但世界上还存在很多 中小企业 ,它们的流处理数据量并不巨大,逻辑也不复杂,部署几台机器即可应付
    • 针对这样的需求,没必要搭建 重量级的完整性平台 ,这也正是Kafka Streams的用武之地

以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

极致:互联网时代的产品设计

极致:互联网时代的产品设计

戴维•罗斯 / 中信出版集团 / 2016-6 / 49.00元

在不远的未来,日常物品将能够迅速理解我们的需求,改善我们的生活,并随处可见。为了实现这一预期,我们需要能够发现用户使用产品的场景,找到用户高频刚需痛点的产品设计者。 站在下一个转型发展的悬崖上,我们看到技术将更具人性。随着物联网的发展,我们习以为常的数百件日常物品:汽车、钱包、手表、雨伞甚至垃圾桶,都将回应我们的需求,了解我们,学习为我们思考。最先出现的智能硬件为什么是智能手环、无人驾驶汽车......一起来看看 《极致:互联网时代的产品设计》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

html转js在线工具
html转js在线工具

html转js在线工具

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具