Kafka -- 分布式流处理平台

栏目: 后端 · 发布时间: 7年前

Kafka在刚诞生时是以 消息引擎系统 的面目出现在大众视野中
Kafka在0.10.0.0之前的定位：分布式、分区化且带备份功能的 提交日志 （Commit Log）服务
Kafka在设计之初的功能特性
- 提供一套API实现 生产者 和 消费者
- 降低 网络传输 和 磁盘存储 开销
- 实现 高伸缩 架构

分布式流处理平台

Kafka于2011年正式进入Apache基金会孵化并于次年10月成为Apache顶级项目
Kafka社区于0.10.0.0版本正式推出流处理组件 Kafka Streams ，定位变成了 分布式流处理平台
同等级的实时流处理平台：Apache Kafka 、Apache Storm 、Apache Spark 、Apache Flink
目前国内对Kafka是流处理平台的认知还不普及，其核心的流处理组件Kafka Streams更是少有大厂在使用

优势

端到端的正确性

Kafka更容易实现 端到端的正确性 （Correctness）
流处理要替代批处理需要具备两个核心优势
- 实现正确性 （正确性是流处理能够匹敌批处理的基石）
- 提供能够推导时间的工具
正确性一直都是批处理的强项，而实现正确性的基石是要求框架能提供 精确一次处理语义
- 即处理一条消息 有且只有 一次机会能够影响系统状态
目前主流的大数据流处理框架都宣称实现了精确一次处理语义，但这是有 限定条件 的
- 即它们只能实现 框架内 的精确一次处理语义，无法实现 端到端 的
- 当这些框架与外部消息引擎系统结合使用时，它们无法影响到外部系统的处理语义
- 例如搭建一套环境使得Spark或Flink从Kafka读取消息之后进行 有状态 的数据计算，最后写回Kafka
- 这种情况只能保证在Spark或Flink内部，这条消息对于状态的影响只有一次
- 但计算结果有可能多次写入到Kafka，因为它们不能控制Kafka的语义处理
对于Kafka，因为 所有的数据流转和计算 都在Kafka内部完成，所以Kafka可以实现 端到端的精确一次处理语义

自身定位

Kafka官网：Kafka Streams是一个用于搭建实时流处理的 客户端库 而不是一个完整的功能系统
- 不提供类似集群调度、弹性部署等开箱即用的运维特性
大公司的流处理平台一定是大规模部署的，因此具备集群调度功能以及灵活的部署方案是不可或缺的要素
但世界上还存在很多 中小企业 ，它们的流处理数据量并不巨大，逻辑也不复杂，部署几台机器即可应付
- 针对这样的需求，没必要搭建 重量级的完整性平台 ，这也正是Kafka Streams的用武之地

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

重来

[美] 贾森·弗里德、[丹] 戴维·海涅迈尔·汉森 / 李瑜偲 / 中信出版社 / 2010-10 / 36.00元

大多数的企业管理的书籍都会告诉你：制定商业计划、分析竞争形势、寻找投资人等等。如果你要找的是那样的书，那么把这本书放回书架吧。这本书呈现的是一种更好、更简单的经商成功之道。读完这本书，你就会明白为什么计划实际上百害而无一益，为什么你不需要外界投资人，为什么将竞争视而不见反倒会发展得更好。事实是你所需要的比你想象的少得多。你不必成为工作狂，你不必大量招兵买马，你不必把时间浪费在案头工作和会议......一起来看看《重来》这本书的介绍吧!

码农工具

Kafka -- 分布式流处理平台

分布式流处理平台

优势

端到端的正确性

自身定位

重来

CSS 压缩/解压工具

在线进制转换器

UNIX 时间戳转换