Spark Streaming--应用与实战(一)

栏目: 数据库 · 发布时间: 9年前

内容简介：Spark Streaming--应用与实战(一)

接下来的几篇博客是一个连续的部分，主要分为了：

一、问题描述

有一块业务主要是做爬虫抓取与数据输出，通过大数据这边提供的SOA服务入库到HBase,架构大致如下：

以对于以上的架构存在一些问题，我们可以看见数据在Dubbox服务阶段处理后直接通过HBase API入库了HBase，中间并没做任何缓冲，要是HBase出现了问题整个集群都完蛋，没法写入数据，数据还丢失，HBase这边压力也相当大，针对这一点，对入库HBase这个阶段做了一些改造。

二、架构改造

改造后的架构，爬虫通过接口服务，入库到Kafka，Spark streaming去消费kafka的数据，入库到HBase.核心组件如下图所示：

为什么不直接入库到HBase，这样做有什么好处？

缓解了HBase这边峰值的压力，并且流量可控
HBase集群出现问题或者挂掉，都不会照成数据丢失的问题
增加了吞吐量

三、为什么选择Kafka和Spark streaming

由于Kafka它简单的架构以及出色的吞吐量.
Kafka与Spark streaming也有专门的集成模块.
Spark的容错,以及现在技术相当的成熟.

1.除非注明，博文均为原创，转载请标明地址： http://blog.xiaoxiaomo.com/2017/06/10/SparkStreaming-应用与实战-一/

2.文章作者：小小默

3.发布时间：2017年06月10日 - 16时37分

4.如果本文帮到了您，不妨点一下右下角的分享到按钮，您的鼓励是博主写作最大的动力。

以上所述就是小编给大家介绍的《Spark Streaming--应用与实战(一)》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

SQL完全手册

格罗夫 / 电子工业 / 2006-6 / 68.00元

本书为专业和非专业用户、程序员、数据处理方面的专业人士和希望理解sQL在今天计算机产业中的影响的经理们提供了关于SQL语言的全面深入的介绍。本书为理解和使用SQL提供了一个概念上的框架，描述了SQL的历史和SQL的标准，解释了SQL在各种计算机产业领域(如企业级数据处理、数据仓库、Web站点体系结构)中的作用。这一版包含一些新的章节，专门讲述SQL在应用服务器体系结构中的作用、sQL与xML的集成......一起来看看《SQL完全手册》这本书的介绍吧!

码农工具

Spark Streaming--应用与实战(一)

一、问题描述

二、架构改造

三、为什么选择Kafka和Spark streaming

SQL完全手册

随机密码生成器

html转js在线工具

HSV CMYK 转换工具

Spark Streaming--应用与实战(一)

一、问题描述

二、架构改造

三、 为什么选择Kafka和Spark streaming

SQL完全手册

随机密码生成器

html转js在线工具

HSV CMYK 转换工具

三、为什么选择Kafka和Spark streaming