网易大数据体系之时序数据技术

栏目: 数据库 · 发布时间: 7年前

内容简介：分享嘉宾：范欣欣网易大数据技术专家编辑整理：王吉东

网易大数据体系之时序数据技术

分享嘉宾：范欣欣网易大数据技术专家

编辑整理：王吉东

内容来源：AI科学前沿大会

出品社区：DataFun

注：欢迎转载，转载请注明出处。

本次分享内容：

时序数据平台主要业务场景
时序数据平台体系架构
时序数据平台核心技术

PART01 时序数据平台主要业务场景

网易大数据体系之时序数据技术

上图为数据的整体架构，大部分公司都是差不多的：

原始数据： MySQL、服务端的Log、APP-Data、Sensor，大家知道现在穿戴设备很多，比如手表等，这样都会产生很多数据，这些数据都称为时序数据，随着时间的变化不断产生数据。
数据采集层： sqoop、DataStream、SDK、Gataway
数据加工层：数据存在kafka里，再经过一些流计算处理（Flink、Sparkstreaming）
数据存储分析层：

1. 离线存储分析平台：技术栈包括最底层的 HDFS、Kudu、GP等数据存储，在这之上要做很多的计算，包括Hive、Spark、Impala等，他的应用场景包括数仓报表、机器学习、模型训练等；

2. 在线存储计算平台：应用的业务场景包括，交易订单，优惠券，用户画像等，这里主要应用的是 HBase；

3. 时间序列存储计算平台：应用场景包括，业务设备监控，实时广告平台，物联网应用，相关的技术包括 OpenTSDB、Druid、InfluxDB等。

所以会根据不同的业务使用不同的平台来处理相关的数据，对于我们来说最大的工作是在数据存储端。

网易大数据体系之时序数据技术

时序数据主要包括时间列、维度列和指标列，这3列缺一不可（特别是时间列）。

工业互联网时代，会源源不断产生各种各样的时序数据，时序数据平台有以下几种典型场景：

1. 系统监控：

• 物理机、云主机、容器：CPU、内存、IO等

• 组件服务：数据库集群、 Kafka集群、HBase集群

2. 任务监控：

• 查看指定hadoop任务耗用内存、CPU、IO利用率等

• 查看集群消耗资源 TopN任务、节点等

• 统计集群任务执行耗时

3. 应用性能监控：

• 应用调用次数，错误占比，页面加载延迟统计、地域统计分析

• 慢加载追踪，慢 SQL

• 异常会话追踪

4. 链路监控：

• 调用链全息排查

• 全局调用拓扑

• 链路依赖项分析梳理

5. 业务监控统计：

a. 电商

• 业务大盘：查看单量，金额，发货等业务指标

• 异常大盘：查看超卖，库存校准耗时，商品回调耗时，各种类型下单错误等异常指标

b. 广告

• 广告曝光点击消耗实时统计

• 流量地域分配

以基础系统监控服务为例，举例描述两个应用场景：

1. 物理机基础硬件指标监控

网易大数据体系之时序数据技术

2. HBase-RegionServe指标监控

网易大数据体系之时序数据技术

直观地看，以上数据的横坐标都是时间戳，即设备随着时间不断吐数据。

时序数据应用场景的核心特征：

1. 时间区间查询，最近时间区的数据的查询频率远大于历史数据；

2. 多维条件查询，即多维字段随机组合查询；

网易大数据体系之时序数据技术

3. 支持TTL机制，数据可以自动过期；

4. 支持高压缩率，数据压缩比要达到10以上；

5. 支持高效聚合

6. 支持集群可扩展，服务高可用，数据高可靠。

PART02 时序数据平台架构体系

时序序列平台以监控类系统体系架构为例，如下图所示：

网易大数据体系之时序数据技术

将多数据来源的数据（如 Agent采集器，打点日志、流式数据，IoT Hub等），通过Kalfa工具（分布式消息队列系统）进行流式处理，汇集到网易时序数据平台上。

PART03 时序数据平台核心技术

在上述架构体系中，数据库作为其核心环节。考虑到DDB（分布式MySQL）实时写入性能不足，HBase/ES等开源NoSQL平台多维查询以及聚合计算等功能不够；针对海量时序数据这类应用场景，因此需要专门的时序数据库。

现有市场上较成熟的时序数据库主要包括Druid、OpenTSDB、InfluxDB等。网易结合以上各类时序数据库的优缺点，自主研发分布式时序数据库平台，支持高性能写入和读取，支持多维条件查询，支持聚合计算，且运行开销较小，可私有化、分布式部署。

网易大数据体系之时序数据技术

该时序数据库的分布式集群结构与 hadoop，Hbase，Kudu等架构非常相似：多台服务器用来存储数据，并通过 Raft保证数据的一致性。数据的分布式计算是在分布式节点（ node）上完成的，每个node上的数据存储计算系统称之为 shard server。在Shard Server的底层数据存储中，原始数据存一份，再按照索引的方式再存一份。

网易大数据体系之时序数据技术