严选质量数仓建设(二)—— 质量数仓项目建设及管理

栏目: IT技术 · 发布时间: 4年前

内容简介:DW/BI自主开发的整个过程如上图所示,数仓的建设过程从项目规划开始,在项目规划过程中主要任务在于项目目标和范围的界定。
严选质量数仓建设(二)—— 质量数仓项目建设及管理

在第一篇中,介绍了一些数据仓库的基本概念。 本篇将继续介绍质量数仓建设过程和使用到的产品。

0. 序言

在第一篇 《严选质量数仓建设(一)——数据仓库基本概念》 中,介绍了一些数据仓库的基本概念。本篇将继续介绍质量数仓建设过程和使用到的产品。而在下一篇中,将以jira数据域建设为例,讨论实战工作如何开展。

1. 项目规划&需求定义

严选质量数仓建设(二)—— 质量数仓项目建设及管理

DW/BI自主开发的整个过程如上图所示,数仓的建设过程从项目规划开始,在项目规划过程中主要任务在于项目目标和范围的界定。

随着严选整体业务的发展,常规手段的质量保障工作在覆盖业务需求上越来越吃力,为了衡量业务过程中质量保障工作的效果,提升研发、质量保障、项目管理等项目各阶段的效能,决定由严选已有的质量数仓系统承载,建设一个 由指标、模型驱动的质量可视化体系 。而一切与质量相关的数据域都会纳入质量数仓建设范围内,如版本发布数据、需求任务数据、用例数据、Bug数据、git提交数据等。

2. 技术架构设计&产品选择

严选质量数仓建设(二)—— 质量数仓项目建设及管理

质量数仓前期的需求主要在于离线数据指标的产出,故而在先期建设上,主要关注离线数仓建设的结构设计及 工具 选择。 如上所示,严选质量数仓,基于严选已有的离线数仓架构体系,在其中剥离出质量数仓项目,与严选业务数据仓库共同建设。

  • DataHub

    质量数仓使用DataHub从各业务数据源中采集数据,并将数据同步到指定库中。 DataHub主要是负责收集 MySQLMongoDB 、Kafka、Hbase等数据,并将这些实时生成的数据转成统一的数据格式,提供给严选大数据计算平台(猛犸)和流计算平台。 同时DataHub也负责了严选各个异构数据存储系统之间的数据同步工作,包括: MySQL, HIVE, ES, HBase, Redis, MongoDB,Excel,外部http接口产生的数据之间的双向或单向同步。

  • Mammut

    猛犸平台是为数据开发人员及数据平台管理人员服务的,集成了传输、计算/ETL、调度等数据开发功能的数据开发平台。 支持Hive、Spark、Mapreduce等多种计算引擎。 也是质量数仓开发同学的主要“作战工具”之一,通过在猛犸上创建各种数据开发任务,维度调度信息,从而按照指定的周期、时间产出所需的数据表。

  • YouData

    严选有数是基于网易有数,为严选定制开发的可视化敏捷BI产品。 主要用来制作可交互的可视化数据报表,支持各种多种图表形式。 质量数仓的开发同学需要使用有数来制作数据报表,将由猛犸产出的数据指标通过合适的图表展示出来。 而报告查看者可以通过各种类型的筛选查看自己最关心的数据。

  • 仓颉

    仓颉,是严选数仓的指标管理系统,通过该系统管理原子指标、派生指标、维度、派生词、修饰词等。 通过系统明确指标的定义、计算口径,一方面能够让开发人员了解指标含义,减少重复开发或错误使用; 另一方面能够让报告阅览者了解指标的计算方式,避免因个人理解差异,导致对指标的理解出现偏差,而做出错误的决策。

  • 统一查询

    统一查询将数据仓库中产出的数据表依据需求同步到各中类型的数据库中,各数据产品应用通过统一查询来查询所需的数据指标,而无需关心数据库类型,因此减少了数据源配置,提高了数据查询速度,并且减少了重复工作。 质量数仓体系,目前没有属于自己的数据可视化产品,但在规划中的质量数据平台,必然也要通过统一查询来获取数据。

作者简介

婧雯,网易严选资深测试工程师,2014年毕业于北京理工大学,2017年加入网易。 参与数据产品技术部多个重点产品质量保障工作,建设并完善数据产品部质量保障体系,致力于质量保障工作效能得提升。

本文由作者授权严选技术团队发布

严选质量数仓建设(二)—— 质量数仓项目建设及管理

严选质量数仓建设(二)—— 质量数仓项目建设及管理


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Effective Modern C++ 简体中文版

Effective Modern C++ 简体中文版

Scott Meyers / 高博 / 中国电力出版社 / 2018-4-23 / 99

想要彻底理解C++11和C++14,不可止步于熟悉它们引入的语言特性(例如,auto型别推导、移动语义、lambda表达式以及并发支持)。挑战在于高效地运用这些特性——从而使你的软件具备正确性、高效率、可维护性和可移植性。这正是这本实用的图书意欲达成的定位。它描述的正是使用C++11和C++14——现代C++来撰写真正卓越的软件之道。 涵盖以下主题: 大括号初始化、noexcept规格......一起来看看 《Effective Modern C++ 简体中文版》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

随机密码生成器
随机密码生成器

多种字符组合密码

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换