利用 Apache Spark SQL 和 DataFrames 扩展关系数据库

栏目: 服务器 · 发布时间: 7年前

内容简介：无论怎样大肆宣传 NoSQL 数据库的出现，关系数据库都还将继续存在。原因很简单，关系数据库强制执行基本的结构和约束，并提供了很好的声明式语言来查询数据（我们都喜欢它）：SQL！但是，规模一直是关系数据库的问题。21 世纪的大多数企业都拥有丰富的数据存储和仓库，并希望最大限度地利用大数据来获得可操作的洞见。关系数据库可能很受欢迎，但除非我们投资了适当的大数据管理策略，否则不能很好地对它们进行扩展。这包括考虑潜在的数据源，数据量，约束，模式，ETL（提取 - 转换 - 加载），访问和查询模式等等！

无论怎样大肆宣传 NoSQL 数据库的出现，关系数据库都还将继续存在。原因很简单，关系数据库强制执行基本的结构和约束，并提供了很好的声明式语言来查询数据（我们都喜欢它）：SQL！

但是，规模一直是关系数据库的问题。21 世纪的大多数企业都拥有丰富的数据存储和仓库，并希望最大限度地利用大数据来获得可操作的洞见。关系数据库可能很受欢迎，但除非我们投资了适当的大数据管理策略，否则不能很好地对它们进行扩展。这包括考虑潜在的数据源，数据量，约束，模式，ETL（提取 - 转换 - 加载），访问和查询模式等等！

利用 Apache Spark SQL 和 DataFrames 扩展关系数据库 Apache Spark 中的大规模数据科学

本文将介绍在关系数据库的强大功能方面取得的一些优秀进展，而对于“大规模”，会介绍 Apache Spark – Spark SQL 和 DataFrames 中的一些新组件。最值得注意的是，将涵盖以下主题：

关系数据库扩展的动机和挑战
了解 Spark SQL 和 DataFrames
目标
架构和功能
性能

人们努力地工作并投入时间在 ApacheShark 中构建新组件，我们关注他们的主要挑战和动机，以便能够大规模执行 SQL。我们还将研究 Spark SQL 和 DataFrames 的主要体系结构、接口、功能和性能基准。在本文最后，最重要的一点，我们将介绍一个分析入侵攻击的真实案例研究，基于 KDD 99 CUP 数据，利用 Spark SQL 和 DataFrames，通过 Databricks 云平台来平衡从而实现 Spark。

为大数据而扩展关系数据库的动机和挑战

关系数据存储易于构建和查询。此外，用户和开发人员通常更喜欢用类似人类的可读语言（如 SQL）编写易于解释的声明式查询。然而，随着数据的数量和多样性的增加，关系方法的伸缩性不足以构建大数据应用程序和分析系统。以下是一些主要挑战：

处理不同类型数据源，可以是结构化、半结构化和非结构化的；
建立各种数据源之间的 ETL 管道，这可能导致要开发大量特定的自定义代码，随着时间的推移会增加技术债务
能够执行基于传统商业智能（BI）的分析和高级分析（机器学习、统计建模等），后者在关系系统中执行肯定具有挑战性

大数据分析并不是昨天才发明的！我们在 Hadoop 和 MapReduce 范式方面取得了成功，这很厉害但进展太慢，它为用户提供了一个低级的、程序化的编程接口，需要人们编写大量代码来进行非常简单的数据转换。然而，自从 Spark 的发布，它真正改变了大数据分析的方式，不需要再把重点放在内存计算、容错、高级抽象和易用性上。

利用 Apache Spark SQL 和 DataFrames 扩展关系数据库

从那时起，一些框架和系统，如 Hive、Pig 和 Shark（演变成 Spark SQL），为大数据存储提供了丰富的关系接口和声明式查询机制。挑战在于，这些工具要么是基于关系的，要么是基于过程的，但是鱼和熊掌无法两者兼得。

然而，在现实世界中，大多数数据分析管道可能涉及到关系代码和过程代码的组合。如果强迫用户选择其中一个会最终让事情变得复杂，并增加用户在开发、构建和维护不同应用程序和系统方面的工作量。Apache Spark SQL 建立在前面提到的 SQL on Spark（称为 Shark）的基础上，它不强制要求用户在关系 API 或过程 API 之间进行选择，而是试图让用户无缝地混合使用它们，来对大数据进行大规模的数据查询、检索和分析。

了解 Spark SQL 和 DataFrame

Spark SQL 本质上试图用两个主要组件弥合我们之前提到的两个模型（关系模型和过程模型）之间的差距。

Spark SQL 提供了一个 DataFrame API，可以对外部数据源和 Spark 的内置分布式集合进行大规模的关系操作！
为了支持大数据中各种各样的数据源和算法，Spark SQL 引入了一种名为 Catalyst 的新型可扩展优化器，可以轻松地为机器学习等高级分析添加数据源、优化规则和数据类型。

从本质上讲，Spark SQL 利用 Spark 的强大功能在大数据上大规模地执行分布式的、健壮的内存计算。Spark SQL 提供了最先进的 SQL 性能，并且兼容 Apache Hive（一种流行的大数据仓库框架）支持的所有现有结构和组件，包括数据格式、用户定义函数（UDF）和 Metastore。除此之外，它还有助于从大数据源和企业数据仓库（如 JSON，Hive，Parquet 等）中提取各种数据格式，并执行关系和过程操作的组合，以实现更复杂的高级分析。

目标

让我们看一下有关 Spark SQL 的一些有趣的事实，包括它的使用、采用和目标，其中一些我将再次从“ Spark 中的关系数据处理 ”的优秀原始论文中复制过来。Spark SQL 于 2014 年 5 月首次发布，现在可能是 Spark 中最活跃的组件之一。Apache Spark 绝对是大数据处理最活跃的开源项目，有数百个贡献者。

除了作为一个开源项目，Spark SQL 已经开始得到主流行业的采用，并部署在了非常大规模的环境中。Facebook 有一个关于“ Apache Spark @Scale：一个 60TB+ 的生产用例 ” 的优秀案例研究，他们正在为实体排名做数据准备，其 Hive 的工作过去需要几天时间并面临许多挑战，但 Facebook 成功地使用 Spark 进行扩展并提高了性能。接下来让我们看看他们在这次旅程中遇到的有趣挑战！

另一个有趣的事实是，三分之二的 Databricks 云（运行 Spark 的托管服务）客户在其他编程语言中使用了 Spark SQL。在本系列的第二部分中，我们还将展示使用 Spark SQL on Databricks 的实际案例研究。

Spark SQL 的主要目标是由它的创建者所定义的：

无论是在 Spark 程序（在本机 RDD 上）还是在外部数据源上，都使用对程序员友好的 API 来支持关系处理
使用已建立的 DBMS 技术提供高性能
轻松支持新的数据源，包括半结构化数据和易于查询联合的外部数据库
使用高级分析算法（如图形处理和机器学习）进行扩展

架构和功能

现在我们来看看 Spark SQL 和 DataFrames 的主要功能和架构。这里需要牢记围绕着 Spark 生态系统的一些关键概念，随着时间的推移这个生态一直在不断发展。

利用 Apache Spark SQL 和 DataFrames 扩展关系数据库

RDD（弹性分布式数据集）可能是 Spark 所有成功案例背后的最大贡献者。它基本上是一种数据结构，或者更确切地说是分布式存储器的抽象，它允许程序员在大型分布式集群上执行内存计算，同时保留容错等方面的特性。还可以并行化大量计算和转换，并跟踪转换的整个过程，这有助于有效地重新计算丢失的数据。此外，Spark 使用驱动程序和执行程序的概念，如下图所示。

利用 Apache Spark SQL 和 DataFrames 扩展关系数据库

通常可以从文件、数据库读取数据，并行化现有集合甚至转换来创建 RDD。通常，转换是将数据转换为不同方面和维度的操作，具体取决于我们想要整理和处理数据的方式。它们也会被延迟地评估，这意味着即使定义了转换，在执行动作之前也不会计算结果，通常需要将结果返回到驱动程序（然后它会计算所有应用的转换！）。

利用 Apache Spark SQL 和 DataFrames 扩展关系数据库

既然已经了解了 Spark 工作原理的架构，那么让我们更深入地了解 Spark SQL。通常，Spark SQL 在 Spark 之上作为库运行，正如我们在图中看到的那样，它覆盖了 Spark 生态系统。下图详细介绍了 Spark SQL 的典型体系结构和接口。

利用 Apache Spark SQL 和 DataFrames 扩展关系数据库

该图清楚地显示了各种 SQL 接口，通过 JDBC/ODBC 或命令行控制台来访问，集成到 Spark 支持的编程语言中的 DataFrame API（我们将使用 Python）。DataFrame API 非常强大，允许用户最终混合程序代码和关系代码！诸如 UDF（用户定义函数）之类的高级函数可以在 SQL 中使用，BI 工具也可以使用它。

Spark DataFrames 非常有趣，可以帮助我们利用 Spark SQL 的强大功能，并根据需要结合其过程式范例。Spark DataFrame 基本上是具有相同模式的行（行类型）的分布式集合，它基本上是被组织成一些命名列的 Spark 数据集。这里需要注意的是，数据集是 DataFrame API 的扩展，它提供了一种 * 类型安全的、面向对象的编程接口。* 它们仅在 Java 和 Scala 中可用，因此我们将专注于 DataFrame。

利用 Apache Spark SQL 和 DataFrames 扩展关系数据库

DataFrame 等同于关系数据库中的表（但在引擎盖下具有更多优化），并且还可以以类似于 Spark（RDD）中的“本机”分布式集合的方式进行操作。Spark DataFrames 有一些有趣的属性，例如：

与 RDD 不同，DataFrame 通常会跟踪 schema 并支持各种关系操作，从而实现更优化的执行。
DataFrame 可以通过表来构建，就像大数据基础结构中现有的 Hive 表一样，甚至可以从现有的 RDD 来构建。
DataFrames 可以使用直接 SQL 查询操作，也可以使用 DataFrame DSL（特定领域语言），以及使用各种关系运算符和变换器，例如 where 和 groupBy。
此外，每个 DataFrame 也可以被视为行对象的 RDD，允许用户调用过程化的 Spark API，例如 map。
最后，与传统的 Dataframe API（Pandas）不同，Spark DataFrames 具有延迟性，因为每个 DataFrame 对象都代表一个逻辑计划来计算数据集，但在用户调用特殊的“输出操作”（如 save）之前，不会执行任何操作。

这应该让您对 Spark SQL、数据框架、基本特性、概念、体系结构和接口有了足够的了解。下面让我们看一下性能基准来完成这一部分。

性能

在没有正确优化的情况下发布一个新特性是致命的，构建 Spark 的人做了大量的性能测试和基准测试！让我们看看一些有趣的结果，下面描述了展示一些结果的第一个图。

利用 Apache Spark SQL 和 DataFrames 扩展关系数据库

在这些实验中，他们使用 AMPLab 的大数据基准测试比较了 Spark SQL 与 Shark 和 Impala 的性能，后者使用了 Pavlo 等人开发的网络分析工作负载。基准测试包含带不同参数的四种类型查询，这些查询具有执行扫描、聚合、连接和基于 UDF 的 MapReduce 作业。使用列式 Parquet 格式压缩后，数据集包含了 110GB 的数据。我们看到，在所有查询中，Spark SQL 比 Shark 快得多，通常与 Impala 竞争。Catalyst 优化器负责这个压缩，降低了 CPU 开销（后面会简要介绍这一点）。此功能使 Spark SQL 在许多查询中与基于 C ++ 和 LLVM 的 Impala 引擎竞争，与 Impala 的最大差距在于 Query 3a 中 Impala 选择更好的 join 计划，查询的选择性使得其中一个表非常小。

下面的图表显示了 DataFrames 和常规 Spark API 以及 Spark + SQL 的一些性能基准。

利用 Apache Spark SQL 和 DataFrames 扩展关系数据库 Spark DataFrames vs. RDD 和 SQL

最后，下图显示了不同语言中 DataFrames 与 RDD 的一个很好的基准测试结果，从而为优化的 DataFrames 提供了一个有趣的视角。

利用 Apache Spark SQL 和 DataFrames 扩展关系数据库 比较 Spark DataFrames 和 RDD

性能秘诀：Catalyst 优化器

为什么 Spark SQL 如此快速和优化？原因是因为新的可扩展优化器 Catalyst，基于 scala 中的函数式编程结构。虽然不会在这里详细介绍 Catalyst，但值得一提的是，它有助于优化 DataFrames 的操作和查询。

利用 Apache Spark SQL 和 DataFrames 扩展关系数据库

Catalyst 的可扩展设计有两个目的：

可以轻松地为 Spark SQL 添加新的优化技术和功能，尤其是解决大数据、半结构化数据和高级分析方面的各种问题
易于优化器的扩展 – 例如，通过添加定制于数据源的规则，可以将过滤或聚合推送到外部存储系统，或支持新的数据类型

Catalyst 支持基于规则和基于成本的优化。虽然可扩展优化器在过去已经被提出，但它们通常需要一种复杂的特定于域的语言来指定规则。通常，这会导致显著的学习曲线和维护负担。相比之下，Catalyst 使用 Scala 编程语言的标准特性，例如模式匹配，让开发人员使用完整的编程语言，同时仍然使规则易于指定。

利用 Apache Spark SQL 和 DataFrames 扩展关系数据库

Catalyst 的核心包含了一个通用库，用于表示树状结构并应用规则来操作它们。在这个框架的顶部，包含关系查询处理（例如，表达式、逻辑查询计划）的库，以及处理查询执行的不同阶段的若干规则：分析、逻辑优化、物理规划和代码生成，以将查询的部分编译成 Java 字节码。

关于作者

Dipanjan（DJ）Sarkar– Dipanjan（DJ）Sarkar 是 RedHat 的数据科学家、出版作家、顾问和培训师。他曾在多家创业公司以及英特尔等财富 500 强公司做过顾问和合作。他主要致力于利用数据科学、机器学习和深度学习来构建大规模智能系统。他拥有数据科学和软件工程专业的技术硕士学位。他也是自学者和大规模开放在线课程的狂热支持者。

查看英文原文： Scaling relational databases with Apache Spark SQL and DataFrames

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

领域驱动设计

[美] Eric Evans / 赵俐、盛海艳、刘霞 / 人民邮电出版社 / 2016-6-1 / 69

本书是领域驱动设计方面的经典之作，修订版更是对之前出版的中文版进行了全面的修订和完善。全书围绕着设计和开发实践，结合若干真实的项目案例，向读者阐述如何在真实的软件开发中应用领域驱动设计。书中给出了领域驱动设计的系统化方法，并将人们普遍接受的一些实践综合到一起，融入了作者的见解和经验，展现了一些可扩展的设计新实践、已验证过的技术以及便于应对复杂领域的软件项目开发的基本原则。一起来看看《领域驱动设计》这本书的介绍吧!

码农工具