Spark 2.4 发布,大规模数据处理统一分析引擎

栏目: 软件资讯 · 发布时间: 6年前

内容简介:Spark 2.4 发布了,Apache Spark 是用于大规模数据处理的统一分析引擎,它是一种与 Hadoop 相似的开源集群计算环境,Spark 启用了内存分布数据集,除了能够提供交互式查询外,还可以优化迭代工作负载。尽管创建 ...

Spark 2.4 发布了,Apache Spark 是用于大规模数据处理的统一分析引擎,它是一种与 Hadoop 相似的开源集群计算环境,Spark 启用了内存分布数据集,除了能够提供交互式查询外,还可以优化迭代工作负载。尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoo 文件系统中并行运行。

此版本继续关注可用性、稳定性和性能优化,同时解决了大约 1100 个 tickets。主要更新如下:

  • 增加了屏障执行模式,以更好地与深度学习框架集成

  • 引入 30 多个内置和更高阶函数,更轻松地处理复杂数据类型

  • 改进 K8s 集成

  • 实验性 Scala 2.12 支持

此外还有内置 Avro 数据源、图像数据源,灵活的流式接收器,在传输过程中消除 2GB 块大小限制,Pandas UDF 改进等。

详情查看发布公告

下载地址:https://spark.apache.org/downloads.html


【声明】文章转载自:开源中国社区 [http://www.oschina.net]


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Java多线程编程实战指南(设计模式篇)

Java多线程编程实战指南(设计模式篇)

黄文海 / 电子工业出版社 / 2015-10 / 59.00

随着CPU 多核时代的到来,多线程编程在充分利用计算资源、提高软件服务质量方面扮演了越来越重要的角色。而 解决多线程编程中频繁出现的普遍问题可以借鉴设计模式所提供的现成解决方案。然而,多线程编程相关的设计模式书籍多采用C++作为描述语言,且书中所举的例子多与应用开发人员的实际工作相去甚远。《Java多线程编程实战指南(设计模式篇)》采用Java(JDK1.6)语言和UML 为描述语言,并结合作者多......一起来看看 《Java多线程编程实战指南(设计模式篇)》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

MD5 加密
MD5 加密

MD5 加密工具

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换