5个大数据处理/数据分析/分布式工具

栏目: 服务器 · 发布时间: 7年前

内容简介：Hadoop是一个开源框架，它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展，每一个台机都可以提供本地计算和存储。

5个大数据处理/数据分析/分布式工具

1.Hadoop

Hadoop是一个开源框架，它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展，每一个台机都可以提供本地计算和存储。

5个大数据处理/数据分析/分布式工具

2.Druid

Druid是实时数据分析存储系统，Java语言中最好的数据库连接池。Druid能够提供强大的监控和扩展功能。

Druid是一个分布式的、面向列的、实时的分析数据存储库，通常用于为多租户环境中的探索性仪表板供电。

Druid作为一种数据仓库解决方案，擅长于对petabyte大小的数据集进行快速聚合查询。Druid支持各种灵活的过滤器、精确计算、近似算法和其他有用的计算。

Druid可以同时加载流数据和批处理数据，并与Samza、Kafka、Storm、SPark和Hadoop集成。

5个大数据处理/数据分析/分布式工具

3.Ambari

大数据平台搭建、监控利器；类似的还有CDH

Ambari能够：

提供Hadoop集群

Ambari为在任意数量的主机上安装Hadoop服务提供了一个逐步向导。
Ambari处理集群Hadoop服务的配置。

管理Hadoop集群

Ambari为整个集群提供启动、停止和重新配置Hadoop服务的中央管理。

监视Hadoop集群

Ambari为监视Hadoop集群的健康状况和状态提供了一个仪表板。
安巴里杠杆Ambari度量系统用于度量集合。
安巴里杠杆Ambari警报框架用于系统警报，并在需要注意时通知您(例如，节点下降，剩余磁盘空间较低等)。

5个大数据处理/数据分析/分布式工具

4.Spark

一个快速通用的集群计算系统.它在 Java 、Scala、 Python 和R中提供了高级API，并提供了支持通用执行图的优化引擎。大规模数据处理框架（可以应付企业中常见的三种数据处理场景：复杂的批量数据处理（batch data processing）；基于历史数据的交互式查询；基于实时数据流的数据处理，Ceph:Linux分布式文件系统。

5个大数据处理/数据分析/分布式工具

5.Storm

Storm是一个免费开源、分布式、高容错的实时计算系统。Storm令持续不断的流计算变得容易，弥补了Hadoop批处理所不能满足的实时要求。Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。Storm的部署管理非常简单，而且，在同类的流式计算工具，Storm的性能也是非常出众的。

5个大数据处理/数据分析/分布式工具

以上所述就是小编给大家介绍的《5个大数据处理/数据分析/分布式工具》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

游戏化实战

[美]Yu-kai Chou / 杨国庆 / 华中科技大学出版社 / 2017-1 / 59.00

TED演讲人作品，罗辑思维、华为首席用户体验架构师、思科网络体验CTO推荐。随书附有TED演讲中文视频及作者开设的游戏化初学者课程。作者为Google、乐高、华为、思科、斯坦福大学、丹麦创新中心等多家企业、机构提供高层培训与合作。 ********************** “我长期以来都在密切关注Yu-kai的研究成果。任何想要让工作、生活变美好的人都应该阅读这本书。” ......一起来看看《游戏化实战》这本书的介绍吧!

码农工具

5个大数据处理/数据分析/分布式工具

1.Hadoop

2.Druid

3.Ambari

4.Spark

5.Storm

游戏化实战

JSON 在线解析

MD5 加密

XML 在线格式化