Spark local模式连接集群hdfs、hive

栏目: 服务器 · 发布时间: 4年前

内容简介:Spark提供了local、standalone、on yarn等多种运行模式,但为了保持开发环境与实际运行环境的一致性,通常都是在本地编写代码,然后编译并上传jar包到Spark集群调试运行。 但是面对复杂的处理逻辑,或遇到性能问题要修改代码时,开发人员将不得不多次进行修改、编译、上传jar。无休止地重复十分耗费精力,严重影响开发效率。Spark local模式是框架提供的一种使用线程模拟多个进程协调工作的模式,方便我们在IDE中直接run程序。但是默认情况下该模式所使用的本地文件系统、本地hive的库,

Spark提供了local、standalone、on yarn等多种运行模式,但为了保持开发环境与实际运行环境的一致性,通常都是在本地编写代码,然后编译并上传jar包到Spark集群调试运行。 但是面对复杂的处理逻辑,或遇到性能问题要修改代码时,开发人员将不得不多次进行修改、编译、上传jar。无休止地重复十分耗费精力,严重影响开发效率。

Local模式背后的思考

Spark local模式是框架提供的一种使用线程模拟多个进程协调工作的模式,方便我们在IDE中直接run程序。但是默认情况下该模式所使用的本地文件系统、本地hive的库,都与应用真实的运行环境不一致。因此要想使用local模式的快速开发测试,必须先配置local模式使用集群中的公共资源。

如何配置(windows)

集群环境:hadoop2.7.4、Spark2.1.1 需要软件:winutils.zip 开发工具:IDEA

  • 配置本地HADOOP_HOME 解压hadoop-2.7.4.tar.gz到D:\hadoop\hadoop-2.7.4 解压 winutils.zip 软件 至 D:\hadoop\hadoop-2.7.4\bin 配置环境变量:HADOOP_HOME D:\hadoop\hadoop-2.7.4 添加 path : %HADOOP_HOME%\bin;

  • 拷贝集群配置文件 集群文件:core-site.xml、hdfs-site.xml、hive-site.xml 将集群文件拷贝到工程中的 resources 文件夹

  • 配置本地DNS解析 目的是让本地环境能够解析出上述配置文件中的域名

  • 配置集群环境中的HDFS的权限用户 默认情况下使用windows本地用户去读写hdfs,很显然是没有权限的。 使用如下方式就可解决:

System.setProperty("HADOOP_USER_NAME", "hdfs")

复制代码
  • 运行测试代码 在IDEA中直接运行如下代码进行测试:
def main(args: Array[String]): Unit = {
// 设置日志级别
Logger.getLogger("org").setLevel(Level.INFO)
// 如果在windows本地跑,需要从widnows访问HDFS,需要指定一个合法的身份
System.setProperty("HADOOP_USER_NAME", "hdfs")

val spark = SparkSession.builder()
.appName("App")
.master("local") // local
.config("HADOOP_USER_NAME","root") // 该种方式不生效
.enableHiveSupport()
.getOrCreate()
val sc = spark.sparkContext
// 导入spark的隐式转换
import spark.implicits._
// 导入spark sql的functions
import org.apache.spark.sql.functions._

spark.sql("show tables").show()


sc.stop()
spark.stop()
}
复制代码

以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

大思维:集体智慧如何改变我们的世界

大思维:集体智慧如何改变我们的世界

杰夫·摩根 / 郭莉玲、尹玮琦、徐强 / 中信出版集团股份有限公司 / 2018-8-1 / CNY 65.00

智能时代,我们如何与机器互联,利用技术来让我们变得更聪明?为什么智能技术不会自动导致智能结果呢?线上线下群体如何协作?社会、政府或管理系统如何解决复杂的问题?本书从哲学、计算机科学和生物学等领域收集见解,揭示了如何引导组织和社会充分利用人脑和数字技术进行大规模思考,从而提高整个集体的智力水平,以解决我们时代的巨大挑战。是英国社会创新之父的洞见之作,解析企业、群体、社会如何明智决策、协作进化。一起来看看 《大思维:集体智慧如何改变我们的世界》 这本书的介绍吧!

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具