Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战

栏目: Python · 发布时间: 5年前

内容简介:版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:1120746959@qq.com,如有任何学术交流,可随时联系。通过Python技术栈与Spark大数据数据平台整合,我们将实现python生态最完善的计算和可视化体系。秦凯新 于深圳 201812132319

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:1120746959@qq.com,如有任何学术交流,可随时联系。

1 Python 技术栈与Spark大数据数据平台整合

  • 下载Anaconda3 Linux 版本

    Anaconda3-5.3.1-Linux-x86_64.sh
    复制代码
  • 安装Anaconda3

    bash Anaconda3-5.3.1-Linux-x86_64.sh -b 
    复制代码
  • 环境变量配置PYSPARK_DRIVER_PYTHON以及PYSPARK_PYTHON配置

    export SCALA_HOME=/usr/local/install/scala-2.11.8
      export JAVA_HOME=/usr/lib/java/jdk1.8.0_45
      export HADOOP_HOME=/usr/local/install/hadoop-2.7.3
      export SPARK_HOME=/usr/local/install/spark-2.3.0-bin-hadoop2.7
      export FLINK_HOME=/usr/local/install/flink-1.6.1
      
      export ANACONDA_PATH=/root/anaconda3
      export PYSPARK_DRIVER_PYTHON=$ANACONDA_PATH/bin/ipython
      export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python
      
      
      export JRE_HOME=${JAVA_HOME}/jre
      export CLASS_PATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
      export PATH=:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${HADOOP_HOME}/bin:${SPARK_HOME}/bin:$PATH
      export PATH=/root/anaconda3/bin:$PATH
    复制代码
  • 启动Saprk

  • 启动jupyter notebook

    老版本
      PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook --allow-root" pyspark
      
      未来版本
      PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS=`jupyter notebook --allow-root` pyspark
    复制代码
    Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战
  • jupyter远程访问

    vi ~/.jupyter/jupyter_notebook_config.py
      c.NotebookApp.ip = '*' # 允许访问此服务器的 IP,星号表示任意 IP
      c.NotebookApp.open_browser = False # 运行时不打开本机浏览器
      c.NotebookApp.port = 12035 # 使用的端口,随意设置
      c.NotebookApp.enable_mathjax = True # 启用 MathJax
    复制代码
  • jupyter NoteBook开发界面

Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战
  • spark程序调试
Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战
lines=sc.textFile("/LICENSE")
    pairs = lines.map(lambda s: (s, 1))
    counts = pairs.reduceByKey(lambda a, b: a + b)
    
    counts.count()
    243
    
    counts.first()
    ('                                 Apache License', 1)
复制代码
  • Standalone模式启动

    PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook --allow-root" MASTER=spark://SparkMaster:7077 pyspark
    复制代码
Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战
Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战

2 总结

通过Python技术栈与Spark大数据数据平台整合,我们将实现python生态最完善的计算和可视化体系。

秦凯新 于深圳 201812132319

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:1120746959@qq.com,如有任何学术交流,可随时联系。


以上所述就是小编给大家介绍的《Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

互联网+ 战略版

互联网+ 战略版

刘润 / 中国华侨出版社 / 2015-5-1 / 49.8

1、“互联网+”上升为国家战略,“互联网+”成为下一个超级畅销书的热点话题在商业环境巨变的今天,传统企业该怎么走?传统企业转型是一个系统工程,如何定战略、抓主要矛盾? 2、首本“互联网+传统企业”的战略指导书。“我互联网+”时代到来了,传统企业的外部环境发生了哪些变化?了解商业新生代的新商业环境,跟之前工业时代的不同,从战略上指导传统企业转型,更安全也更大局把握游刃有余。一起来看看 《互联网+ 战略版》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

URL 编码/解码
URL 编码/解码

URL 编码/解码

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换