Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战

栏目: Python · 发布时间: 7年前

内容简介:版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:1120746959@qq.com,如有任何学术交流,可随时联系。通过Python技术栈与Spark大数据数据平台整合,我们将实现python生态最完善的计算和可视化体系。秦凯新 于深圳 201812132319

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:1120746959@qq.com,如有任何学术交流,可随时联系。

1 Python 技术栈与Spark大数据数据平台整合

  • 下载Anaconda3 Linux 版本

    Anaconda3-5.3.1-Linux-x86_64.sh
    复制代码
  • 安装Anaconda3

    bash Anaconda3-5.3.1-Linux-x86_64.sh -b 
    复制代码
  • 环境变量配置PYSPARK_DRIVER_PYTHON以及PYSPARK_PYTHON配置

    export SCALA_HOME=/usr/local/install/scala-2.11.8
      export JAVA_HOME=/usr/lib/java/jdk1.8.0_45
      export HADOOP_HOME=/usr/local/install/hadoop-2.7.3
      export SPARK_HOME=/usr/local/install/spark-2.3.0-bin-hadoop2.7
      export FLINK_HOME=/usr/local/install/flink-1.6.1
      
      export ANACONDA_PATH=/root/anaconda3
      export PYSPARK_DRIVER_PYTHON=$ANACONDA_PATH/bin/ipython
      export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python
      
      
      export JRE_HOME=${JAVA_HOME}/jre
      export CLASS_PATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
      export PATH=:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${HADOOP_HOME}/bin:${SPARK_HOME}/bin:$PATH
      export PATH=/root/anaconda3/bin:$PATH
    复制代码
  • 启动Saprk

  • 启动jupyter notebook

    老版本
      PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook --allow-root" pyspark
      
      未来版本
      PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS=`jupyter notebook --allow-root` pyspark
    复制代码
    Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战
  • jupyter远程访问

    vi ~/.jupyter/jupyter_notebook_config.py
      c.NotebookApp.ip = '*' # 允许访问此服务器的 IP,星号表示任意 IP
      c.NotebookApp.open_browser = False # 运行时不打开本机浏览器
      c.NotebookApp.port = 12035 # 使用的端口,随意设置
      c.NotebookApp.enable_mathjax = True # 启用 MathJax
    复制代码
  • jupyter NoteBook开发界面

Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战
  • spark程序调试
Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战
lines=sc.textFile("/LICENSE")
    pairs = lines.map(lambda s: (s, 1))
    counts = pairs.reduceByKey(lambda a, b: a + b)
    
    counts.count()
    243
    
    counts.first()
    ('                                 Apache License', 1)
复制代码
  • Standalone模式启动

    PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook --allow-root" MASTER=spark://SparkMaster:7077 pyspark
    复制代码
Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战
Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战

2 总结

通过Python技术栈与Spark大数据数据平台整合,我们将实现python生态最完善的计算和可视化体系。

秦凯新 于深圳 201812132319

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:1120746959@qq.com,如有任何学术交流,可随时联系。


以上所述就是小编给大家介绍的《Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

产品型社群

产品型社群

李善友 / 机械工业出版社 / 2015-3-1 / CNY 69.00

传统模式企业正在直面一场空前的“降维战争”, 结局惨烈,或生或死。 传统模式很难避免悲惨下场, 诺基亚等昔日庞然大物轰然倒塌, 柯达发明了数码成像技术却依然破产, 新商业的兴起到底遵循的是什么模式? 微信轻而易举干掉了运营商的短信业务, “好未来”为何让传统教育不明觉厉? 花间堂为什么不是酒店,而是入口? 将来不会有互联网企业与传统企业之分, ......一起来看看 《产品型社群》 这本书的介绍吧!

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器