Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战

栏目: Python · 发布时间: 6年前

内容简介：版权声明：本套技术专栏是作者（秦凯新）平时工作的总结和升华，通过从真实商业环境抽取案例进行总结和分享，并给出商业应用的调优建议和集群环境容量规划等内容，请持续关注本套博客。QQ邮箱地址：1120746959@qq.com，如有任何学术交流，可随时联系。通过Python技术栈与Spark大数据数据平台整合，我们将实现python生态最完善的计算和可视化体系。秦凯新于深圳 201812132319

1 Python 技术栈与Spark大数据数据平台整合

下载Anaconda3 Linux 版本

Anaconda3-5.3.1-Linux-x86_64.sh
复制代码

安装Anaconda3

bash Anaconda3-5.3.1-Linux-x86_64.sh -b 
复制代码

环境变量配置PYSPARK_DRIVER_PYTHON以及PYSPARK_PYTHON配置

export SCALA_HOME=/usr/local/install/scala-2.11.8
  export JAVA_HOME=/usr/lib/java/jdk1.8.0_45
  export HADOOP_HOME=/usr/local/install/hadoop-2.7.3
  export SPARK_HOME=/usr/local/install/spark-2.3.0-bin-hadoop2.7
  export FLINK_HOME=/usr/local/install/flink-1.6.1
  
  export ANACONDA_PATH=/root/anaconda3
  export PYSPARK_DRIVER_PYTHON=$ANACONDA_PATH/bin/ipython
  export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python
  
  
  export JRE_HOME=${JAVA_HOME}/jre
  export CLASS_PATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
  export PATH=:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${HADOOP_HOME}/bin:${SPARK_HOME}/bin:$PATH
  export PATH=/root/anaconda3/bin:$PATH
复制代码

启动Saprk

启动jupyter notebook

老版本
  PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook --allow-root" pyspark
  
  未来版本
  PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS=`jupyter notebook --allow-root` pyspark
复制代码

Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战

jupyter远程访问

vi ~/.jupyter/jupyter_notebook_config.py
  c.NotebookApp.ip = '*' # 允许访问此服务器的 IP，星号表示任意 IP
  c.NotebookApp.open_browser = False # 运行时不打开本机浏览器
  c.NotebookApp.port = 12035 # 使用的端口，随意设置
  c.NotebookApp.enable_mathjax = True # 启用 MathJax
复制代码

jupyter NoteBook开发界面

spark程序调试

lines=sc.textFile("/LICENSE")
    pairs = lines.map(lambda s: (s, 1))
    counts = pairs.reduceByKey(lambda a, b: a + b)
    
    counts.count()
    243
    
    counts.first()
    ('                                 Apache License', 1)
复制代码

Standalone模式启动

PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook --allow-root" MASTER=spark://SparkMaster:7077 pyspark
复制代码

2 总结

通过Python技术栈与Spark大数据数据平台整合，我们将实现python生态最完善的计算和可视化体系。

秦凯新于深圳 201812132319

以上所述就是小编给大家介绍的《Python技术栈与Spark大数据数据平台整合实战--大数据ML样本集案例实战》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

HTML & CSS设计与构建网站

[美] Jon Duckett / 刘涛、陈学敏 / 清华大学出版社 / 2013-1 / 59.80元

欢迎您选择一种更高效的学习HTML和CSS的方式。不管您设计和建立新网站，还是想更好地控制现有网站，都可以在《HTML & CSS 设计与构建网站》一书的指导下创建出用户友好、令用户赏心悦目的Web内容。我们知道，编码是一项令人望而生畏的工作，而本书却采用有别于许多传统编程书籍的新颖编排方式，将使您收到事半功倍的学习效果。每一页都在短小精悍的示例代码的引导下，简明直观、直截了当地阐述一个新......一起来看看《HTML & CSS设计与构建网站》这本书的介绍吧!

码农工具