Spark Troubleshooting - Task not serializable问题分析

栏目: 服务器 · 发布时间: 7年前

内容简介：出现“org.apache.spark.SparkException: Task not serializable”这个错误，一般是因为在map、filter等的参数使用了外部的变量，但是这个变量不能序列化。其中最普遍的情形是：当引用了某个类（经常是当前类）的成员函数或变量时，会导致这个类的所有成员（整个类）都需要支持序列化。虽然许多情形下，当前类使用了“extends Serializable”声明支持序列化，但是由于某些字段不支持序列化，仍然会导致整个类序列化时出现问题，最终导致出现Task未序列化问

出现“org.apache.spark.SparkException: Task not serializable”这个错误，一般是因为在map、filter等的参数使用了外部的变量，但是这个变量不能序列化。其中最普遍的情形是：当引用了某个类（经常是当前类）的成员函数或变量时，会导致这个类的所有成员（整个类）都需要支持序列化。虽然许多情形下，当前类使用了“extends Serializable”声明支持序列化，但是由于某些字段不支持序列化，仍然会导致整个类序列化时出现问题，最终导致出现Task未序列化问题。

解决办法与编程建议

这个问题主要是引用了某类的成员变量或函数，并且相应的类没有做好序列化处理导致的。因此解决这个问题无非以下两种方法：

不在（或不直接在）map等闭包内部直接引用某类成员函数或成员变量

对于依赖某类成员变量的情形

如果程序依赖的值相对固定，可取固定的值，或定义在map、filter等操作内部，或定义在scala object对象中。

如果依赖值需要程序调用时动态指定（以函数参数形式），则在map、filter等操作时，可不直接引用该成员变量，而是根据成员变量的值重新定义一个局部变量，这样map等算子就无需引用类的成员变量。
对于依赖某类成员函数的情形

如果函数功能独立，可定义在scala object对象中（类似于 Java 中的static方法），这样就无需一来特定的类。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

数据结构与算法

2009-8 / 32.00元

《数据结构与算法》系统地介绍了数据结构的基本概念和基本算法，主要内容包括：绪论，线性表，栈与队列，串，数组、特殊矩阵和广义表，树，图，排序，查找，算法的分析与设计，实验与上机指导。《数据结构与算法》特别注重突出应用性和实践性，实例和习题丰富，并在附录中给出了各章习题的答案。《数据结构与算法》适合作为应用型本科院校和成人教育计算机专业数据结构课程的教材，也可作为数据结构培训班的教材以及软件从......一起来看看《数据结构与算法》这本书的介绍吧!

码农工具