使用 SPSS 通过数据分析生成洞察

栏目: 数据库 · 发布时间: 5年前

内容简介:作为一个数据挖掘应用程序,IBM SPSS Modeler 提供了一种在大数据集中查找有用关系的策略方法。与更传统的统计方法相比,您不需要在一开始就知道要查找哪些关系。您可以探索您的数据,拟合不同的模型并研究不同的关系,直到找到有用的信息。本教程已在 Windows 7 上使用 IBM SPSS Modeler v18.1 进行了测试。学完本教程后,您将掌握如何:完成本教程大约需要 30 分钟。

作为一个数据挖掘应用程序,IBM SPSS Modeler 提供了一种在大数据集中查找有用关系的策略方法。与更传统的统计方法相比,您不需要在一开始就知道要查找哪些关系。您可以探索您的数据,拟合不同的模型并研究不同的关系,直到找到有用的信息。本教程已在 Windows 7 上使用 IBM SPSS Modeler v18.1 进行了测试。

学习目标

学完本教程后,您将掌握如何:

  • 使用 IBM SPSS Modeler v18.1 创建统计模型并审查所创建的统计模型

前提条件

预估时间

完成本教程大约需要 30 分钟。

步骤

启动 IBM SPSS Modeler

利用 IBM SPSS Modeler 处理数据需要三个步骤。

  • 首先,将数据读入 IBM SPSS Modeler。
  • 其次,通过一系列操作来运行数据。
  • 最后,将数据发送至目标。

这个操作序列被称为数据流,因为每个操作中,数据都是按照记录逐条地从数据源移动,最终,生成一种模型或数据输出。

循序渐进地进行这个过程。。通过右键单击每个节点并按住 Connect 移动到下一个节点,选择节点、操作节点并连接到后续节点。

1.读取数据

导入数据

这是 SPSS 流中的第一步。选择 Sources 面板下的 Var.File 节点,并拖放到 SPSS Modeler 界面上。 Var.File 选项用于读取 csv 文件、文本文件等。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

读取数据

下一步是读取 SPSS 中的数据。选择文件右侧的单选按钮,导航到保存数据文件的文件夹。单击 open ,然后单击 OK

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

审核数据

第三步是从 Output 面板中选择 Data Audit 节点。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

Data Audit 节点有助于确认存在多少条有效记录,以及基本的统计数据。下面的屏幕截图显示记录总数为 84672, Revenue 及下面的属性仅有 24743 条有效记录,剩余属性为 null。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

替换 null 值

下一个操作是将 null 替换为各个属性的均值。从 Field Ops 面板中选择 Filler 节点,然后从 Output 面板中选择 Set Globals 节点,以查找多个属性的均值。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

Nulls 替换为 Mean (均)值。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

派生新变量

数值列应该包含实数。这里创建了一个名为 Quantity_New 的新属性用于将数据类型从整数转换为实数。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

将新创建的变量的 Nulls 替换为 Mean 值。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

再次审核数据

再次运行 Data Audit ,检查 Nulls 是否已替换为 Mean 值。 请注意,除 Quantity 外的所有属性都有 84672 条记录。使用 Quantity_New 属性替换 Quantity ,以便实现数据分析和建模。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

2.提炼数据

选择输入参数

继续执行下一个操作。选择输入参数和目标变量。从 Field Ops 面板中选择 Type 节点。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

Type 节点允许选择输入变量和目标变量。应该忽略分类变量,按以下方式进行选择。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

对数据进行分区

我们需要在 训练与测试数据 之间使用推荐的 70:30 拆分比例来分割数据。从 Field Ops 面板中选择 Partition 节点。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

基于 Training data 上构建模型,并在 Testing Data 上进行测试。在数据中创建 分区

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

选择用于构建模型的训练数据

使用 Record Ops 中的 Select 节点来选择用于构建模型的 训练数据

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

选择 Training Data 节点,并单击 Annotations 将其重命名为 Training_Data 。默认名称为 Select。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

从 Modelling 面板,将 Auto Numeric 节点拖放到界面上。当我们预测一个连续变量(数值数据)时,我们选择 Auto Numeric 节点。如果您想预测一个分类变量,请选择 Auto Classifier 节点。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

节点的名称默认为我们尝试预测的变量。在本例中,该名称是 Revenue 。在此节点中,我们将使用 Fields 下为实现建模而预定义的角色。因为我们上一步已在 Type 节点下选择了输入和目标变量。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

我们选择以下 参数 建模。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

我们可以在 Auto Numeric 节点中的 Expert 选项卡下选择不同的算法,然后右键单击该节点并单击 Run。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

3.审查并测试模型

审查统计模型

我们使用 SPSS 创建了 3 个用于预测的模型,因为我们已在 Auto Numeric 节点中将要使用的模型数量指定为 3。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

选择第一个模型,单击 Graph 选项卡来查看散点图和预测指标重要性。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

单击 Summary 选项卡来识别输入/目标变量和其他详细信息。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

测试模型

使用 Record Ops 中的 Select 节点来选择用于模型测试和评估的 测试数据

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

选择 Testing Data 并单击 Annotations ,将该节点重命名为 Testing_Data。默认名称为 Select。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

右键单击 Testing_Data 节点 并连接到该模型块,然后单击 Run。从 Output 面板中选择 Analysis 节点,将它连接到模型块并单击 Run。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

分析结果

分析结果 。在本例中,模型的准确率为 100%,没有误差,这与大多数时候的情况不符。模型准确度和误差还取决于正在使用的数据。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

导出结果

从 Output 面板中选择 Table 节点来导出结果。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

Table 节点中,选择 output to file 选项将结果导出到 csv 文件。选择 File name 旁边的单选按钮,并提供 csv 文件的导出路径。输出文件有两个附加属性: $XR-Revenue 是我们预测的输出,它是每个模型各自的预测值的平均值, $XRE-Revenue 是全体模型所做预测的标准误差。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

4.完成 SPSS 建模流

下面显示了该流的完整流程。

使用 SPSS 通过数据分析生成洞察

使用 SPSS 通过数据分析生成洞察

本文仅尝试介绍了创建 统计模型 的基本步骤。可以进一步增强这些步骤,以满足不同的需求。

结束语

感谢您阅读本教程,希望您在下一个数据分析项目中更精通并更倾向于使用 IBM SPSS Modeler 18.1。

参考资源


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

测试驱动开发的艺术

测试驱动开发的艺术

Lasse Koskela / 李贝 / 人民邮电出版社 / 20101023 / 59.00元

在传统的软件开发中,开发人员对于代码是否正确心中无底,一切依赖于后期的测试环节。极限编程反其道而行之,主张采用测试驱动开发(TDD)的方法,即通过测试定义所要开发的功能的接口,然后实现功能的开发过程。TDD通过不断地测试推动代码的开发,既简化了代码,又保证了软件质量。 本书采用“手把手”的教学方式,通过大量实例来解释TDD,还专门用几章的篇幅来讲解如何为难于测试的技术编写单元测试。全书内容循......一起来看看 《测试驱动开发的艺术》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

在线进制转换器
在线进制转换器

各进制数互转换器

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具