大数据产品经理必备的数据挖掘知识概述（一）认识数据

栏目: 数据库 · 发布时间: 7年前

内容简介：数据挖掘是大数据产品经理必备的技能，本文作者将会为大家详细地分享一些数据挖掘的相关知识。了解数据挖掘知识是大数据产品经理必备的技能，经过了一段时间的深入学习，以及所负责项目中用到的数据挖掘内容，使我对数据挖掘有了更深一步的认识，但自认为还是小白阶段。

数据挖掘是大数据产品经理必备的技能，本文作者将会为大家详细地分享一些数据挖掘的相关知识。

了解数据挖掘知识是大数据产品经理必备的技能，经过了一段时间的深入学习，以及所负责项目中用到的数据挖掘内容，使我对数据挖掘有了更深一步的认识，但自认为还是小白阶段。

路漫漫其修远兮，在这里，先将总结出来的数据挖掘常见知识点与大家分享，后面陆续更新更多的知识点及项目案例。希望能与君共勉！

（此分享仅包含基础概念知识，旨在帮助大数据产品经理快速了解数据挖掘知识，并能在工作中与算法和开发团队顺利合作，对于更深入的研究如统计学等知识后面有机会再与大家分享~）

第一部分认识数据（1.1 认识数据 1.2 数据可视化）

第二部分数据预处理

第三部分数据仓库相关知识

第四部分频繁模式、关联和相关性

第五部分分类挖掘

第六部分聚类分析

第七部分离群点检测

以上各部分，我将陆续与大家分享我的学习内容

第一部分认识数据

1.1 认识数据

1.1.1 数据对象

什么是属性：是一个数据字段，表示数据对象的一个特征。在文献中，属性、维、特征和变量可以互相地使用。机器学习文献更倾向于使用术语“特征”，而统计学家则更愿意使用术语“变量”。数据挖掘和数据库的专业人士则用“属性”。例如，描述顾客对象的属性可能包括customer_ID、name和address.

属性向量：用来描述一个给定对象的一组属性称作属性向量（或特征向量）。涉及的属性（或变量）的数据分布称作“单变量”，分布涉及两个属性为“双变量”等等。

1.1.2 属性类型

属性类型：一个属性的类型由该属性可能具有的值得集合决定。属性可以是标称的、二元的、序数的或数值的。

（1）标称属性

标称属性的值是一些符号或是事物的名称。每个值代表某种类别、编码或状态，因此标称属性又被看做是分类。这些值，不必具有意义的序。

例如：hari_color（头发颜色）和marital_status（婚姻状况），是两个描述人的属性。hari_color(头发颜色)可能为黑色、棕色、红色、赤褐色、白色、灰色等、属性marital_status的值可能是单身、已婚、离异和丧偶。hair_color和marital_status都是标称属性，他们是无有意义的序。

（标称属性是有意义的序，并且不是定量的，因此，给定一个对象集，找出这种属性的均值（平均值）或中位数（中值）没有意义。然后，意见有意义的事情是使该属性最常出现的值，这个值称为众数，是一种中心趋势度量，后面我们将会介绍到）

（2）二元属性

二元属性是一种标称属性，只是两个类别或状态：0或1，其中0通常表示该属性不出现，二1 表示出现。二元属性又称布尔属性，如果两种状态对应于true和false的话。

（3）序数属性

序数属性其可能的值之间具有有意义的序或秩评定。其值如小、中、大；成绩A+、A、A-、B+；军阶有列兵、一等兵、专业军士、下士、中士等；

序数属性的中心趋势可以用它的众数和中位数（有序序列的中间值）表示，但是不能定义均值。

（4）数值属性

以上介绍的标称、二元和序数属性都是定性的。即，他们描述对象的特征，而不给出实际大小的数量。而数值属性是定量的，即她可度量的量，用整数或实数值表示。数值属性可以是区间标度的或比例标度的。

（5）离散属性与连续属性

机器学习领域开发的分类算法通常把属性分成离散的或是连续的。每种类型都可以用不同的方法处理。离散属性具有优先或无限可数个值，可以用或不用整数表示。如属性hari_color、smoker、medical_test和drink_size都有有限个值，因此是离散的。

如果属性不是离散的，则它是连续的。连续属性一般使用浮点变量表示。

1.1.3 数据的基本统计与描述

（1）中心趋势度量：均值、中位数和众数

均值：数据集的最常用、最有效的数值度量是均值。

大数据产品经理必备的数据挖掘知识概述（一）认识数据

这对应于数据库系统提供的内置聚集函数average（SQL的 avg() ）。

有时对于每个值可以有一个权重相关联，权重反应他们所依附的对应值的意义、重要性或出现的频率，公式如下：

大数据产品经理必备的数据挖掘知识概述（一）认识数据这称做 加权算数均值 或 加权平均 。

中位数：对于倾斜（非对称）数据，数据中心的更好度量是中位数。中位数是有序数据值得中间值。它把数据较高的一半与较低的一半分开的值。

假定给定某属性X的N个值按递增排序，如果N是奇数，则中位数是该序集中的中间值；如果N是偶数，则中位数不唯一，它是最中间的两个值和它们之间的任意值。在X是数值属性的情况下，嘉定约定，中位数取做最中间两个值的平均值。

众数：众数是另一种中心趋势度量。数据集的整数是集合中出现最频繁的值。因此，可以对定性和定量属性确定众数。可能是最高频率对应多个不同值，导致多个众数。具有一个、两个、三个众数的数据集合分别称为单峰的，双峰的和三峰的。一般地，具有两个或更多众数的数据集是多峰的。在另一种极端的情况下，如果每个数据值仅出现一次，则它是没有众数的。

（2）度量数据散布：极差、四分位数、方差、标准方差、离群点

极差：设某数值属性集合，极差位其最大值(max())与最小值(min())之差。

分位数：假设属性X的数据以数值递增排序，想象我们可以挑选某些数据点，以便把数据分布划分成大小相等的连贯集。如图：

大数据产品经理必备的数据挖掘知识概述（一）认识数据

四分位数：3个数据点，他们把数据分布划分成4个相等部分，使得每部分表示数据分布的四分之一。通常称为四分位数。

方差和标准方差：方差和标准方差都是数据散布度量，他们指出数据分布的散布程度。低标准方差以为数据观察趋向于非常靠近均值，而高标准差表示数据散布在一个大的值域中。

大数据产品经理必备的数据挖掘知识概述（一）认识数据

本文由 @一毛硬币原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Kafka技术内幕

郑奇煌 / 人民邮电出版社 / 2017-11 / 119.00元

Kafka自LinkedIn开源以来就以高性能、高吞吐量、分布式的特性著称，本书以0.10版本的源码为基础，深入分析了Kafka的设计与实现，包括生产者和消费者的消息处理流程，新旧消费者不同的设计方式，存储层的实现，协调者和控制器如何确保Kafka集群的分布式和容错特性，两种同步集群工具MirrorMaker和uReplicator，流处理的两种API以及Kafka的一些高级特性等。一起来看看《Kafka技术内幕》这本书的介绍吧!

码农工具

大数据产品经理必备的数据挖掘知识概述（一）认识数据