大数据产品经理必备的数据挖掘知识概述(一)认识数据

栏目: 数据库 · 发布时间: 5年前

内容简介:数据挖掘是大数据产品经理必备的技能,本文作者将会为大家详细地分享一些数据挖掘的相关知识。了解数据挖掘知识是大数据产品经理必备的技能,经过了一段时间的深入学习,以及所负责项目中用到的数据挖掘内容,使我对数据挖掘有了更深一步的认识,但自认为还是小白阶段。

数据挖掘是大数据产品经理必备的技能,本文作者将会为大家详细地分享一些数据挖掘的相关知识。

大数据产品经理必备的数据挖掘知识概述(一)认识数据

了解数据挖掘知识是大数据产品经理必备的技能,经过了一段时间的深入学习,以及所负责项目中用到的数据挖掘内容,使我对数据挖掘有了更深一步的认识,但自认为还是小白阶段。

路漫漫其修远兮,在这里,先将总结出来的数据挖掘常见知识点与大家分享,后面陆续更新更多的知识点及项目案例。希望能与君共勉!

(此分享仅包含基础概念知识,旨在帮助大数据产品经理快速了解数据挖掘知识,并能在工作中与算法和开发团队顺利合作,对于更深入的研究如统计学等知识后面有机会再与大家分享~)

第一部分 认识数据(1.1 认识数据 1.2 数据可视化)

第二部分 数据预处理

第三部分 数据仓库相关知识

第四部分 频繁模式、关联和相关性

第五部分 分类挖掘

第六部分 聚类分析

第七部分 离群点检测

以上各部分,我将陆续与大家分享我的学习内容

第一部分 认识数据

1.1 认识数据

1.1.1 数据对象

什么是属性:是一个数据字段,表示数据对象的一个特征。在文献中,属性、维、特征和变量可以互相地使用。机器学习文献更倾向于使用术语“特征”,而统计学家则更愿意使用术语“变量”。数据挖掘和数据库的专业人士则用“属性”。例如,描述顾客对象的属性可能包括customer_ID、name和address.

属性向量:用来描述一个给定对象的一组属性称作属性向量(或特征向量)。涉及的属性(或变量)的数据分布称作“单变量”,分布涉及两个属性为“双变量”等等。

1.1.2 属性类型

属性类型:一个属性的类型由该属性可能具有的值得集合决定。属性可以是标称的、二元的、序数的或数值的。

(1)标称属性

标称属性的值是一些符号或是事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类。这些值,不必具有意义的序。

例如:hari_color(头发颜色)和marital_status(婚姻状况),是两个描述人的属性。hari_color(头发颜色)可能为黑色、棕色、红色、赤褐色、白色、灰色等、属性marital_status的值可能是单身、已婚、离异和丧偶。hair_color和marital_status都是标称属性,他们是无有意义的序。

(标称属性是有意义的序,并且不是定量的,因此,给定一个对象集,找出这种属性的均值(平均值)或中位数(中值)没有意义。然后,意见有意义的事情是使该属性最常出现的值,这个值称为众数,是一种中心趋势度量,后面我们将会介绍到)

(2)二元属性

二元属性是一种标称属性,只是两个类别或状态:0或1,其中0通常表示该属性不出现,二1 表示出现。二元属性又称布尔属性,如果两种状态对应于true和false的话。

(3)序数属性

序数属性其可能的值之间具有有意义的序或秩评定。其值如小、中、大;成绩A+、A、A-、B+;军阶有列兵、一等兵、专业军士、下士、中士等;

序数属性的中心趋势可以用它的众数和中位数(有序序列的中间值)表示,但是不能定义均值。

(4)数值属性

以上介绍的标称、二元和序数属性都是定性的。即,他们描述对象的特征,而不给出实际大小的数量。而数值属性是定量的,即她可度量的量,用整数或实数值表示。数值属性可以是区间标度的或比例标度的。

(5)离散属性与连续属性

机器学习领域开发的分类算法通常把属性分成离散的或是连续的。每种类型都可以用不同的方法处理。离散属性具有优先或无限可数个值,可以用或不用整数表示。如属性hari_color、smoker、medical_test和drink_size都有有限个值,因此是离散的。

如果属性不是离散的,则它是连续的。连续属性一般使用浮点变量表示。

1.1.3 数据的基本统计与描述

(1)中心趋势度量:均值、中位数和众数

均值:数据集的最常用、最有效的数值度量是均值。

大数据产品经理必备的数据挖掘知识概述(一)认识数据

这对应于数据库系统提供的内置聚集函数average(SQL的 avg() )。

有时对于每个值可以有一个权重相关联,权重反应他们所依附的对应值的意义、重要性或出现的频率,公式如下:

大数据产品经理必备的数据挖掘知识概述(一)认识数据 这称做 加权算数均值加权平均

中位数:对于倾斜(非对称)数据,数据中心的更好度量是中位数。中位数是有序数据值得中间值。它把数据较高的一半与较低的一半分开的值。

假定给定某属性X的N个值按递增排序,如果N是奇数,则中位数是该序集中的中间值;如果N是偶数,则中位数不唯一,它是最中间的两个值和它们之间的任意值。在X是数值属性的情况下,嘉定约定,中位数取做最中间两个值的平均值。

众数:众数是另一种中心趋势度量。数据集的整数是集合中出现最频繁的值。因此,可以对定性和定量属性确定众数。可能是最高频率对应多个不同值,导致多个众数。具有一个、两个、三个众数的数据集合分别称为单峰的,双峰的和三峰的。一般地,具有两个或更多众数的数据集是多峰的。在另一种极端的情况下,如果每个数据值仅出现一次,则它是没有众数的。

(2)度量数据散布:极差、四分位数、方差、标准方差、离群点

极差:设某数值属性集合,极差位其最大值(max())与最小值(min())之差。

分位数:假设属性X的数据以数值递增排序,想象我们可以挑选某些数据点,以便把数据分布划分成大小相等的连贯集。如图:

大数据产品经理必备的数据挖掘知识概述(一)认识数据

四分位数:3个数据点,他们把数据分布划分成4个相等部分,使得每部分表示数据分布的四分之一。通常称为四分位数。

方差和标准方差:方差和标准方差都是数据散布度量,他们指出数据分布的散布程度。低标准方差以为数据观察趋向于非常靠近均值,而高标准差表示数据散布在一个大的值域中。

大数据产品经理必备的数据挖掘知识概述(一)认识数据

本文由 @一毛硬币 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

The Filter Bubble

The Filter Bubble

Eli Pariser / Penguin Press / 2011-5-12 / GBP 16.45

In December 2009, Google began customizing its search results for each user. Instead of giving you the most broadly popular result, Google now tries to predict what you are most likely to click on. Ac......一起来看看 《The Filter Bubble》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

随机密码生成器
随机密码生成器

多种字符组合密码

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码