使用Python进行数据降维

栏目: IT技术 · 发布时间: 6年前

内容简介：前言

前言

为什么要进行数据降维？直观地好处是维度降低了，便于计算和可视化，其深层次的意义在于有效信息的提取综合及无用信息的摈弃，并且数据降维保留了原始数据的信息，我们就可以用降维的数据进行机器学习模型的训练和预测，但将有效提高训练和预测的时间与效率。

降维方法分为线性和 非线性 降维，非线性降维又分为基于核函数和基于特征值的方法(流形学习)，代表算法有

线性降维方法：PCA ICA LDA LFA
基于核的非线性降维方法KPCA KFDA
流形学习：ISOMAP LLE LE LPP

本文主要对线性降维方法中的 PCA、ICA、LDA 的 Python 实现进行讲解。

请注意本文将不对各种数据降维方法的 原理与理论推导过程做过多的讲解 ，旨在用尽可能少的语言说清楚以及如何用Python实现， 先实现再理解 ，并在读完代码之后自行查阅相关文献理解其不同的思想。但读者应具有一定的统计学、代数学、机器学习的基础。

主成分分析PCA

主成分分析(Principal Component Analysis)，是一种常用的数据降维方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量就叫主成分。关于主成分分析的思想与理论推导过程在互联网上很容易找到完美的证明，用人话说来就是找到一个轴，将你的数据映射到这个轴上之后所计算的方差最大，再换句人话说就是从原始数据的一堆变量中提取出一部分变量，而这部分变量能完美解释原始数据中包含的信息(或保留原始的数据特性)

使用Python进行数据降维

注意：

进行主成分分析前需对数据进行 归一化处理

PCA流程：

对数据行 归一化处理
计算归一化后的数据集的协方差矩阵与其特征值、特征向量
对特征值从大到小排序并保留最大的个特征向量
将数据转换到个特征向量构建的新空间中

优点：

无参数限制
提取了主要信息并且结果容易理解

缺点：

方差小的主成分可能含有对样本差异的重要信息
在某些情况下，PCA方法得出的主元可能并不是最优的

相关Python代码

sklearn.decomposition.FastICA

Python实现示例(已注释)

import numpy as np
import matplotlib.pyplot as plt
from scipy import signal
from sklearn.decomposition import FastICA, PCA
# 生成观测模拟数据
np.random.seed(0)
n_samples = 2000
time = np.linspace(0, 8, n_samples)
s1 = np.sin(2 * time) # 信号源 1 : 正弦信号
s2 = np.sign(np.sin(3 * time)) # 信号源 2 : 方形信号
s3 = signal.sawtooth(2 * np.pi * time) # 信号源 3: 锯齿波信号
S = np.c_[s1, s2, s3]
S += 0.2 * np.random.normal(size=S.shape) # 增加噪音数据
S /= S.std(axis=0) # 标准化
# 混合数据
A = np.array([[1, 1, 1], [0.5, 2, 1.0], [1.5, 1.0, 2.0]]) # 混合矩阵
X = np.dot(S, A.T) # 生成观测信号源
# ICA模型
ica = FastICA(n_components=3)
S_ = ica.fit_transform(X) # 重构信号
A_ = ica.mixing_ # 获得估计混合后的矩阵
# PCA模型
pca = PCA(n_components=3)
H = pca.fit_transform(X) # 基于PCA的成分正交重构信号源
# 图形展示
plt.figure()
models = [X, S, S_, H]
names = ['Observations (mixed signal)',
         'True Sources',
         'ICA recovered signals',
         'PCA recovered signals']
colors = ['red', 'steelblue', 'orange']
for ii, (model, name) in enumerate(zip(models, names), 1):
    plt.subplot(4, 1, ii)
    plt.title(name)
    for sig, color in zip(model.T, colors):
        plt.plot(sig, color=color)
plt.subplots_adjust(0.09, 0.04, 0.94, 0.94, 0.26, 0.46)
plt.show()

以上就是早起的统计工具箱第二期的内容，当然想要完全学会还需要自行查阅更多文献，而更多的数据降维方法、还有上一期未介绍完的python统计检验我们之后再聊。

本文经授权转载自公众号早起python（每日分享数学/统计学/数据分析/python爬虫/网站开发运维相关知识），作者刘早起。

使用Python进行数据降维

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

程序设计基础

谢书良 / 2010-5 / 29.50元

《程序设计基础》是为从来没有接触过程序设计的读者编写的“零起点”入门教材。全书共分8章，第1章主要介绍程序设计的概念和程序运行的环境，第2章介绍了基本的数据类型、运算符与表达式，第3章介绍面向过程程序的顺序、分支选择和循环三种控制结构，第4章至第7章分别介绍了数组、指针的概念，结构体和其他数据类型，函数及其调用，内容涵盖了C++面向过程程序设计内容，与C语言教材完全兼容。第8章是体现《程序设计基础......一起来看看《程序设计基础》这本书的介绍吧!

码农工具

使用Python进行数据降维

程序设计基础

CSS 压缩/解压工具

随机密码生成器

URL 编码/解码