Python基础数据处理库-Pandas

栏目: Python · 发布时间: 8年前

内容简介：Python基础数据处理库-Pandas

最近更新：2018-01-11

pandas是 Python 数据工作的基础库之一，它和numpy、scipy共成为Python数据处理的三剑客。pandas在数据录入、查看、预处理、统计分析、时间序列等方面具有非常强大的能力。尤其它里面的数据框跟R中的数据框类似，其具有的交互性以及对非结构化、非数值型数据的处理能力让Python的基础数据处理事半功倍。

1、Pandas读取数据文件

相对于Python默认函数以及Numpy读取文件的方法，Pandas读取数据的方法更加丰富。Pandas读取文本文件数据的常用方法如下表：

方法	描述	返回数据
read_csv	读取csv文件	DataFrame 或TextParser
read_fwf	读取表格或固定宽度格式的文本行到数据框	DataFrame 或TextParser
read_table	读取通用分隔符分隔的数据文件到数据框	DataFrame 或TextParser

1.1 使用read_cvs方法读取数据

通过read_csv方法可以读取csv格式的数据文件。

read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, **kwds)

参数（read_csv的参数众多，以下介绍最常用的几个参数）:

filepath_or_buffer：字符串，要读取的文件对象，必填。
sep：字符串，分隔符号，选填，默认值为英文逗号','。
names：类数组，列名，选填，默认值为空。
skiprows：类字典或整数型，要跳过的行或行数，选填，默认为空。
nrows：整数型，要读取的前记录总数，选填，默认为空，常用来在大型数据集下做初步探索之用。
thousands：字符串，千位符符号，选填，默认为空。
decimal：字符串，小数点符号，选填，默认为点（.），在特定情况下应用，例如欧洲的千位符和小数点跟中国地区相反，欧洲的321,1对应中国的4,321.1。

1.2 使用read_ fwf 方法读取数据

通过read_fwf方法可以读取表格或固定宽度格式的文本行到数据框。

read_fwf(filepath_or_buffer, colspecs='infer', widths=None, **kwds)

参数

read_fwf跟read_csv一样都具有非常多的参数（只是在语法中前者通过**kwds省略了，查询完整语法请使用help(pd.read_fwf)），并且大多数参数的用法相同。除了read_csv中的常用参数外，以下介绍几个read_fwf特有且常用的参数。

 widths：由整数组成的列表，选填，如果间隔是连续的，可以使用的字段宽度列表而不是“colspecs”。

1.3 使用read_ table 方法读取数据

通过read_table方法可以读取通用分隔符分隔的数据文件到数据框。

read_table(filepath_or_buffer, sep='\t', delimiter=None, header='infer', names=None, index_col=None, usecols=None, **kwds)

对于read_table而言，参数与read_csv完全相同。其实read_csv本来就是read_table中分隔符是逗号的一个特例，表现在语法中是read_csv的sep=','（默认）。因此，具体参数请查阅read_csv的参数部分。

Pandas其他数据读取方法

方法	描述	返回数据
read_clipboard	读取剪贴板数据，然后将对象传递给read_table方法	DataFrame 或TextParser
read_excel	从excel中读取数据	DataFrame或DataFrame构成的字典
read_gbq	从Google Bigquery中读取数据	DataFrame
read_hdf	读取文件中的Pandas对象	所选择的数据对象
read_html	读取HTML中的表格	由DataFrame构成的字典
read_json	将JSON对象转换为Pandas对象	Series或 DataFrame，具体取决于参数typ设置
read_msgpack	从指定文件中加载msgpack Pandas对象	文件中的对象类型
read_pickle	从指定文件中加载pickled Pandas或其他pickled对象	文件中的对象类型
read_sas	读取XPORT或SAS7BDAT格式的SAS（统计分析软件）文件	DataFrame或SAS7BDATReader或XportReader，具体取决于设置
read_sql	读取 SQL 请求或数据库中的表	DataFrame
read_sql_query	从SQL请求读取数据	DataFrame
read_sql_table	读取SQL数据库中的表	DataFrame
read_stata	读取Stata（统计分析软件）文件	DataFrame或StataReader

如何选择最佳读取数据的方法

关于“最佳”方法其实没有固定定义，因此所谓的最佳方法往往跟以下具体因素有关：

数据源情况：数据源中不同的字段类型首先会制约读取方法的选择，文本、数值、二进制数据都有各自的适应方法约束。
数据处理目标：读取数据往往是第一步，后续会涉及到数据探索、预处理、统计分析等复杂过程，这些复杂过程需要用到哪些方法都会一定程度上受数据源的读取影响，影响最多的点包括格式转换、类型转换、异常值处理、分类汇总等。
模型数据要求：不同的模型对于数据格式的要求是不同的，应用到实际中不同的工具对于数据的表示方法也有所差异。
“手感”最好的方法：很多时候，最佳方法往往是对哪个或哪些方法最熟悉，这些所谓的“手感”最好的方法便是最佳方法。

当然，即使使用了不是“最佳”的数据读取方法也不必过于担心，因为Python强大的功能提供了众多可以相互进行转换的方法，从Python存储数据的基本对象类型来看，无非是字符串、列表、字典、元组、数组、矩阵等（当然不同的库对于这些对象的定义名称可能有所不同，但基本含义相同），不同对象的类型转换都非常容易。但本着少走弯路的原则，在这里笔者还是针对不同的场景提供了较为适合的数据读取方法：

对于纯文本格式或非格式化、非结构化的数据，通常用于自然语言处理、非结构化文本解析、应用正则表达式等后续应用场景下，Python默认的三种方法更为适合。
对于结构化的、纯数值型的数据，并且主要用于矩阵计算、数据建模的，使用Numpy的loadtxt更为方便，例如本书中使用的sklearn本身就依赖于Numpy。
对于二进制的数据处理，使用Numpy的load和fromfile更为合适。
对于结构化的、探索性的数据统计和分析的场景，使用Pandas进行读取效果更佳，因为其提供了类似于R的数据框，可以实现“仿SQL”式的操作方式，对数据进行任意的翻转、切片（块等）、关联等都非常方便。
对于结构化的、数值型和文本型组合的数据统计分析场景，使用Pandas更为合适，因为每个数据框中几乎可以装载并处理任意格式的数据。

2、Pandas缺失值处理

先生成带有缺失值的模拟数据：

import pandas as pd  # 导入pandas库
import numpy as np  # 导入numpy库
df = pd.DataFrame(np.random.randn(6, 4), columns=['col1', 'col2', 'col3', 'col4'])  # 生成一份数据
df.iloc[1:2, 1] = np.nan  # 增加缺失值
df.iloc[4, 3] = np.nan  # 增加缺失值
print (df)

示例数据结果中如下：

       col1      col2      col3      col4
0 -0.424315  1.024795  0.665549  0.721605
1 -0.502295       NaN -0.147179 -0.150555
2  0.009386  0.490898 -0.128985  0.013604
3 -0.395965  0.792293 -1.416035 -0.261842
4 -0.218898  0.273137 -0.547399       NaN
5 -0.029000 -1.773710  1.190229 -1.451912

2.1 Pandas查看缺失值

2.1.1 查看哪些值缺失

# 查看哪些值缺失
nan_all = df.isnull()  # 获得所有数据框中的NA值
print (nan_all)  # 打印输出

详细缺失值结果如下：

    col1   col2   col3   col4
0  False  False  False  False
1  False   True  False  False
2  False  False  False  False
3  False  False  False  False
4  False  False  False   True
5  False  False  False  False

2.1.2 查看哪些列具有缺失值

# 查看哪些列缺失
nan_col1 = df.isnull().any()  # 获得含有NA的列
nan_col2 = df.isnull().all()  # 获得全部为NA的列
print (nan_col1)  # 打印输出
print (nan_col2)  # 打印输出

上面的方法中，第一个方法是查看所有列中，只要有一个值为NA的；在any方法中，还可以加入对行或列的判断，例如：

any(axis=0)：用于判断以列为单位的缺失值，如果一列中存在任何一个缺失值则为True。
any(axis=1)：用于判断以行为单位的缺失值，如果一行中存在任何一个缺失值则为True。

第二个方法是查看所有列都为NA的，结果如下：

col1    False
col2     True
col3    False
col4     True
dtype: bool
col1    False
col2    False
col3    False
col4    False
dtype: bool

2.2 Pandas丢弃缺失值

df2 = df.dropna()  # 直接丢弃含有NA的行记录
print (df2)  # 打印输出

输出结果如下：

       col1      col2      col3      col4
0 -0.424315  1.024795  0.665549  0.721605
2  0.009386  0.490898 -0.128985  0.013604
3 -0.395965  0.792293 -1.416035 -0.261842
5 -0.029000 -1.773710  1.190229 -1.451912

所有带有缺失值的行记录被删除

pandas支持按行或列做删除，例如删除带有缺失值的列，并且以指定所有数据都是NA还是只有一个值为NA。指定按行/列删除用axis参数，指定NA是含有任意一个还是全部都是NA使用how参数。具体用法如下：

df.dropna(axis=1, how='all')

其中：

axis取值为0 ('index')或1 ('columns')

how取值为'any'或'all'

2.2 Pandas填充缺失值

pandas填充缺失值有很多种方法：

# 使用pandas将缺失值替换为特定值
nan_result_pd1 = df.fillna(method='backfill')  # 用后面的值替换缺失值
nan_result_pd2 = df.fillna(method='bfill', limit=1)  # 用后面的值替代缺失值,限制每列只能替代一个缺失值
nan_result_pd3 = df.fillna(method='pad')  # 用前面的值替换缺失值
nan_result_pd4 = df.fillna(0)  # 用0替换缺失值
nan_result_pd5 = df.fillna({'col2': 1.1, 'col4': 1.2})  # 用不同值替换不同列的缺失值
nan_result_pd6 = df.fillna(df.mean()['col2':'col4'])  # 用平均数代替,选择各自列的均值替换缺失值
# 打印输出
print (nan_result_pd1)  # 打印输出
print (nan_result_pd2)  # 打印输出
print (nan_result_pd3)  # 打印输出
print (nan_result_pd4)  # 打印输出
print (nan_result_pd5)  # 打印输出
print (nan_result_pd6)  # 打印输出

填充后的结果如下：

       col1      col2      col3      col4
0 -0.424315  1.024795  0.665549  0.721605
1 -0.502295  0.490898 -0.147179 -0.150555
2  0.009386  0.490898 -0.128985  0.013604
3 -0.395965  0.792293 -1.416035 -0.261842
4 -0.218898  0.273137 -0.547399 -1.451912
5 -0.029000 -1.773710  1.190229 -1.451912
       col1      col2      col3      col4
0 -0.424315  1.024795  0.665549  0.721605
1 -0.502295  0.490898 -0.147179 -0.150555
2  0.009386  0.490898 -0.128985  0.013604
3 -0.395965  0.792293 -1.416035 -0.261842
4 -0.218898  0.273137 -0.547399 -1.451912
5 -0.029000 -1.773710  1.190229 -1.451912
       col1      col2      col3      col4
0 -0.424315  1.024795  0.665549  0.721605
1 -0.502295  1.024795 -0.147179 -0.150555
2  0.009386  0.490898 -0.128985  0.013604
3 -0.395965  0.792293 -1.416035 -0.261842
4 -0.218898  0.273137 -0.547399 -0.261842
5 -0.029000 -1.773710  1.190229 -1.451912
       col1      col2      col3      col4
0 -0.424315  1.024795  0.665549  0.721605
1 -0.502295  0.000000 -0.147179 -0.150555
2  0.009386  0.490898 -0.128985  0.013604
3 -0.395965  0.792293 -1.416035 -0.261842
4 -0.218898  0.273137 -0.547399  0.000000
5 -0.029000 -1.773710  1.190229 -1.451912
       col1      col2      col3      col4
0 -0.424315  1.024795  0.665549  0.721605
1 -0.502295  1.100000 -0.147179 -0.150555
2  0.009386  0.490898 -0.128985  0.013604
3 -0.395965  0.792293 -1.416035 -0.261842
4 -0.218898  0.273137 -0.547399  1.200000
5 -0.029000 -1.773710  1.190229 -1.451912
       col1      col2      col3      col4
0 -0.424315  1.024795  0.665549  0.721605
1 -0.502295  0.161482 -0.147179 -0.150555
2  0.009386  0.490898 -0.128985  0.013604
3 -0.395965  0.792293 -1.416035 -0.261842
4 -0.218898  0.273137 -0.547399 -0.225820
5 -0.029000 -1.773710  1.190229 -1.451912

3、Pandas数据切片/切块/筛选/过滤

3.1 通过列名选择特定列

# 生成数据   
df = pd.DataFrame({'id': [3566841, 6541227, 3512441],
                   'sex': ['male', 'Female', 'Female'],
                   'level': ['hight', 'low', 'middle']})
# 建立针对特定列名的列表并过滤数据   
col_name = ['id','sex']
col_data = df[col_name]  # 获得每列数据   
print(col_data)

过滤后的数据如下：

        id     sex
0  3566841    male
1  6541227  Female
2  3512441  Female

在针对列名的过滤中，如果过滤单一列，COL_NAME可以是字符串，也可以是由一个字符串组成的列表。但前者过滤后是一个series，后者过滤后是一个DataFrame，二者在后续的操作上会有差异。

3.2 通过列名属性的选择方法选择特定列数据

Pandas提供了直接通过属性选择列值的方法，格式为：

# 使用列名做为属性选择特定列数据
df.sex

上面代码返回如下结果：

0      male
1    Female
2    Female
Name: sex, dtype: object

注意：这种操作方法需要对DataFrame已经做过列命名，如果创建数据框时没有定义列名（例如使用默认的index），那么这种操作方法是不可行的。

3.3 通过loc方法选择列数据或切块数据

Pandas提供了loc方法选择特定数据，格式为：

# df.loc[index1:index2,[col1,col2]]
df.loc[0:1,['id','sex']] # 选择前2行以及id和sex列数据

上面代码返回如下结果：

        id     sex
0  3566841    male
1  6541227  Female

其中：index1和index2为行索引值（注意从0开始）；col1、col2等是列名，如果要选择所有列，按脉直接使用:即可，例如df.loc[0:1,:]

3.4 通过iloc方法选择列数据或切块数据

Pandas提供了iloc方法可以灵活的选择特定数据，它的用法跟loc基本一致，但二者的区别在于loc方法中，可以通过列名选择数据，而iloc只能通过列索引值选择数据，格式为：

# df.loc[index1:index2,col_index1,col_index2]]   
df.loc[0:1,0:1] # 选择前2行以及id和sex列数据

上面代码返回如下结果：

其中：index1和index2为行索引值（注意从0开始）；col_index1、col_index2是列索引名

3.5 通过ix方法选择数据

Pandas提供了ix方法，这个方法可以看成是iloc和loc的结合体，由于它结合了二者的用法，在做列选取时即可使用索引值，也可以使用列名标签。因此是实用性最广的灵活选择方法。格式为：

df.ix[0:1,0:1] # 索引选择
df.ix[0:1,['id']] # 列名选择

以上两种写法是等效的，上面代码返回如下结果：

        id
0  3566841
1  6541227

总结

在官方的建议中，不建议使用ix方法。
对于列名类的选择，建议使用的是loc方法；
对于索引类的选择，建议使用的是iloc方法；
对于单纯列（单列或多列）的选择，使用属性的方法选择单列最简单，但列名方法却更实用，因此它可以灵活定义可变列。

4、Pandas字符串与日期转换和解析

pandas中的datetime库是处理与日期相关主要功能库，其中的strftime用来将字符串解析为日期格式，与strptime方法对应的是strftime方法，用来将日期转换为字符串。关于日期的格式，pandas采用的是python默认的日期格式，完整见https://docs.python.org/2/library/datetime.html#strftime-and-strptime-behavior。以下是常用的日期格式字符串如下：

表4-6 日期字符串

字符串	日期格式	示例
%y	2个数字表示的年份	99
%Y	4个数字表示的年份	1999
%b	月份的简写	Jan
%B	月份的全写	January
%m	月份（[01,12]）	10
%a	星期的简写	Mon
%A	星期的全写	Monday
%w	周几（[0, 6]）0表示周一，以此类推	5
%U	当年的第几周，星期日作为周的第一天（[00,53]）	30
%W	当年的第几周，星期一作为周的第一天（[00,53]）	30
%d	日是这个月的第几天，范围[01,31]	12
%p	AM或PM	AM
%H	小时（24小时制，[00, 23]）	20
%I	小时（12小时制，[01, 12]）	12
%j	日在年中的天数 [001,366]	360
%M	分钟（[00,59]）	59
%S	秒（[00,59]）	59
%f	微秒（[000000,999999]）	0

将字符串转化为日期

# 定义一个时间字符串
date_str = '01-12-2017'
date_formate = pd.datetime.strptime(date_str, '%m-%d-%Y')
print(date_formate)

上述代码执行后，格式化的日期为：

2017-01-12 00:00:00

将日期转化为字符串

date_convert = pd.datetime.strftime(date_formate, '%Y-%m-%d')
print(date_convert)

转换后的结果如下：

2017-01-12

实际上，由于该操作是针对单个字符串对象进行的，我们更多的会使用“批量”的方式做字符串格式解析，例如：

date_parse = lambda dates: pd.datetime.strptime(dates, '%m-%d-%Y')  # 创建解析列的功能对象
df = pd.read_table('time_series.txt', delimiter='\t', index_col='date', date_parser=date_parse)  # 读取数据

上述代码中，在使用pandas的read_table读取数据文件时，通过index_col指定date列为索引列，代替默认的数值索引；通过date_parser参数指定刚才定义的日期解析功能项。

5、Pandas基本数据查看

先创建一个demo数据框

cols = ['col_'+str(i) for i in range(3)]   # 自定义列名
df = pd.DataFrame(np.arange(12).reshape(4,3),columns = cols) #创建数据框
df.iloc[1,1] = 'a' # 为了方便，我们将其中加入字符串数据
print(df) # 输出查看

示例数据如下：

   col_0 col_1  col_2
0      0     1      2
1      3     a      5
2      6     7      8
3      9    10     11

5.1 描述性统计

使用describe方法查看，描述性统计结果：

df.describe()

结果如下：

          col_0      col_2
count  4.000000   4.000000
mean   4.500000   6.500000
std    3.872983   3.872983
min    0.000000   2.000000
25%    2.250000   4.250000
50%    4.500000   6.500000
75%    6.750000   8.750000
max    9.000000  11.000000

结果发现，统计结果中，没有col_1的结果，原因是其中有一个字符串a。我们通过设置参数来查看所有列的情况：

df.describe(include='all')

这次返回结果如下：

           col_0  col_1      col_2
count   4.000000    4.0   4.000000
unique       NaN    4.0        NaN
top          NaN    7.0        NaN
freq         NaN    1.0        NaN
mean    4.500000    NaN   6.500000
std     3.872983    NaN   3.872983
min     0.000000    NaN   2.000000
25%     2.250000    NaN   4.250000
50%     4.500000    NaN   6.500000
75%     6.750000    NaN   8.750000
max     9.000000    NaN  11.000000

这次我们看到了出现了一些新的统计指标，包括unique、top、freq，这些是针对字符串列出现的新指标。

5.2 查看各列类型

在上面的示例中，我们已经发现，col_1无法做普通的描述性统计，这个问题其实在最开始可以通过查看dtype来发现。

查看所有列的属性

df.dtypes

返回结果如下：

col_0     int32
col_1    object
col_2     int32
dtype: object

我们看到第2列是object属性，也就是字符串列。

5.3查看前n条数据

查看基本数据状态是非常常用的操作，要查看TOP N条数据，使用head方法，具体为：

df.head(n)

其中n是要查看的数据记录的数量，默认n为5。如果设置n为2，上述结果如下：

#df.head(2)   
   col_0 col_1  col_2
0      0     1      2
1      3     a      5

5.4查看后n条数据

查看后n条数据跟前n条数据的用法类似，其方法是tail，具体为：

df.tail(n)

n默认也是5，如果设置2，那么后2条数据为：

#df.tail(2)
   col_0 col_1  col_2
2      6     7      8
3      9    10     11

5.5查看所有列名

通过columns查看所有列名

df.columns   
Index([u'col_0', u'col_1', u'col_2'], dtype='object')

5.6查看所有index

通过index查看所有index索引信息

df.index  
RangeIndex(start=0, stop=4, step=1)

6、数据基本处理

先生成一个demo数据：

# 生成数据   
df = pd.DataFrame({'num': [12, 8, 2,1],
                   'sex': ['male', 'Female', 'Female','Female'],
                   'level': ['hight', 'low', 'middle','middle']})

6.1 分类汇总

分类汇总的基本格式为：

df.groupby(col_names1)[col_name2].function

col_names1指的是分类的目标字段，例如对age做分类，那么这里需要写['age']；如果对多个字段做汇总，例如age和sex，那么需要分别填写['age','sex']
col_name2指的是要计算的字段，例如对上述的age做汇总，是基于哪个字段做计算，可能是收入、订单量或业务量
function指的是汇总的方式，一般常用的是mean()、sum()、count()等

示例：

对sex列做统计，统计指标为num列，汇总方式为求和

df.groupby(['sex'])['num'].sum() # 查看
# 输出
sex
Female    11
male      12
Name: num, dtype: int64

对sex列做统计，统计指标为level列，汇总方式为计数

df.groupby(['sex'])['level'].count() # 查看
# 输出
sex
Female    3
male      1
Name: level, dtype: int64

对sex和level分别做统计，统计指标为num，汇总方式为均值

df.groupby(['sex','level'])['num'].mean() # 查看
# 输出
sex     level
Female  low        8.0
        middle     1.5
male    hight     12.0
Name: num, dtype: float64

6.2 排序

pandas的排序使用的是sort_values方法，具体应用为：

df.sort_values(by='num', ascending=True)

其中，by后是要排序的列，ascending用来指定排序是正序(True)还是倒序(False)。上面方法排序后的输出为：

    level  num     sex
3  middle    1  Female
2  middle    2  Female
1     low    8  Female
0   hight   12    male

6.3 查看替换

pandas中的replace方法是一个非常强大的字符串替换功能，它可以实现字符串、字典、列表、数字甚至正则表达式级别的转换。

语法：

replace(self, to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad', axis=None)

其中关键参数如下：

to_replace：要替换的对象。它可以是str、regex、list、dict、Series、numeric、None。

str是完全替换和匹配的字符串。
regex是匹配符合正则表达式模式的对象。
list可以是字符串列表、正则表达式列表或数值列表。如果to_replace（原始对象）和value（替换后的对象）都是列表格式，那么列表长度必须一致；如果regex参数设置为True，那么两个列表中的所有字符串将被应用正则表达式。
dict：可以使用嵌套字典直接做匹配模式定义，例如嵌套字典（{'a'：{'b'：nan}}）将在列'a'中查找值'b'，并将其替换为nan，嵌套中也可以使用正则表达式。

value：替换后的值。它也可以是scalar、dict、list、str、regex，其中dict对象可以将每个列指定为不同的替换值，例如{'a':1,'b':2}可以将列a替换为1，列b替换为2。

示例

df.replace('male','m') # 将字符串male替换为m
# 替换后的结果
    level  num     sex
0   hight   12       m
1     low    8  Female
2  middle    2  Female
3  middle    1  Female

6.4 数据框合并、组合、匹配

Pandas对数据框的合并、组合和匹配，主要有两种方式，一种是concat，一种是merge。

我们先生成一段示例数据：

col_names = ['col_' + str(i) for i in range(3)] # demo数据的列名
df1 = pd.DataFrame(np.arange(12).reshape(4,3),columns=col_names) # 第一份demo数据
df2 = pd.DataFrame(np.arange(12,24).reshape(4,3),columns=col_names) # 第二份demo数据
print(df1) # 打印输出
print(df2) # 打印输出

demo数据如下：

   col_0  col_1  col_2
0      0      1      2
1      3      4      5
2      6      7      8
3      9     10     11
   col_0  col_1  col_2
0     12     13     14
1     15     16     17
2     18     19     20
3     21     22     23

使用concat来组合数据

在应用中，我们经常需要将不同的数据框组合起来，包括按行合并或按列合并。这时需要使用concat方法，具体应用如下：

按行组合

df3 = pd.concat((df1,df2),'index')

其中index可以写0，二者都可以指定为行合并。合并后结果如下：

   col_0  col_1  col_2
0      0      1      2
1      3      4      5
2      6      7      8
3      9     10     11
0     12     13     14
1     15     16     17
2     18     19     20
3     21     22     23

按列组合

按列合并跟安行合并的方法类似，只是后面指定axis为1或columns

df4 = pd.concat((df1,df2),'columns')

合并后结果如下：

   col_0  col_1  col_2  col_0  col_1  col_2
0      0      1      2     12     13     14
1      3      4      5     15     16     17
2      6      7      8     18     19     20
3      9     10     11     21     22     23

注意：一般情况下，如果两个dataframe的index不同，会导致合并错误，因此合并前需要保持index相同；如果不同，可以使用df1.index=df2.index先做处理

使用merge来匹配数据

Pandas的merge类似与SQL的多表关联查询，能实现leftjoin、rightjoin、where、innerjoin、fulljoin等操作。

为了模拟实际关联查询时index通常都是不匹配的情况，我们对两个数据框都分别新增一个列主键，用于匹配。

df1['key'] =  [1,3,2,4] # 设置df1的主键
df2['key'] =  [2,1,4,3] # 设置df2的主键
print(df1)
print(df2)

新增主键后两个数据框的数据：

   col_0  col_1  col_2  key
0      0      1      2    1
1      3      4      5    3
2      6      7      8    2
3      9     10     11    4
   col_0  col_1  col_2  key
0     12     13     14    2
1     15     16     17    1
2     18     19     20    4
3     21     22     23    3

下面我们开始匹配：

df5 = pd.merge(df1,df2,on='key',how='inner')

其中：

df1和df2为两个要关联的数据框
on是关联的主键，由于两个数据框有相同的主键命名，因此可以直接用on设置。如果不是，需要单独使用left_on=name1，right_on=name2设置
how是设置关联的方式，可选值为'left', 'right', 'outer', 'inner'，默认值是'inner'

上述代码执行后，我们print输出查看下结果：

print(df5)
   col_0_x  col_1_x  col_2_x  key  col_0_y  col_1_y  col_2_y
0        0        1        2    1       15       16       17
1        3        4        5    3       21       22       23
2        6        7        8    2       12       13       14
3        9       10       11    4       18       19       20

为了方便，上述方法也可以写为：

df5 = df6.merge(df2,on='key',how='inner')

二者是等效的。

6.5 数据离散化

数据离散化，常用的方法是cut和qcut。二者的应用方法相似，以cut为例，具体应用如下：

df = pd.DataFrame({'mount': np.random.randint(1,100,100)}) # 生成一个100行1列的数据框
df['cut1'] = pd.cut(df['mount'], 4, labels=['bad', 'medium', 'good', 'awesome']) # 为每个分区加标签
df['cut2'] = pd.cut(df['mount'], 4) # 使用默认的区间
print(df.head(5)) # 输出前5条

上述代码中：

df['mount']要分区/离散化的列
4是要分区的数量
labels是是每个分区的标签，个数需要跟分区数量相同

输出结果如下：

   mount     cut1            cut2   
0     69     good   (48.5, 72.25]   
1     82  awesome   (72.25, 96.0]   
2     82  awesome   (72.25, 96.0]   
3     17      bad  (0.905, 24.75]   
4      9      bad  (0.905, 24.75]

其中，cut2每行对应的区间左侧是区间开始值（不包含），右侧是区间结束值（包含）。分区的标准是默认的4分位数方法。如果要自定义分区边界，则可以这样处理。

bins = [1,20,60,100] # 自定义边界  
df['cut3'] = pd.cut(df['mount'], bins) # 切分  
print(df.head(5))

处理后的结果如下：

   mount     cut1            cut2       cut3   
0     69     good   (48.5, 72.25]  (60, 100]   
1     82  awesome   (72.25, 96.0]  (60, 100]   
2     82  awesome   (72.25, 96.0]  (60, 100]   
3     17      bad  (0.905, 24.75]    (1, 20]   
4      9      bad  (0.905, 24.75]    (1, 20]

6.6 改变数据形状

数据框形状的改变在基于单条数据处理后再做合并或建模非常重要，方法是reshape。

df7 = df['mount'] # 建立一个可变对象  
df8 = df7.values.reshape((25,4)) # 改为25*4的矩阵  
df9 = df7.values.reshape((-1,1)) # 改为100*1的矩阵  
df10 = df7.values.reshape((1,-1)) # 改为1*100的矩阵  
print(df8.shape)   
print(df9.shape)   
print(df10.shape)

上述代码执行后的输出如下：

(25L, 4L)   
(100L, 1L)   
(1L, 100L)

提示：对于单行数据的形状reshape，直接使用(-1,1)或(1,-1)来建立一列或一行的shape。

6.7 丢弃数据

Pandas使用drop方法丢弃数据，常用于丢弃特定行或特定列。dropna数据在上面已经介绍，这里介绍对整行或整列数据做丢弃处理。

print(df.shape) # 查看原始数据形状  
  
new_df = df.drop(['cut1'],'columns') # 丢弃cut1，设置为1或columns  
print(new_df.shape)#查看丢弃一列后的形状  
print(new_df.head(3)) #打印输出  
  
new_df2 = df.drop(0,0) # 丢弃第一条数据，设置为0或index  
print(new_df2.shape)#查看丢弃一行后的形状  
print(new_df2.head(3)) #打印输出

上面代码执行后结果如下：

(100, 4) # 原始数据形状  
(100, 3) # 丢弃一列后的形状  
# 详细数据前3条  
   mount           cut2       cut3   
0     69  (48.5, 72.25]  (60, 100]   
1     82  (72.25, 96.0]  (60, 100]   
2     82  (72.25, 96.0]  (60, 100]   
(99, 4)# 丢弃一条数据后的形状  
# 前3条数据  
   mount     cut1            cut2       cut3   
1     82  awesome   (72.25, 96.0]  (60, 100]   
2     82  awesome   (72.25, 96.0]  (60, 100]   
3     17      bad  (0.905, 24.75]    (1, 20]

6.8 改变数据列的类型

本小节开始的数据框df，其中num默认为int64格式

df.dtypes# 查看数据列类型  
# 输出结果  
level    object  
num       int64   
sex      object  
dtype: object

通过astype可以更改为其他格式，例如字符串，方法为：

df['num']= df['num'].astype(np.str)   
df.dtypes# 查看数据列类型  
# 输出结果  
level    object  
num      object  
sex      object  
dtype: object

7、数据框的输出

Pandas支持将数据框输出为各种目标格式，例如csv、json、excel等，这些方法都非常简单。以下是输出格式的截图：

Python基础数据处理库-Pandas

以输出csv为例，直接使用：

df.to_csv('my_file.csv')

当然，如果读者感兴趣，可以对index、columns、分隔符等细节做更多设置。

====================【好书推荐，我为自己代盐】====================

《Python数据分析与数据化运营》上市啦！

50+数据流工作知识点

14个数据分析与挖掘主题

8个综合性运营分析案例

涵盖会员、商品、流量、内容4大主题

360°把脉运营问题并贴合数据场景落地

本书主要基于Python实现，其中主要用到的计算库是numpy、pandas和sklearn，其他相关库还包括：

标准库：re、time、datetime、json、 base64、os、sys、cPickle、tarfile
统计分析：Statsmodels
中文处理：结巴分词
文本挖掘：Gensim
爬虫和解析：requests、Beautiful Soup、xml
图像处理：OpenCV和PIL
数据读取：xlrd、pymongo、mysql.connector
数据预处理：imblearn
展示美化类：Matplotlib、graphviz、prettytable、wordcloud、mpl_toolkits、pydotplus

如果你对以下内容感兴趣，那么本书将值得一看：

KMeans聚类的自动K均值的确立方法
基于软方法的多分类模型组合评估模型的应用
基于自动下探（下钻、细分）的应用
基于增量学习的多项式贝叶斯分类
pipeline管道技术的应用
基于超参数的自动参数值的优化方法
特征自动选择
文本分类、文本主题挖掘
基于自动时间序列ARIMA的P、D、Q的调整
python决策树规则输出
基于自定义图像的文本标签云
非结构化数据，例如图像、音频、文本等处理
对象持久化处理

有关这本书的写作感受、详细内容介绍、附件（含数据和代码源文件-源代码可更改数据源直接使用）下载、关键知识和方法以及完整书稿目录，请访问《Python数据分析与数据化运营》新书上线，要购买此书请直接点击图片或扫描二维码去京东购买

Python基础数据处理库-Pandas

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

疯狂又脆弱坚定又柔软

朱墨 / 湖南文艺出版社 / 2018-3 / 39.80元

《疯狂又脆弱坚定又柔软》是朱墨的一部作品集，介绍了作者考研到北京，工作在华谊，以及留学去英国的经历，在这短短几年中她一路升职加薪，25岁升任华谊宣传总监，27岁赚到人生的第一笔100万，30岁却毅然离职去英国留学，在表面的光鲜亮丽之下，她也曾付出过外人所不知道的心血和努力。她的人生告诉我们，每一个身居高位或者肆意潇洒的人，都曾为梦想疯狂地倾尽全力，而那些心怀梦想的人也总是怀揣一颗坚定又柔软的内心......一起来看看《疯狂又脆弱坚定又柔软》这本书的介绍吧!

码农工具

Python基础数据处理库-Pandas

1、Pandas读取数据文件

1.1 使用read_cvs方法读取数据

Pandas其他数据读取方法

如何选择最佳读取数据的方法

2、Pandas缺失值处理

2.1 Pandas查看缺失值

2.1.2 查看哪些列具有缺失值

2.2 Pandas丢弃缺失值

2.2 Pandas填充缺失值

3、Pandas数据切片/切块/筛选/过滤

3.1 通过列名选择特定列

3.2 通过列名属性的选择方法选择特定列数据

3.3 通过loc方法选择列数据或切块数据

3.4 通过iloc方法选择列数据或切块数据

3.5 通过ix方法选择数据

总结

4、Pandas字符串与日期转换和解析

5、Pandas基本数据查看

5.1 描述性统计

5.2 查看各列类型

5.3查看前n条数据

5.4查看后n条数据

5.5查看所有列名

5.6查看所有index

6、数据基本处理

6.1 分类汇总

6.2 排序

6.3 查看替换

6.4 数据框合并、组合、匹配

6.5 数据离散化

6.6 改变数据形状

6.7 丢弃数据

6.8 改变数据列的类型

7、数据框的输出

====================【好书推荐，我为自己代盐】====================

《Python数据分析与数据化运营》上市啦！

疯狂又脆弱 坚定又柔软

JSON 在线解析

HTML 编码/解码

HEX HSV 转换工具

疯狂又脆弱坚定又柔软