首页 > pandas 阅读数:32

pandas数据筛选与数据统计函数汇总

pandas 库提供了很多的函数,而且这些函数的应用在数据分析时是非常有用的。在前面的教程中已介绍过了一些 pandas 的函数,本节将主要对 pandas 库中的数据筛选和数据统计函数进行归纳总结,

数据筛选

数据筛选是 pandas 数据结构中最常用的数据操作之一。除了在前面教程中介绍过的一些数据筛选函数外,pandas 还提供一些数据筛选函数,现将常用的数据筛选函数进行归纳总结,具体见表 1。

表 1:常用的数据筛选函数
函数 功能
df.columns 列名 返回 Index 类型的列的集合
obj.index 索引名 返回 Index 类型的素引的集合
obj. values 返回 obj 的值,以 numpy.ndarray 对象返回
obj.head(n) 返回前 n 行
obj.tail(n) 返回最后 n 行
obj.shape 返回元组(tuple),表示行数和列数
df.info() 返回 DataFrame 索引、数据类型和内存信息
obj[m:n] 切片,选取 m~n-1 行
obj[obj 条件表达式] 选取满足条件的元素
df.loc[m:n] 获取从 m~n 行(推荐)
df.iloc[m:n] 获取从 m~n-1 行
df.loc[m:n,'col1':'coln'] 获取从 m~n 行的 col1~coln 列
s.iloc[n] 按位置 n 选取数据
s.loc['index_one'] 按索引选取数据
注:obj 为 Series 或 DataFrame 对象,df 为 DataFrame 对象,s 为 Series。

数据统计函数

数组的大多数统计函数对 DataFrame 对象依旧有效,pandas 常用的统计函数见表  2。

表 2:常用的统计函数
函数 功能
df.count() 求非 NA 值的数量
df.max() 求最大值
df.min() 求最小值
df.sum(axis=0) 按各列求和
df.mean() 按各列求平均值
df.median() 求中位数
df.describe() 按各列返回基本统计量和分位数
df.var() 求方差
df.std() 求标准差
df.mad() 根据平均值计算平均绝对利差
df.cumsum() 求累计和
注:df 为 DataFrame 对象。