首页 > pandas 阅读数:55

pandas基本统计分析

基本统计分析又称为描述性统计分析,一般统计某个变量的个数、均值、标准差、最小值、25% 分位值、50% 分位值、75% 分位值,以及最大值。常用的统计分析指标有计数、求和、求均值、方差、标准差等。

描述性统计分析的功能是按各列返回基本统计量和分位数,函数的语法格式如下:

DataFrame.describe() 或 DataFrame.columns.describe()


下面通过分析学生成绩的案例来说明描述性统计分析的应用。

【例 1 】在 grade.xls 文件中包含有学号(stu_id)、平时成绩(normal)和期末考试成绩(exam)这 3 列数据,要求对该文件中的期末考试成绩(exam)列的数据进行描述性统计分析,并进行计数、求最大值和均值的计算。

其示例代码 test1 如下。
# -*- coding: utf-8 -*-
import numpy as np
import pandas as pd
from pandas import DataFrame,Series
df = pd.read_excel('d:\data\grade.xls',sheet_name='grade')
print('exam列描述性统计分析',df.exam.describe())
print('exam列个数',df.exam.size)
print('exam列的最大值',df.exam.max())
print('exam列的均值',df.exam.mean())

运行输出结果如下。
exam列描述性统计分析
count    38.000000
mean     68.368421
std      14.695874
min      32.000000
25%      60.000000
50%      68.000000
75%      81.000000
max      91.000000
Name: exam, dtype: float64
exam列个数 38
exam列的最大值 91
exam列的均值 68.36842105263158
分析运行结果可知,使用 describe() 函数统计计算的结果与单独用统计函数计算的结果是一致的。