pandas基本统计分析
基本统计分析又称为描述性统计分析,一般统计某个变量的个数、均值、标准差、最小值、25% 分位值、50% 分位值、75% 分位值,以及最大值。常用的统计分析指标有计数、求和、求均值、方差、标准差等。
描述性统计分析的功能是按各列返回基本统计量和分位数,函数的语法格式如下:
下面通过分析学生成绩的案例来说明描述性统计分析的应用。
【例 1 】在 grade.xls 文件中包含有学号(stu_id)、平时成绩(normal)和期末考试成绩(exam)这 3 列数据,要求对该文件中的期末考试成绩(exam)列的数据进行描述性统计分析,并进行计数、求最大值和均值的计算。
其示例代码 test1 如下。
运行输出结果如下。
描述性统计分析的功能是按各列返回基本统计量和分位数,函数的语法格式如下:
DataFrame.describe() 或 DataFrame.columns.describe()
下面通过分析学生成绩的案例来说明描述性统计分析的应用。
【例 1 】在 grade.xls 文件中包含有学号(stu_id)、平时成绩(normal)和期末考试成绩(exam)这 3 列数据,要求对该文件中的期末考试成绩(exam)列的数据进行描述性统计分析,并进行计数、求最大值和均值的计算。
其示例代码 test1 如下。
# -*- coding: utf-8 -*- import numpy as np import pandas as pd from pandas import DataFrame,Series df = pd.read_excel('d:\data\grade.xls',sheet_name='grade') print('exam列描述性统计分析',df.exam.describe()) print('exam列个数',df.exam.size) print('exam列的最大值',df.exam.max()) print('exam列的均值',df.exam.mean())
运行输出结果如下。
exam列描述性统计分析 count 38.000000 mean 68.368421 std 14.695874 min 32.000000 25% 60.000000 50% 68.000000 75% 81.000000 max 91.000000 Name: exam, dtype: float64 exam列个数 38 exam列的最大值 91 exam列的均值 68.36842105263158分析运行结果可知,使用 describe() 函数统计计算的结果与单独用统计函数计算的结果是一致的。