首页 > pandas 阅读数:14

pandas数据的记录抽取

记录抽取是指根据一定的条件,对数据进行抽取。记录抽取函数的语法格式如下:

datafram[condition]

1) 函数中的参数说明

其中,condition 为过滤条件。函数返回值是 DataFram。

2) 常用的条件类型

① 比较运算:大于(>),小于(<),大于等于(>=),小于等于(<=),不等于(!=)。

② 范围运算:between(left,right)。

③ 空值匹配:pandas.isnull(column)。

④ 字符匹配:str.contains(patten,na=False),其中 na 参数是指空值的处理方式,如为 False,不匹配空值。例如:

df[df.title.str.contains("XX",na=False)]


⑤ 逻辑运算:与(&),或(|),取反(not)。

【例 1】在商品销售.xls文件中包含了用户 ID、商品信息、单价、数量和电话等数据字段,现要求完成下列记录抽取。
1) 筛选出单价在 3000 5000 的商品。
2) 筛选出商品信息为空的记录。
3) 筛选出商品信息中含有“空调”文字的记录。

其示例代码 test1.py 如下。
# -*- coding: utf-8 -*-
import numpy as np
import pandas as pd
#导入数据
df = pd.read_csv('d:\data\goods_sales.csv',encoding='GBK')
print(df[df.单价.between(3000, 5000)])
print(df[pd.isnull(df.商品信息)])
print(df[df.商品信息.str.contains('空调', na=False)])