pandas数据的记录抽取
记录抽取是指根据一定的条件,对数据进行抽取。记录抽取函数的语法格式如下:
② 范围运算:between(left,right)。
③ 空值匹配:pandas.isnull(column)。
④ 字符匹配:str.contains(patten,na=False),其中 na 参数是指空值的处理方式,如为 False,不匹配空值。例如:
⑤ 逻辑运算:与(&),或(|),取反(not)。
【例 1】在商品销售.xls文件中包含了用户 ID、商品信息、单价、数量和电话等数据字段,现要求完成下列记录抽取。
1) 筛选出单价在 3000 5000 的商品。
2) 筛选出商品信息为空的记录。
3) 筛选出商品信息中含有“空调”文字的记录。
其示例代码 test1.py 如下。
datafram[condition]
1) 函数中的参数说明
其中,condition 为过滤条件。函数返回值是 DataFram。2) 常用的条件类型
① 比较运算:大于(>),小于(<),大于等于(>=),小于等于(<=),不等于(!=)。② 范围运算:between(left,right)。
③ 空值匹配:pandas.isnull(column)。
④ 字符匹配:str.contains(patten,na=False),其中 na 参数是指空值的处理方式,如为 False,不匹配空值。例如:
df[df.title.str.contains("XX",na=False)]
⑤ 逻辑运算:与(&),或(|),取反(not)。
【例 1】在商品销售.xls文件中包含了用户 ID、商品信息、单价、数量和电话等数据字段,现要求完成下列记录抽取。
1) 筛选出单价在 3000 5000 的商品。
2) 筛选出商品信息为空的记录。
3) 筛选出商品信息中含有“空调”文字的记录。
其示例代码 test1.py 如下。
# -*- coding: utf-8 -*- import numpy as np import pandas as pd #导入数据 df = pd.read_csv('d:\data\goods_sales.csv',encoding='GBK') print(df[df.单价.between(3000, 5000)]) print(df[pd.isnull(df.商品信息)]) print(df[df.商品信息.str.contains('空调', na=False)])