首页 > pandas 阅读数:56

Python pandas简介

pandas 是一个专门用于数据分析的开源 Python 库。pandas 是目前所有使用 Python 语言研究和分析数据集的专业人士在做相关统计分析和决策时都需要使用的不可或缺的工具。

pandas 库最初是由 Wes McKinney 一人于 2008 年开发设计的,2012 年,Wes McKinney 的同事 Sien Chang 加入开发工作,他们一起开发出了用于数据分析的著名开源 Python 库—— pandas。

pandas 是以 NumPy 为基础进行设计的,因此 pandas 不仅能与其他大多数模块兼容,而且还能借力 NumPy 模块强大的计算能力,因此,在数据分析中 pandas 和 NumPy 这两个模块经常是一起使用的。

另外,为了数据分析的需要,pandas 既不使用 Python 已有的内置数据结构,也不使用其他库的数据结构,而是专门设计了两种新型的数据结构。使用这两种数据结构管理与 SQL 关系数据库和 Excel 工作表具有类似特征的数据会非常方便。由于 pandas 最初是作为金融数据分析工具而开发出来的,因此,pandas 为时间序列分析提供了很好的支持。

根据开发 pandas 时提出的需求,pandas 的基本功能如下:
  • 具备按轴自动或显式数据对齐功能的数据结构。这可以防止许多由于数据未对齐以及来自不同数据源(索引方式不同)的数据而导致的常见错误;
  • 集成时间序列功能;
  • 既能处理时间序列数据也能处理非时间序列数据的数据结构;
  • 数学运算和约简(比如对某个轴求和)可以根据不同的元数据(轴编号)执行;
  • 灵活处理缺失数据;
  • 合并及其他出现在常见数据库(例如基于 SQL)中的关系型运算。