人工智能之Numpy与Pandas培训文档
创建时间:2018-09-09  访问量:3315  4  0

人工智能之Numpy与Pandas培训文档

Pandas简介

下面引用官方文档的介绍

Python Data Analysis Library

Python 数据分析库

pandas is an open source, BSD-licensed library providing high-performance(高性能), easy-to-use(易用) data structures and data analysis tools for the Python programming language.

pandas is a NumFOCUS sponsored project. This will help ensure the success of development of pandas as a world-class open-source project, and makes it possible to donate to the project.

NumFOCUS Logo

Pandas,熊猫,国宝级数据分析库,是扩展了Numpy的数据分析库。Python数据分析的核心。个人见解!

Pandas是Python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发团队继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,Pandas为时间序列分析提供了很好的支持。Pandas的名称来自于面板数据(panel data)和Python数据分析(Data Analysis) 。 Panel Data是经济学中关于多维数据集的一个术语,在Pandas中也提供了Panel的数据类型。

官方网站:http://pandas.pydata.org

 

Pandas的安装
  • Python的Anaconda发行版,已安装好了Pandas库,因此无需另外安装。
  • 使用Anaconda界面安装:打开Anaconda Navigator,选择开发环境,从Not Installed下找到Pandas相关库,勾选安装。
  • Anaconda安装命令:conda install pandas。
  • PyPi安装命令:pip install pandas。

在开始菜单中找到Anaconda Navigator,从中进行安装。注意,以管理员身份运行。

如上图,选择左侧的Environment,在右侧可以搜索,如果安装了,就不用再安装了。

我用pip进行安装。

备注:pip安装国内镜像源使用设置,参见:http://www.glxxw2018.com/study/blog/detail/ff80808165c74add0165d6875815001e

注意:这个pip install pandas命令在cmd命令行中运行的,不要在python交互环境中运行哦~

 

Pandas的引入约定
  • import pandas as pd  # 引入pandas库,别名pd
  • from pandas import Series, DataFrame # 引入pandas库中的Series和DataFrame数据结构
$ python
Python 2.7.15 |Anaconda, Inc.| (default, May  1 2018, 18:37:09) [MSC v.1500 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import pandas as pd
>>> from pandas import Series, DataFrame
>>>

 

Pandas数据结构的介绍

Pandas中最重要两种数据结构:

  • Series:一种类似于一维数据的对象,它是由一组数据(各种Numpy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据即可产生简单的Series。
  • DataFrame:一个表格型的数据结构,含有一组有序的列,每列可以是不同的值类型(数据、字符串、布尔值等),DataFrame既有行索引,也有列索引,可以被看作是由Series组成的字典。

后面详细讲解这两种类型的数组结构。