数据分析之Pandas(基本操作)

发布于:2022-12-03 ⋅ 阅读:(486) ⋅ 点赞:(0)

目录

1. pandas简介

2. 导入pandas

3. Series的创建及属性

                  3.1 列表形式创建

       3.2 字典形式创建

       3.3 创建日期(periods为天数)

       3.4 Series的属性

4. DataFrame的创建及属性

        4.1 通过np.arange().reshape()进行创建              ​​​​​

        4.2 通过二维列表创建

        4.3 通过字典创建

        4.4 DataFrame的属性

5. 删除

6. 转置(行和列互换) 

7. 排序

        7.1 按值排序——sort_values

        7.2 按索引排序

8. 索引

        8.1 直接索引(使用标签筛选)

        8.2 loc(标签索引)

        8.3 iloc(位置索引)

        8.4 布尔索引

        8.5 设置行索引——set_index

        8.6 重设行索引——reindex

        8.7 还原索引——reset_index

9. 统计函数

        9.1 describe()

        9.2 unique()

        9.3 value_counts()

        9.4 head()

        9.5 tail()

        9.6 sample()

10. 读取和存储文件

11. 下章预告


1. pandas简介

        Pandas是Python的数据处理包,全名:Python Data Analysis Library,Pandas 是非常著名的开源数据处理库,我们可以通过它完成对数据集进行快速读取、转换、过滤、分析等一系列操作。Pandas库是基于Numpy库来创建的,Numpy主要用于矩阵操作,而Pandas主要用于数据处理。

        Pandas主要有两种重要的数据结构: Series和DataFrame。Series:类似一个一维数组,一个Series对应DataFrame的一列。DataFrame:类似一个二维数组,一个DataFrame由几个Series列构成。
 

2. 导入pandas

 

3. Series的创建及属性

        3.1 列表形式创建

           

         3.2 字典形式创建

        ​​​​​​   

        3.3 创建日期(periods为天数)

       

        3.4Series的属性

            

4. DataFrame的创建及属性

        4.1 通过np.arange().reshape()进行创建              ​​​​​

          

        4.2 通过二维列表创建

          

        4.3 通过字典创建

          

        4.4 DataFrame的属性

          

5.删除

        axis参数:1代表删除列,0代表删除行。 

6. 转置(行和列互换) 

7. 排序

        7.1 按值排序——sort_values

          

        7.2 按索引排序

         

8. 索引

         1.Pandas里的直接索引是先列后行

         2.在布尔索引时,先筛选行 后筛选列 或者 先筛选列 后筛选行 都可以

         3.在loc, iloc筛选时是先行后列

        8.1 直接索引(使用标签筛选)

        

         

        8.2 loc(标签索引)

         

          loc与直接索引的区别:

                1.loc可以使用切片,直接索引不能。

                2.loc是先行后列,直接索引是先列后行。

        8.3 iloc(位置索引)

          

          iloc是使用位置进行筛选,即元素下标,从0开始。

        8.4 布尔索引

          

          生成一个布尔矩阵,然后返回True对应的元素值。

        8.5 设置行索引——set_index

          

        8.6 重设行索引——reindex

          

        8.7 还原索引——reset_index

          

9. 统计函数

        9.1 describe()

          

         describe:统计个数,平均值,标准差,四分位数等。

        9.2 unique()

          

          unique:去除重复值。

        9.3 value_counts()

          

         value_counts:统计元素出现的次数。

        9.4 head()

          

        9.5 tail()

          

        9.6 sample()

          

10. 读取和存储文件

11. 下章预告

        数据分析当然离不开对缺失值的处理,下章给大家详细写一下在pandas中如果对缺失值进行处理。

        

        

        

本文含有隐藏内容,请 开通VIP 后查看