目录
4.1 通过np.arange().reshape()进行创建
1. pandas简介
Pandas是Python的数据处理包,全名:Python Data Analysis Library,Pandas 是非常著名的开源数据处理库,我们可以通过它完成对数据集进行快速读取、转换、过滤、分析等一系列操作。Pandas库是基于Numpy库来创建的,Numpy主要用于矩阵操作,而Pandas主要用于数据处理。
Pandas主要有两种重要的数据结构: Series和DataFrame。Series:类似一个一维数组,一个Series对应DataFrame的一列。DataFrame:类似一个二维数组,一个DataFrame由几个Series列构成。
2. 导入pandas
3. Series的创建及属性
3.1 列表形式创建
3.2 字典形式创建
3.3 创建日期(periods为天数)
3.4Series的属性
4. DataFrame的创建及属性
4.1 通过np.arange().reshape()进行创建
4.2 通过二维列表创建
4.3 通过字典创建
4.4 DataFrame的属性
5.删除
axis参数:1代表删除列,0代表删除行。
6. 转置(行和列互换)
7. 排序
7.1 按值排序——sort_values
7.2 按索引排序
8. 索引
1.Pandas里的直接索引是先列后行
2.在布尔索引时,先筛选行 后筛选列 或者 先筛选列 后筛选行 都可以
3.在loc, iloc筛选时是先行后列
8.1 直接索引(使用标签筛选)
8.2 loc(标签索引)
loc与直接索引的区别:
1.loc可以使用切片,直接索引不能。
2.loc是先行后列,直接索引是先列后行。
8.3 iloc(位置索引)
iloc是使用位置进行筛选,即元素下标,从0开始。
8.4 布尔索引
生成一个布尔矩阵,然后返回True对应的元素值。
8.5 设置行索引——set_index
8.6 重设行索引——reindex
8.7 还原索引——reset_index
9. 统计函数
9.1 describe()
describe:统计个数,平均值,标准差,四分位数等。
9.2 unique()
unique:去除重复值。
9.3 value_counts()
value_counts:统计元素出现的次数。
9.4 head()
9.5 tail()
9.6 sample()
10. 读取和存储文件
11. 下章预告
数据分析当然离不开对缺失值的处理,下章给大家详细写一下在pandas中如果对缺失值进行处理。