1、Pandas:Pandas是使用Python语言开发的用于数据处理和数据分析的第三方库。它擅长处理数字型数据和时间序列数据。
2、Pandas可以用来读取多种类型数据:如EXcel,CSV,网页、SQL等。
3、学习Pandas需要多做实践。
4、安装Pandas
(1)pip install pandas
(2)在PyCharm中搜索并安装
5、导入Pandas,并读取文件
(1)准备文件,在当前工作目录中,创建文件a.xlsx
(2)导入Pandas,读取文件
import pandas as pd df=pd.read_excel('a.xlsx')
(3)显示前五行
import pandas as pd df=pd.read_excel('a.xlsx') print(df.head())
姓名 班级 数据结构 计算机网络 教育数据分析 数据库原理 0 刘德华 软件工程1班 67 88 99 88 1 张学友 软件工程2班 88 60 89 77 2 黎明 软件工程2班 33 80 88 99 3 郭富城 软件工程1班 88 66 55 66 4 郑骄阳 软件工程1班 77 88 66 66
(4)显示行和列
import pandas as pd df=pd.read_excel('a.xlsx') print(df.shape)
(9, 6)
(5)显示最后三行
import pandas as pd df=pd.read_excel('a.xlsx') print(df.tail(3))
姓名 班级 数据结构 计算机网络 教育数据分析 数据库原理 6 曹雯川 软件工程2班 65 65 88 56 7 钟子辉 软件工程1班 81 85 99 80 8 董文会 软件工程1班 66 68 77 90
(6)随机显示3条
import pandas as pd df=pd.read_excel('a.xlsx') print(df.sample(3))
姓名 班级 数据结构 计算机网络 教育数据分析 数据库原理 2 黎明 软件工程2班 33 80 88 99 5 周萌 软件工程1班 99 89 88 89 6 曹雯川 软件工程2班 65 65 88 56
(7)显示行列名称
import pandas as pd df=pd.read_excel('a.xlsx') print(df.axes)
[RangeIndex(start=0, stop=9, step=1), Index(['姓名', '班级', '数据结构', '计算机网络', '教育数据分析', '数据库原理'], dtype='object')]
(8)显示列名
import pandas as pd df=pd.read_excel('a.xlsx') print(df.columns)
Index(['姓名', '班级', '数据结构', '计算机网络', '教育数据分析', '数据库原理'], dtype='object')
(9)describe计算
import pandas as pd df=pd.read_excel('a.xlsx') print(df.describe())
数据结构 计算机网络 教育数据分析 数据库原理 count 9.000000 9.000000 9.000000 9.00000 mean 73.777778 76.555556 83.222222 79.00000 std 19.201418 11.684510 14.712051 14.02676 min 33.000000 60.000000 55.000000 56.00000 25% 66.000000 66.000000 77.000000 66.00000 50% 77.000000 80.000000 88.000000 80.00000 75% 88.000000 88.000000 89.000000 89.00000 max 99.000000 89.000000 99.000000 99.00000
(10)建立索引
import pandas as pd df=pd.read_excel('a.xlsx') df.set_index('姓名', inplace=True) print(df['数据结构'])
姓名 刘德华 67 张学友 88 黎明 33 郭富城 88 郑骄阳 77 周萌 99 曹雯川 65 钟子辉 81 董文会 66 Name: 数据结构, dtype: int64