作者:禅与计算机程序设计艺术
1.简介
1.1 数据可视化概述
数据可视化(Data visualization)是一种使复杂的数据信息更加易于理解、分析和表达的方式,能够让数据更直观地呈现出来。一般来说,数据可视化分为三个层次:
- 数据探索阶段:初步了解数据的整体情况,包括数据的分布、缺失值、相关性等。通过可视化的方法,发现数据中的规律、模式、异常点等信息。
- 数据分析阶段:将数据进行一定程度上的处理,清洗掉杂质、合并重复记录等,并对数据进行特征选择、过滤、降维等操作,得到有效的分析结果。通过可视化的方法,将分析结果呈现给用户。
- 数据报告阶段:根据分析结果制作出清晰、简洁、具有商业价值的图表、图片、视频等,用于向业务人员、决策者或其他利益相关者传达数据信息。
数据可视化具有以下优势:
- 提供了不同视角的数据信息
- 对比各个变量之间的关系,帮助识别因果关系和寻找异常值
- 更直观地呈现数据信息,增强数据的可读性
- 可以快速揭示隐藏在数据背后的模式和趋势
1.2 Seaborn概述
Seaborn是一个基于Matplotlib的Python数据可视化库,它提供了一套高级的API接口,可以轻松地创建各种形式的统计图和绘图。其主要功能包括: - 可视化回归线、分类边界、气泡图等
- 拟合数据分布、模型拟合结果等
- 展示箱型图、时间序列图等高级统计图表
- 生成热力图、图像散布图等高级绘图
Seaborn主要提供以下几个绘图函数:
- relplot()