第一步:导入各类库
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.naive_bayes import GaussianNB
import matplotlib
%matplotlib inline #一个魔法函数,能让代码嵌入notebook中。
1.NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。
2.Matplotlib 是 Python 2D-绘图领域使用最广泛的套件。它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式。其中Pyplot是 Matplotlib 的子库,提供了和 MATLAB 类似的绘图 API,是常用的绘图模块,能很方便让用户绘制 2D 图表。示例如下:
3.scikit-learn,又写作sklearn,是一个开源的基于python语言的机器学习工具包,包含许多机器学习的算法,比如引入高斯朴素贝叶斯分类器GaussianNB。
第二步:建立 生成所有测试样本点 的函数
def make_meshgrid(x, y, h=.02):
x_min, x_max = x.min() - 1, x.max() + 1
y_min, y_max = y.min() - 1, y.max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
np.arange(y_min, y_max, h))
return xx, yy
1.meshgrid函数,用于生成网格矩阵。如:
x=[1,2,3] , y=[4,5] ;
xx, yy = np.meshgrid(x,y) ;
xx = 1 2 3
1 2 3
yy = 4 4 4
5 5 5
x=[1,2] , y=[3,4,5] ;
xx, yy = np.meshgrid(x,y) ;
xx = 1 2
1 2
1 2
yy = 3 3
4 4
5 5
#x成行,行数等于y的长度。
#y成列,列数等于x的长度。
2.arange函数,用于创建等差数组。
第三步: 载入iris数据集
iris = datasets.load_iris()
X = iris.data[:, :2] #只读取前面两个属性
y = iris.target #读取标签值
1.iris数据集,又称鸢尾花卉数据集。该数据集包含了4个属性:
& Sepal.Length(花萼长度),单位是cm;
& Sepal.Width(花萼宽度),单位是cm;
& Petal.Length(花瓣长度),单位是cm;
& Petal.Width(花瓣宽度),单位是cm;
种类:Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾),以及Iris Virginica(维吉尼亚鸢尾)。
第四步:创建并训练朴素贝叶斯分类器
clf = GaussianNB()
clf.fit(X,y)
title = ('GaussianBayesClassifier')
fig, ax = plt.subplots(figsize = (5, 5))
plt.subplots_adjust(wspace=0.4, hspace=0.4)
X0, X1 = X[:, 0], X[:, 1] #取样本的第一个属性,第二个属性
1.fit函数,clf.fit(X,y) ; 用X和y这两个数据来训练分类器clf。
2. plt.subplots()函数,用于绘图。fig, ax = plt.subplots(figsize = (5, 5));其中figsize(5,5)用于设置图的长度宽度;返回值fig表示这个绘图窗口,ax标志坐标系,在后续绘图的时候会继续在ax上进行操作。
3.plt.subplots_adjust(wspace=0.4, hspace=0.4),用于设置子图之间的间隔。wspace, hspace:子图之间的横向间距、纵向间距分别与子图平均宽度、平均高度的比值。最后的成图是各子图的叠加。
第五步:建立 对测试样本进行预测,并显示 的函数
def plot_test_results(ax, clf, xx, yy, **params):
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
ax.contourf(xx, yy, Z, **params)
1.params参数:params参数收集传入是不定个数的参数,并将收集的到参数以元组的方式存储在params中。
2.xx.ravel(),将xx转变为一维数组。
3.np.c_[xx.ravel(), yy.ravel()],将两个数组叠加起来。
4.clf.predict(),用训练得到分类器对样本进行预测。
5. Z.reshape(),用于改变数组的形状。
6.ax.contourf(xx, yy, Z, **params),用于绘制填充轮廓,xx,yy,Z为坐标的横纵坐标及高度,**params是传入的图形参数。
第六步:调用函数生成所有测试样本点并且显示测试样本的分类结果
xx, yy = make_meshgrid(X0, X1)
plot_test_results(ax, clf, xx, yy, cmap=plt.cm.coolwarm, alpha=0.8)
1. cmap=plt.cm.coolwarm,设置绘图的背景颜色。
2. alpha=0.8,设置颜色透明度。
第七步:显示训练样本
ax.scatter(X0, X1, c=y, cmap=plt.cm.coolwarm, s=20, edgecolors='k')
ax.set_xlim(xx.min(), xx.max())
ax.set_ylim(yy.min(), yy.max())
ax.set_xlabel('x1')
ax.set_ylabel('x2')
ax.set_xticks(())
ax.set_yticks(())
ax.set_title(title)
plt.show()
1.ax.scatter()绘图,参数c表示图中样本点的颜色序列(用不同的颜色表示不同的样本结果),参数s表示图中样本点的显示大小,参数edgecolors表示边缘颜色。
2.ax.set_xticks(()),设置图形的坐标刻度。
本文含有隐藏内容,请 开通VIP 后查看