机器学习 K-Means聚类无监督学习-EW帮帮网

轮廓系数用于评估聚类效果，公式涉及两个关键指标：
- a_i：样本点与同簇其他点距离的平均值（簇内距离）。
- b_i：样本点到其他簇所有点距离的最小平均值（簇间距离）。
单个样本的轮廓系数计算公式为：
s_i = （b_i - a_i)\max(a_i, b_i)
整体轮廓系数为所有样本轮廓系数的平均值，取值范围为 [-1, 1]：
- 接近 1：聚类效果优秀。
- 接近 -1：聚类效果差（样本可能被误分到其他簇）。
- 接近 0：样本位于簇边界。

6.K-Means 的优缺点分析

优点

算法简单易懂，实现方便
计算效率高，对大数据集表现良好
聚类结果可解释性强
适用于高维数据

缺点

需要预先指定 K 值，而最佳 K 值往往不明确
对初始质心的选择敏感，可能导致不同的聚类结果
对噪声和异常值敏感
不太适合发现非凸形状的簇
当簇的大小差异较大时表现不佳

7.如何选择合适的 K 值？

选择合适的 K 值是 K-Means 聚类的关键挑战之一。以下是两种常用方法：

1. 肘部法（Elbow Method）

肘部法通过绘制 "K 值 - 误差平方和" 曲线来确定最佳 K 值：

计算不同 K 值（如 1 到 10）对应的聚类结果
计算每个 K 值下的误差平方和（SSE），即所有数据点到其簇质心的距离平方之和
绘制 K 值与 SSE 的关系曲线
曲线中 "肘部" 对应的 K 值即为最佳选择，此时 SSE 开始趋于平稳

2. 轮廓系数（Silhouette Score）

轮廓系数用于衡量聚类结果的质量：

取值范围为 [-1, 1]
接近 1 表示样本聚类合理
接近 0 表示样本可能位于两个簇的边界
接近 - 1 表示样本可能被分到错误的簇

选择轮廓系数最高的 K 值作为最佳聚类数量。

K-Means 的改进算法

由于基本 K-Means 存在一些局限性，研究者提出了多种改进算法：

K-Means++：改进了初始质心的选择方法，使质心尽可能远离，提高聚类效果
Mini-Batch K-Means：对大数据集更高效，使用部分样本计算质心
Bisecting K-Means：层次化聚类方法，通过不断二分簇来构建聚类结果
Kernel K-Means：利用核函数将数据映射到高维空间，能够处理非凸形状的簇

在 scikit-learn 中，KMeans类默认使用n_init='auto'参数，会根据数据情况自动选择合适的初始质心数量，实际上已经包含了 K-Means++ 的改进。

总结

K-Means 聚类是一种简单而强大的无监督学习算法，能够有效地发现数据中的自然分组。尽管它存在需要预先指定 K 值、对初始质心敏感等局限性，但通过合理选择参数和结合其他评估方法，K-Means 仍然是数据分析和挖掘中的重要工具。

在实际应用中，建议：

对数据进行标准化处理，消除量纲影响
结合多种方法确定最佳 K 值
多次运行算法，避免因初始质心选择不当导致的局部最优
可视化聚类结果，直观理解数据结构

二.案例实现（酒类数据聚类）

1.K-Means参数

源码如下

n_clusters：指定聚类中心数量（K值）。
init：初始化质心方法（默认 k-means++，优于随机初始化）。
n_init：初始化质心的次数（默认10次，避免因初始质心选择不佳影响结果）。
max_iter：单次K-Means算法的最大迭代次数（默认300）。

2.读取数据

数据特征：卡路里、氮浓度、酒精浓度、价格。data.txt部分内容如下：

第一列的name与训练无关不要读取

import pandas as pd
import numpy as np
beer = pd.read_table('data.txt',sep=' ')#注意sep划分数据
X=beer.iloc[:,1:]

2.遍历K值，计算轮廓系数选择最优K（本例K=2最佳）。

from sklearn.cluster import KMeans
from sklearn import metrics
scores=[]
k=range(2,10)
for i in k:
    km=KMeans(n_clusters=i)
    km.fit(X)
    labels=km.labels_
    score=metrics.silhouette_score(X,labels)
    scores.append(score)
best_k=k[np.argmax(scores)]
print('best_k=',best_k)

3.训练模型并输出聚类标签。

km=KMeans(n_clusters=best_k)
km.fit(X)
labels=km.labels_
beer['cluster']=labels
beer.sort_values('cluster',inplace=True)
print('轮廓系数: ',metrics.silhouette_score(beer.iloc[:,1:5],beer.cluster))

4.完整代码

import pandas as pd
import numpy as np
beer = pd.read_table('data.txt',sep=' ')#注意sep划分数据
X=beer.iloc[:,1:]

from sklearn.cluster import KMeans
from sklearn import metrics
scores=[]
k=range(2,10)
for i in k:
    km=KMeans(n_clusters=i)
    km.fit(X)
    labels=km.labels_
    score=metrics.silhouette_score(X,labels)
    scores.append(score)
best_k=k[np.argmax(scores)]
print('best_k=',best_k)
km=KMeans(n_clusters=best_k)
km.fit(X)
labels=km.labels_
beer['cluster']=labels
beer.sort_values('cluster',inplace=True)
print('轮廓系数: ',metrics.silhouette_score(beer.iloc[:,1:5],beer.cluster))

机器学习 K-Means聚类无监督学习

一.K-Means 聚类：从原理到实践的完整指南

1.什么是 K-Means 聚类？

应用场景举例

2.无监督学习与有监督学习的区别

3.K-Means 算法的核心原理

4.K-Means 算法的步骤详解

可视化理解

5.K-Means的评价指标(轮廓系数)

6.K-Means 的优缺点分析

优点

缺点

7.如何选择合适的 K 值？

1. 肘部法（Elbow Method）

2. 轮廓系数（Silhouette Score）

K-Means 的改进算法

总结

二.案例实现（酒类数据聚类）

1.K-Means参数

2.读取数据

2.遍历K值，计算轮廓系数选择最优K（本例K=2最佳）。

3.训练模型并输出聚类标签。

4.完整代码

网站公告

今日签到

热门文章

最新发布

机器学习 K-Means聚类 无监督学习

一.K-Means 聚类：从原理到实践的完整指南

1.什么是 K-Means 聚类？

应用场景举例

2.无监督学习与有监督学习的区别

3.K-Means 算法的核心原理

4.K-Means 算法的步骤详解

可视化理解

5.K-Means的评价指标(轮廓系数)

6.K-Means 的优缺点分析

优点

缺点

7.如何选择合适的 K 值？

1. 肘部法（Elbow Method）

2. 轮廓系数（Silhouette Score）

K-Means 的改进算法

总结

二.案例实现（酒类数据聚类）

1.K-Means参数

2.读取数据

2.遍历K值，计算轮廓系数选择最优K（本例K=2最佳）。

3.训练模型并输出聚类标签。

4.完整代码

网站公告

今日签到

热门文章

最新发布

机器学习 K-Means聚类无监督学习