如何使用kmeans算法求解取不同的k值下的距离总和以及每个簇包含的样本数量

ICEY（游戏） | 休闲游戏 | 大学专业 | 三国人物 | 三国志（游戏） | Xbox One | AutoCAD | 基因 | solidworks | 细胞生物学 | 塞尔达传说（游戏） | 总决赛 | 游戏策划 | C4D | 计算机专业 | 美国留学 | 武侠 | 网盘 | 板胡 | centos | 任天堂 | 校服 | 卡牌游戏 | 桌面游戏 | 街机游戏 | Overlord（动画） | 几何学 | C/C++ | 拳皇 | 榕江县 | 女性主义 | 最终幻想（游戏） | 略阳县 | 法国 | 游戏手柄 | CAD制图 | HTML | 陶渊明 | galgame | 地图应用 | 热血传奇（游戏） | 舰队 Collection | CSS | 洗发水 | 爬虫（计算机网络） | 四大会计师事务所 | 新西兰 | 高中物理 | Adobe After Effects | 英雄连2阿登突击（游戏） | 高德地图（amap） | 洛阳 | 马来西亚 | 书法 | 昆虫 | ios游戏 | 亲子鉴定 | 鱼类 | 恐怖游戏 | Spss数据分析 | 海贼王 | 动物保护 | 云主机 | 掌上游戏机 | 钢铁雄心4 | 世界杯 | 阳信县 | 魔兽争霸3冰封王座 | 流量套餐 | 工业机器人 | 江宁区 | 电厂 | iPhone 11 | 铅山县 | 奎屯市 | 郭嘉 | 航拍 | 怪物猎人：世界 | 开关电源 | onenote | 极限挑战(综艺节目) | 塔罗牌 | 方木 | pdf | 数学建模 | 装修公司 | 植保无人机 | 快捷键 | 生死狙击手游 | 白兰地 | 遗传学 | 虚拟机 | 天下2（游戏） | 炉石传说 | 魔兽争霸3混乱之治 | 易经 | 绿茶 | 烘焙 | 梦三国（游戏） | 投影仪 | 文化差异 | 央视 | 任天堂3ds | 演员 | 土地政策 | 容县 | 智能手机 | 希腊 | 传统文化 | Microsoft SQL Server | 乌海市 | 猎头公司 | 彩虹六号（游戏） | 谷歌（Google） | 市南区 | 命令与征服：红色警戒2（游戏） | 英语学习 | 声音 | 欢乐麻将 | 身高 | 超级战队 | 智商 | 蓄电池 | 正则表达式 | 秦岭 | 金庸 | 徐州市 | 创业公司 | 锦州市 | 金庸小说 | 毛笔书法 | 长江 | 调酒 | 汽车发动机 | 3DMAX | 钢笔 | 游戏直播 | C#编程 | 培训班 | 食物 | 春节联欢晚会 | 火影忍者手游 | 暖通 | 象棋 | 男性 | 办公软件 | 图像处理 | 雷欧奥特曼 | 英雄传说：闪之轨迹（游戏） | 飞船 | 300英雄 | 电脑游戏 | 名言 | 乐器 | Apple ID | 我的英雄学院 | 自然科学 | 华为荣耀 | 刷单 | 生存游戏 | 面相 | 日本文化 | 模特 | 游戏攻略 | 游戏原画 | 网址导航 | 太极拳 | 编辑器 | 食用油 | 足球欧洲杯 | 抑郁症 | 化妆品 | Microsoft Visual Studio | 充电器 | 培训学校 | 古剑奇谭ol | 龙之谷（游戏） | wifi万能钥匙 | 中国 | 荆门 | 手机摄影 | 任天堂wii | 暴走大事件 | 嵌入式 | 美的 | 社交 | Jquery | 史莱姆 | 曹操 | 图形处理器（gpu） | NBA篮球 | 潮汕地区 | 设计公司 | 网站建设 | 刺客信条2 | 冰雪奇缘（电影） | 动画制作 | 网络赚钱 | 暗恋 | 老挝 |

你的位置：网站首页 >> 频道首页 >>机器学习 >>如何使用kmeans算法求解取不同的k值下的距离总和以及每个簇包含的样本数量

如何使用kmeans算法求解取不同的k值下的距离总和以及每个簇包含的样本数量

来源：蜘蛛抓取(WebSpider) 时间：2022-06-09 18:42 标签： kmeans算法基本步骤

聚类分析是在数据中发现数据对象之间的关系，将数据进行分组，组内的相似性越大，组间的差别越大，则聚类效果越好。我们事先并不知道数据的正确结果(类标)，通过聚类算法来发现和挖掘数据本身的结构信息，对数据进行分簇(分类)。聚类算法的目标是，簇内相似度高，簇间相似度低

二、基本的聚类分析算法

　　　　基于原型的、划分的距离技术，它试图发现用户指定个数(K)的簇。

　　2. 凝聚的层次距离：
　　　　思想是开始时，每个点都作为一个单点簇，然后，重复的合并两个最靠近的簇，直到尝试单个、包含所有点的簇。

　　　　一种基于密度的划分距离的算法，簇的个数有算法自动的确定，低密度中的点被视为噪声而忽略，因此其不产生完全聚类。

不同的距离量度会对距离的结果产生影响，常见的距离量度如下所示：

在聚类算法中K-Means算法是一种最流行的、使用最广泛的一种聚类算法，因为它的易于实现且计算效率也高。聚类算法的应用领域也是非常广泛的，包括不同类型的文档分类、音乐、电影、基于用户购买行为的分类、基于用户兴趣爱好来构建推荐系统等。

优点：易于实现
缺点：可能收敛于局部最小值，在大规模数据收敛慢

1 选择K个点作为初始质心 
3  将每个点指派到最近的质心，形成K个簇 
4  重新计算每个簇的质心 
5 until 簇不发生变化或达到最大迭代次数

这里的重新计算每个簇的质心，更新过程是：首先找到与每个点距离最近的中心点，构成每个中心点划分的k个点集，然后对于每个点集，计算点的均值代替中心点。

如何计算是根据目标函数得来的，因此在开始时我们要考虑距离度量和目标函数。

考虑欧几里得距离的数据，使用误差平方和（Sum of the Squared Error,SSE）作为聚类的目标函数，两次运行K均值产生的两个不同的簇集，我们更喜欢SSE最小的那个：

k表示k个聚类中心，ci表示第几个中心，dist表示的是欧几里得距离。

前面说的我们更新质心是让所有的点的平均值，这里就是SSE所决定的：

因此K-Means算法的实现步骤，主要分为四个步骤：

　　1、从样本集合中随机抽取k个样本点作为初始簇的中心。

　　2、将每个样本点划分到距离它最近的中心点所代表的簇中。

　　3、用各个簇中所有样本点的中心点代表簇的中心点。

　　4、重复2和3，直到簇的中心点不变或达到设定的迭代次数或达到设定的容错范围。

本文采用sklearn来实现一个k-means算法的应用，细节的底层实现可见文末第一个链接。

　　1.首先使用sklearn的数据集，数据集中包含150个随机生成的点，样本点分为三个不同的簇：

8 n_features：表示每个样本由两个特征组成 9 center：表示样本点中心的个数(簇) 16 #以表格的形式显示

　　2.下面使用sklearn内置的KMeans算法来实现对上面样本点的聚类分析：

5 n_init:设置初始样本中心的个数 7 tol:设置算法的容错范围SSE(簇内误平方差)

k均值算法非常简单且使用广泛，但有一些缺点：

1. K值需要预先给定，属于预先知识，很多情况下K值的估计是非常困难的，因此会有后面的k值确定。
2. K-Means算法对初始选取的聚类中心点是敏感的，不同的随机种子点得到的聚类结果完全不同。可能只能得到局部的最优解，而无法得到全局的最优解。
3. K-Means算法并不是很所有的数据类型。它不能处理非球形簇、不同尺寸和不同密度的簇。
4. 对离群点的数据进行聚类时，K-Means也有问题。

K-Means算法需要随机选择初始化的中心点，如果中心点选择不合适，可能会导致簇的效果不好或产生收敛速度慢等问题。解决这个问题一个比较合适的方法就是，在数据集上多次运行K-Means算法，根据簇内误差平方和(SSE)来选择性能最好的模型。除此之外，还可以通过K-Means++算法，让初始的中心点彼此的距离尽可能的远，相比K-Means算法，它能够产生更好的模型。

K-Means++有下面几个步骤组成：

　　1、初始化一个空的集合M，用于存储选定的k个中心点

　　2、从输入的样本中随机选择第一个中心点μ，并将其加入到集合M中

　　3、对于集合M之外的任意样本点x，通过计算找到与其距离最小的样本d(x,M)

　　4、使用加权概率分布来随机来随机选择下一个中心点μ

　　5、重复步骤2和3，直到选定k个中心点

3 #y_km中保存了聚类的结果

通过上面图可以发现k-means++的聚类效果还不错，簇的中心点，基本位于球心。

1.在实际情况中使用k-means++算法可能会遇到，由于样本的维度太高无法可视化，从而无法设定样本的簇数。可视化问题可在聚类后显示前用pca对数据降维显示。

2.由于k-means算法是基于欧式距离来计算的，所以k-means算法对于数据的范围比较敏感，所以在使用k-means算法之前，需要先对数据进行标准化，保证k-means算法不受特征量纲的影响。

在原始的K-means算法中，每一次的划分所有的样本都要参与运算，如果数据量非常大的话，这个时间是非常高的，因此有了一种分批处理的改进算法。

使用Mini Batch（分批处理）的方法对数据点之间的距离进行计算。
Mini Batch的好处：不必使用所有的数据样本，而是从不同类别的样本中抽取一部分样本来代表各自类型进行计算。n 由于计算样本量少，所以会相应的减少运行时间n 但另一方面抽样也必然会带来准确度的下降。

(其他关于k-means的优化还有很多，可参考链接或自行总结)

层次聚类是通过可视化然后人为去判断大致聚为几类，很明显在共同父节点的一颗子树可以被聚类为一个类

肘部法则（Elbow Method）和轮廓系数（Silhouette Coefficient）来对k值进行最终的确定，但是这些方法都是属于“事后”判断的，而Canopy算法的作用就在于它是通过事先粗聚类的方式，为k-means算法确定初始聚类中心个数和聚类中心点。

与传统的聚类算法(比如K-Means)不同，Canopy聚类最大的特点是不需要事先指定k值(即clustering的个数)，因此具有很大的实际应用价值。与其他聚类算法相比，Canopy聚类虽然精度较低，但其在速度上有很大优势，因此可以使用Canopy聚类先对数据进行“粗”聚类，得到k值，以及大致的k个中心点，再使用K-Means进行进一步“细”聚类。所以Canopy+K-Means这种形式聚类算法聚类效果良好。

原始数据集合List按照一定的规则进行排序（这个规则是任意的，但是一旦确定就不再更改），初始距离阈值为T1、T2，且T1>T2（T1、T2的设定可以根据用户的需要，或者使用交叉验证获得）。
在List中随机挑选一个数据向量A，使用一个粗糙距离计算方式计算A与List中其他样本数据向量之间的距离d。
根据第2步中的距离d，把d小于T1的样本数据向量划到一个canopy中，同时把d小于T2的样本数据向量从候选中心向量名单（这里可以理解为就是List）中移除。
重复第2、3步，直到候选中心向量名单为空，即List为空，算法结束。

算法原理比较简单，就是对数据进行不断遍历，T2<dis<T1的可以作为中心名单，dis<T2的认为与canopy太近了，以后不会作为中心点，从list中删除，这样的话一个点可能属于多个canopy。

只是针对每个Canopy的内容做Kmeans聚类，减少相似计算的数量。

算法中 T1、T2（T2 < T1）的确定问题（也有专门的算法去描述，但可以自己多次试错

13 # 设置初始阈值 21 # 使用欧式距离进行距离的计算 25 # 根据当前dataset的长度随机选择一个下标 50 # 根据删除容器的下标，将元素从数据集中删除

根据肘部法则选择最合适的K值有事并不是那么清晰，因此斯坦福大学的Robert等教授提出了方法。

这里我们要继续使用上面的。Gap Statistic的定义为:

这里指的是的期望。这个数值通常通过蒙特卡洛模拟产生，我们在样本里所在的矩形区域中（高维的话就是立方体区域）按照均匀分布随机地产生和原始样本数一样多的随机样本，并对这个随机样本做K-Means，从而得到一个。如此往复多次，通常20次，我们可以得到20个。对这20个数值求平均值，就得到了的近似值。最终可以计算Gap Statisitc。而Gap statistic取得最大值所对应的K就是最佳的K。

Gap Statistic的基本思路是：引入参考的测值，这个参考值可以有Monte Carlo采样的方法获得。

B是sampling的次数。为了修正MC带来的误差，我们计算sk也即标准差来矫正Gap Statistic。

选择满足的最小的k作为最优的聚类个数。

在对簇的划分中，我们就使用了SSE作为目标函数来划分簇。当KMeans算法训练完成后，我们可以通过使用inertia属性来获取簇内的误方差，不需要再次进行计算。

 1 #用来存放设置不同簇数时的SSE值

可以使用图形工具肘方法，根据簇的数量来可视化簇内误方差。通过图形可以直观的观察到k对于簇内误方差的影响。也可以用来确定K值。

通过上图可以发现，当簇数量为3的时候出现了肘型，这说明k取3是一个不错的选择。但不一定所有的问题都能用肘部法则来解决，如下图右图中，肘部不明显。因此肘部法则只是一种可尝试的方法。

2、轮廓图定量分析聚类质量

轮廓分析(silhouette analysis)，使用图形工具来度量簇中样本的聚集程度，除k-means之外也适用于其他的聚类算法。通过三个步骤可以计算出当个样本的轮廓系数(silhouette coefficient)：

　　1、将样本x与簇内的其他点之间的平均距离作为簇内的内聚度a
　　2、将样本x与最近簇中所有点之间的平均距离看作是与最近簇的分离度b
　　3、将簇的分离度与簇内聚度之差除以二者中比较大的数得到轮廓系数，计算公式如下

轮廓系数的取值在-1到1之间。当簇内聚度与分度离相等时，轮廓系数为0。当b>>a时，轮廓系数近似取到1，此时模型的性能最佳。

10 #基于欧式距离计算轮廓系数 12 #设置y坐标的起始位置 16 #获取不同簇的轮廓系数 18 #对簇中样本的轮廓系数由小到大进行排序 20 #获取到簇中轮廓系数的个数 24 #绘制水平直方图 27 #获取显示y轴刻度的位置 29 #下一个y轴的起点位置 31 #获取轮廓系数的平均值 33 #绘制一条平行y轴的轮廓系数平均值的虚线 35 #设置y轴显示的刻度

通过轮廓图，我们能够看出样本的簇数以及判断样本中是否包含异常值。为了评价聚类模型的性能，可以通过评价轮廓系数，也就是图中的红色虚线进行评价。

类似SSE，也可以做出不同k值下的效果图：

可以看到也是在聚类数为3时轮廓系数达到了峰值，所以最佳聚类数为3

最后针对使用MATLAB的给出代码，细节与上文类似：

生成随机二维分布图形，三个中心

 1 % 使用高斯分布（正态分布）
 2 % 随机生成3个中心以及标准差

分别用等高线、分布图、热能图和概率图展示结果

23 % 通过观察，K均值方法的第二类是gm的第三类 25 % 计算分类概率 36 % 第三类点部分概率值较低，可能需要其他数据来进行分析。

AIC准则寻找最优分类

%随机初始化中心点，可以随机取数据集中的任意k个点
%对每个点，找到其所属的中心点，即距离其最近的中心点。 返回一个向量，为每个点对应的中心点id。
%用每个中心点统领的那类点的均值，更新中心点。