T-Rex Label

K 均值聚类

K 均值聚类是一种应用广泛的机器学习算法,旨在将数据集划分为 K 个不同的簇。每个数据点都会被分配到质心(中心)距离最近的簇中,目的是将相似的数据点聚集在一起。该算法会迭代地优化簇的分配和质心,直至达到收敛状态。

K 均值聚类由斯图尔特・劳埃德在 1957 年首次提出,最初是为了解决电信领域的脉冲编码调制问题。由于其在数据聚类方面的简单性和有效性,该算法在众多领域都备受青睐。

K 均值聚类是一种数据分组技术,它试图以一种使同一簇内数据点彼此尽可能相似的方式对数据点进行聚类。它通过最小化簇内方差来实现这一目标,从本质上让每个簇内的点尽可能地靠近。簇的质心作为参考点,数据点会被分配到质心离它最近的簇中。其核心的理解要点在于,同一簇中的点相比其他簇中的点,彼此之间具有更高的相似性。