在数据分析和机器学习领域,K-means聚类算法是一个简单却强大的工具。它通过将数据集划分为K个不同的簇(cluster),使同一簇内的数据点尽可能相似,而不同簇的数据点尽量不同。这种算法的核心在于迭代优化,即不断调整簇中心位置,直到达到最优解为止。
首先,我们需要明确数据集,并确定想要划分的簇的数量K。接着,随机初始化K个簇中心,然后计算每个数据点到这些中心的距离,将数据点分配给最近的簇。随后,重新计算各簇的新中心,重复上述步骤直至收敛。
下面是一个简单的Python实现片段:
```python
from sklearn.cluster import KMeans
import numpy as np
示例数据
data = np.array([[1, 2], [1, 4], [1, 0],
[10, 2], [10, 4], [10, 0]])
创建模型并训练
kmeans = KMeans(n_clusters=2).fit(data)
输出结果
print("Cluster centers:", kmeans.cluster_centers_)
```
通过这段代码,我们可以轻松完成基本的K-means聚类任务,为后续分析提供有力支持!🎯