传统的K-means算法的最大缺点之一是初始类聚数k值的选择,选择不当容易得到局部最优解,无法得出更准确的结果,针对k值的选择进行优化,使用其他算法或方法得出更合适的k值,使得K-means算法的结果更加精确,优化后的K-means算法能够获取更加精准的结果,对数据的分析挖掘更加准确,能够获取更多的潜在信息,为使用者提供更加准确的数据结果。本项目针对K-means算法的聚类数和聚类中心的选择进行优化形成优化K-means算法。
1.使用Java语言实现K-means算法,并且完成对大量数据的分析。
2.选择适当的方法或算法优化K-means算法中最关键的部分即K值得选择,选择Canopy算法作为得出K值的算法或者使用正态分布的方法得出K值的更优解。
3.将K-means算法以及优化后的K-means算法对同一数据进行分析,并将分析结果用图像直观的呈现出来,凸显优化算法的效果。
K-means算法中参数K值对算法分析结果影响很大,Canopy算法很好的解决了这个问题,本项目通过算法的实现,对数据分析,结果对比,证明了这一理论。当然算法依旧有很大的改进空间。
