聚类(Clustering Algorithms)是将给定的数据集根据给定的特征划分为同构组的过程,类似的对象保留在一个组中,不同的对象保留在不同的组中。这是最重要的无监督学习问题。它处理在未标记数据集合中寻找结构的问题。聚类算法由于其应用范围广泛,已成为数据挖掘领域的一个新兴研究课题。随着近年来许多数据聚类算法的出现,并在图像处理、计算生物学、移动通信、医学和经济等各种应用领域的广泛应用,导致了该算法的普及。
聚类算法可分为层次聚类算法、密度聚类算法、分区聚类算法、图形聚类算法、网格聚类算法、模型聚类算法和组合聚类算法7大类。数据聚类算法的主要问题是不能标准化。所开发的算法在某一类型的数据集上可能得到最好的结果,但在其他类型的数据集上可能会失败。尽管人们对算法进行了许多标准化的尝试,使其在各种情况下都能很好地执行,但迄今为止还没有取得重大的成果。目前已有许多聚类算法被提出。然而,每种算法都有其优缺点,并不能适用于所有的真实情况。
能够处理不同类型的属性—算法应该能够应用于任何类型的数据,如基于间隔的(数字)数据、分类数据和二进制数据。
具有属性形状的聚类发现—聚类算法应该能够检测任意形状的聚类。它们不应该局限于小度量。
聚类算法不仅要能处理低维数据,还要能处理高维空间。
处理有噪声数据的能力—数据库包含有噪声的、丢失的或错误的数据。有些算法对此类数据比较敏感,可能导致聚类质量较差。
聚类结果应该是可解释的、可理解的和可用的。
数据挖掘聚类算法还可以用于其他特殊领域:数据结构(Data structure),数据优化(Data optimization),算法选择(Optimization algorithm)等都需要这部分的专业知识。如有代写需求,欢迎咨询!
