本文探讨分类不一致对自动分类成效的影响。经由近似文件的自动侦测,以及两种分类方法针对两个测试文件集做的比较实验,本文发现:训练资料的分类不一致性,即便高达34%,几乎也不会影响分类器的成效。此项发现,其重要的意涵是,即便过去的研究使用了一致性不高的测试集做实验,其结论仍旧是有效的。当然,分类不一致性高的资料,拿来训练后,不管分类器好坏,其得到的分类成效都是比较低的。除了以上发现外,本文也介绍了一套中文分类测试集,免费提供各界研究使用。另外,作者也提出了一套侦测复本或相似文件的可靠方法,与过去的方法比较,此方法可以侦测过去方法所无法侦测到的相似文件。