本文探讨分类不一致对自动分类成效的影响

分类 2025-09-23 不一致性复本分类器侦测此项好坏近似意涵拿来中文 12°

本文探讨分类不一致对自动分类成效的影响。经由近似文件的自动侦测，以及两种分类方法针对两个测试文件集做的比较实验，本文发现：训练资料的分类不一致性，即便高达34%，几乎也不会影响分类器的成效。此项发现，其重要的意涵是，即便过去的研究使用了一致性不高的测试集做实验，其结论仍旧是有效的。当然，分类不一致性高的资料，拿来训练后，不管分类器好坏，其得到的分类成效都是比较低的。除了以上发现外，本文也介绍了一套中文分类测试集，免费提供各界研究使用。另外，作者也提出了一套侦测复本或相似文件的可靠方法，与过去的方法比较，此方法可以侦测过去方法所无法侦测到的相似文件。