基于word2vec和logistic回归的中文专利文本分类研究( /HTML)

TP391.1

专利文本作为重要的信息载体对其实现自动分类具有重要的研究意义。针对海量的专利文本提出一种基于word2vec和logistic回归的中文专利文本分类模型的机器学习方法。本方法利用word2vec产生的词向量对专利文本进行表示然后配合logistic回归模型对专利说明和摘要合并的文本语料进行学习和训练从而实现对专利文本的自动分类。试验结果表明我们提出的机器学习方法能够得到较好的分类效果其中个别类别的分类准确率达到了84%;并且与k近邻算法相比该模型在精确度、召回率及F1值方面均有显著提高。本方法可为专利文本自动分类提供可靠的研究依据。