standard:默认分词,单词会被拆分,大小会转换为小写。
simple:按照非字母分词。大写转为小写。
whitespace:按照空格分词。忽略大小写。
keyword:不做分词。把整个文本作为一个单独的关键词。
一般情况下,一个常见的词语都能在中文分词器中进行分词。但是现在网络用语各种新起,就会出现很多口头语,是不能被正常收录在我们的分词器中,如下:
结果:“小盆友”并没有像我们期望的那样进行分词。
1.这个时候我们就需要按照我们的意愿进行自定义分词。我们需要去修改中文分词器的配置文件。
(注意:如下操作需要在root下操作,重启时用esuser用户)
4.测试,此时的“小盆友”就会被认为是一个词进行区分。
