正规表示式(Regular Expression,常简写为 regex、regexp 或 RE),又称正规表达式、正规表示法、规则运算式、常规表示法,是电脑科学的一个概念。正规表示式使用单个字串来描述、符合一系列符合某个句法规则的字串。
本数据库依文本语系不同,对 term 做不同区隔:
英、梵、巴、藏转写 word,以空格做为区隔。
中文 句子,以句点做为区隔。
Lucene 的 regular expression engine 支援全部 Unicode 字元,但是下列字元保留做为算子:
另外本数据库也启用了 Elasticsearch 的 optional operators,下列字元也被保留:
如果要将这些字元当做一般字元使用,可以在前面加上反斜线,或是用双引号包起来。例如:
符合任意字元。例如:
重复前面的字元,零或一次。经常用来标示某个字元可以有、也可以没有。例如:
重复前面的字元,一字或多次。例如:
重复前面的字元,零或多次。例如:
前面的字元,最少、最多可以出现几次。例如:
形成一个群组。可以将群组视为表示式之中的单一字元。例如:
符合中括号内的另一个字元。中括号内的 ^ 字元表示否定后面的字元或范围。例如:
排除跟在 ~ 后面的字元。例如:
AND 算子。在算子的左右两侧的 pattern 都要符合。