德语之中国哲学研究书目(至2006年)
古汉语断句(或称句读 )是中文书写系统中一个经典的议题将文本内容切成句子(sentence)以及子句(clause)辨识句子的边界称为“句”而上述的句子再细分各子句则称为“读”。判断断句仰赖阅读者的经验知识过程费时如果有自动化工具能快速初步解读断句后续由专家校对调整就能大幅降低时间和人力成本。
目前古汉语文本的自动化断句方法主要区分为规则方式和机器学习方式规则方法过于复杂且难以泛用主流为机器学习方法。机器学习方法利用统计算法和已标注资料建立学习模型再透过模型进行断句标注判断此一方法在某些文本中具有很不错的辨识准确率。中文书写系统发展已久不同时代具备不同文体通用型的自动断句方法难以实现。且不会再产生新的古汉语文本如何有效率的建立标注资料是重要的议题。主动式学习(Active Learning)是机器学习中用于解决学习过程需要大量人工训练资料的方法其概念透过人工协助电脑提出的问题建立训练资料能提高训练语料的品质降低其量的需求。主动式学习在自然语言处理中已经有相当广泛的应用但却少有在古汉语断句上的相关研究。
本研究欲发展结合主动式学习以及断句模型的“基于主动式学习的古汉语文本断句系统”透过人机合作模式降低建立模型时所需的训练语料。
本研究也将透过邀请专家使用“基于主动式学习的古汉语文本断句系统”进行古汉语断句并分析结果以及从专家取得改进建议。