收录:
摘要:
专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一.本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法,并给出了一个渐进式模型训练方法,克服了人工标注语料库规模的限制.从我们对<人民日报>1998年1月、2000年12月(共约379万字)语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高.
关键词:
通讯作者信息:
电子邮件地址: