收录:
摘要:
汉语标点句句首话题缺失是机器翻译、信息抽取准确率不高的原因之一.该文从广义话题理论出发,根据汉语话题结构的特点,提出标点句的话题句识别研究方案,包括两个阶段性任务:单个标点句的话题句识别和序列标点句的话题句序列构建.识别出标点句的话题句也就找到了标点句句首缺失的话题.该文解决单个标点句的话题句识别任务,主要采用语义泛化和编辑距离两种手段.实验中开放测试的准确率比基线高出12.51个百分点.该结果说明,运用广义话题理论进行单个标点句的话题句识别可产生明显的效果.
关键词:
通讯作者信息:
电子邮件地址: