收录:
摘要:
一种短文本间语义距离的计算方法属于汉语文字信息处理技术领域,其特征在于把两个短文本间的语义距离定义为句法结构距离和单元语义距离之和进行计算:在对文本进行包括去除网页标记、变异短文本处理以及分词处理以后得到的一系列词串,根据词语相似度矩阵对两个短文本中的对应的词串进行语义对齐,根据对其过程中的词语调节次数得到了句法结构距离;再利用《同义词词林扩展版》中词语的五级结构,同时引入中文关键词和近义词概念,以便在语义对齐的基础上,用词语为单位,对各词语进行包括插入、删除或替换等五种操作,加入权重后的各种操作次数之和的权值来表示词语串之间的单元语义距离。本发明的文本语义距离的相对正确率要高于经典的编辑距离算法。
关键词:
通讯作者信息:
电子邮件地址: