收录:
摘要:
为了提高命名实体识别的准确率并降低人工标注成本,本文提出了一种将中文医疗领域广泛存在的本体库作为补充知识源的基于RNN的弱监督的命名实体识别方法,即基于医疗本体提取语义概念特征并与字词向量特征进行融合来构建命名实体识别模型。采用CBOW模型来提取语义特征(包括概念特征和词特征),在语义特征的基础上利用CEW模型提取字符特征,将语义特征和字符特征结合并通过深度学习模型RNN来获得中文医疗文本中的标签序列。基于真实医疗文本数据集进行对比实验表明:所提出的方法比传统模型准确率提高了2.2%~6.1%,验证了其在实际应用中的有效性。
关键词:
通讯作者信息:
电子邮件地址: