收录:
摘要:
[目的]通过对科技查新中的跨库检索结果进行去重,提高查新检索效率.[方法]选取不同数据库检索记录中唯一性的特征四元组{论文名称,期刊名,发表时间,第一作者}信息,用改进的I-Match中的对比算法构建检索记录特征字串作为去重的计算依据.[结果]跨库检索去重算法对数据库检索结果进行初步分析和去重,提高查新检索效率.通过测试,算法去重准确率较高,而召回率受数据库收录信息完善度的影响,还有提高的空间.[局限]算法处理效果依赖于从数据库检索记录中提取特征四元组,由于不同数据库的检索返回结果存在差异,需要针对不同论文数据库定制检索记录特征抽取模板.[结论]通过实验测试,算法具有较高的去重准确率和处理效率,符合预定科技查新需求.
关键词:
通讯作者信息:
电子邮件地址: