• 综合
  • 标题
  • 关键词
  • 摘要
  • 学者
  • 期刊-刊名
  • 期刊-ISSN
  • 会议名称
搜索

作者:

翟东升 (翟东升.) (学者:翟东升) | 李倩 (李倩.) | 张杰 (张杰.) | 黄鲁成 (黄鲁成.) (学者:黄鲁成) | 赵京 (赵京.) (学者:赵京)

收录:

CQVIP PKU CSSCI

摘要:

专利数据集的质量和处理效率是进行专利分析和知识发现的基础,以构造高质量专利数据集的处理模型为目的,以SQL Server BI为研究平台,设计并实现了德温特专利数据库( DII)信息清洗标注模型。以文本形式的专利信息为数据源,在对各字段内容进行分别抽取的基础上,综合运用表达式清洗策略、循环清洗策略和基于正则表达式的脚本清洗策略对各字段进行清洗转换,结合SQL语言将关系数据转变为XML语义数据。实验证明,模型可以有效而较为准确地完成对大规模DII专利信息的清洗、存储与标注。

关键词:

德温特专利数据库( DII) 抽取策略 数据清洗 专利信息

作者机构:

  • [ 1 ] [翟东升]北京工业大学
  • [ 2 ] [李倩]北京工业大学
  • [ 3 ] [张杰]北京工业大学
  • [ 4 ] [黄鲁成]北京工业大学
  • [ 5 ] [赵京]北京工业大学

通讯作者信息:

电子邮件地址:

查看成果更多字段

相关关键词:

来源 :

情报杂志

ISSN: 1002-1965

年份: 2013

期: 8

页码: 150-154,203

被引次数:

WoS核心集被引频次: 0

SCOPUS被引频次:

ESI高被引论文在榜: 0 展开所有

万方被引频次: 10

中文被引频次:

近30日浏览量: 4

在线人数/总访问数:2998/3875890
地址:北京工业大学图书馆(北京市朝阳区平乐园100号 邮编:100124) 联系我们:010-67392185
版权所有:北京工业大学图书馆 站点建设与维护:北京爱琴海乐之技术有限公司