收录:
摘要:
为了给北京市知识产权预警能力研究提供基础数据,通过检索美国专利商标局(USPTO)网络专利数据库可以得到动态网页形式的专利信息.基于XML相关技术,提出了将这些网页形式的专利数据抽取到关系数据库的技术和方法.使用正则表达式匹配的方法进行页面过滤,将网页解析为文档对象模型(DOM)进行清洗,通过可扩散样式表转换语言(XSLT)模板抽取专利信息,并通过对象映射的方法将专利信息存入关系数据库,实现了专利信息抽取原型系统.实验结果表明,该原型系统具有较高的召回率和准确率.
关键词:
通讯作者信息:
电子邮件地址: