• 综合
  • 标题
  • 关键词
  • 摘要
  • 学者
  • 期刊-刊名
  • 期刊-ISSN
  • 会议名称
搜索

作者:

沈琦 (沈琦.) | 宋清明 (宋清明.) | 张猛 (张猛.) | 汤艳 (汤艳.)

收录:

incoPat

摘要:

本发明属于计算机科学与技术领域,涉及一种基于主题的Web页面清洗方法,包括:确定主题领域;采集样本页面,并对样本页面的网页结构进行分析,确定页面元素树形结构;确定抽取内容标签边界;根据标签边界定义正则表达式匹配规则,利用多个抽取规则组成抽取规则模板;对待清洗页面进行清洗预处理,剔除容易分辨的“噪音”内容;利用已生成的抽取规则模板进行页面清洗,得到清洗后的页面。本发明直接在页面中抽取有用信息,大大降低了页面清洗的复杂度和困难度。针对Web页面标签的复杂多样性和局部固定性,采用正则表达式直接匹配和抽取需要的标签,保留有用信息并自动剔除掉无用信息,可有效地实现页面清洗的目的。

关键词:

通讯作者信息:

电子邮件地址:

查看成果更多字段

相关关键词:

相关文章:

专利基本信息 :

专利类型: 发明申请

申请(专利)号: CN201310378986.1

申请日期: 2013-08-27

公开(公告)日: 2013-12-11

公开(公告)号: CN103440315A

申请(专利权): 北京工业大学

法律状态: 授权

被引次数:

WoS核心集被引频次: 0

SCOPUS被引频次:

ESI高被引论文在榜: 0 展开所有

万方被引频次:

中文被引频次:

近30日浏览量: 2

归属院系:

在线人数/总访问数:4887/2937434
地址:北京工业大学图书馆(北京市朝阳区平乐园100号 邮编:100124) 联系我们:010-67392185
版权所有:北京工业大学图书馆 站点建设与维护:北京爱琴海乐之技术有限公司