• 综合
  • 标题
  • 关键词
  • 摘要
  • 学者
  • 期刊-刊名
  • 期刊-ISSN
  • 会议名称
搜索

作者:

陈欣 (陈欣.) | 张菁 (张菁.) | 李晓光 (李晓光.) | 卓力 (卓力.)

收录:

CQVIP PKU CSCD

摘要:

提出了一种面向中文敏感网页识别的文本分类方法,主要包括中文分词、停用词表的建立、特征选择、分类器等4个部分.为丰富中文分词词库,提出了一种以词频统计为主、以人工判决为辅并标注词性的新词识别算法;提出了一种停用词表的建立算法,据此建立了含300个停用词的停用词表;采用开方拟合检验统计量方法作为特征选择方法,并确定了400维的特征词库.根据开方拟合统计量特征选择方法与朴素贝叶斯分类器的特点,加入待分类网页文本中所含特征项数目与特征集维数的比值以及特征项数目与文本所含词汇数目的比值两个影响因子,对朴素贝叶斯分类器进行了改进.考虑到不同的人群对敏感概念的主观理解差异较大,将待识别网页的敏感度值作为分类器的输出.实验结果表明,与现有的文本分类方法相比,所提出的文本分类方法可以获得更好的识别效果.

关键词:

CHI统计 中文敏感网页识别 停用词表建立 新词识别 朴素贝叶斯分类器

作者机构:

  • [ 1 ] [陈欣]北京工业大学
  • [ 2 ] [张菁]北京工业大学
  • [ 3 ] [李晓光]北京工业大学
  • [ 4 ] [卓力]北京工业大学

通讯作者信息:

电子邮件地址:

查看成果更多字段

相关关键词:

来源 :

测控技术

ISSN: 1000-8829

年份: 2011

期: 5

卷: 30

页码: 27-31,40

被引次数:

WoS核心集被引频次: 0

SCOPUS被引频次:

ESI高被引论文在榜: 0 展开所有

万方被引频次: 4

中文被引频次:

近30日浏览量: 2

归属院系:

在线人数/总访问数:2401/2934891
地址:北京工业大学图书馆(北京市朝阳区平乐园100号 邮编:100124) 联系我们:010-67392185
版权所有:北京工业大学图书馆 站点建设与维护:北京爱琴海乐之技术有限公司