• 综合
  • 标题
  • 关键词
  • 摘要
  • 学者
  • 期刊-刊名
  • 期刊-ISSN
  • 会议名称
搜索

作者:

王振振 (王振振.) | 何明 (何明.) | 杜永萍 (杜永萍.) (学者:杜永萍)

摘要:

LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型.提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果.实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果.

关键词:

文本数据 概率主题模型 相似度计算 计算机理论

作者机构:

  • [ 1 ] [王振振]北京工业大学计算机学院 北京 100124
  • [ 2 ] [何明]北京工业大学计算机学院 北京 100124
  • [ 3 ] [杜永萍]北京工业大学计算机学院 北京 100124

通讯作者信息:

电子邮件地址:

查看成果更多字段

相关关键词:

来源 :

年份: 2013

页码: 229-232

语种: 中文

被引次数:

WoS核心集被引频次: 0

SCOPUS被引频次:

ESI高被引论文在榜: 0 展开所有

万方被引频次: 17

中文被引频次:

近30日浏览量: 3

在线人数/总访问数:1080/2913817
地址:北京工业大学图书馆(北京市朝阳区平乐园100号 邮编:100124) 联系我们:010-67392185
版权所有:北京工业大学图书馆 站点建设与维护:北京爱琴海乐之技术有限公司