• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
搜索

Author:

霍光煜 (霍光煜.) | 张勇 (张勇.) | 孙艳丰 (孙艳丰.) | 尹宝才 (尹宝才.)

Indexed by:

CSCD

Abstract:

随着信息技术的高速发展,各种数字档案数据量出现了爆炸式的增长.如何合理地挖掘分析档案数据,提升对新收录档案智能管理的效果已成为一个亟需解决的问题.现有的档案数据分类方法是面向管理需求的人工分类,这种人工分类的方式效率低下,忽略了档案固有的内容信息.此外,对于档案信息发现和利用来说,需进一步挖掘分析档案数据内容之间的关联性.面向档案智能管理的需求,从档案数据的文本内容角度出发,对人工分类的档案进行进一步分析.采用LDA模型提取文档的主题特征向量,进而用K-means算法对档案的主题特征进行聚类,得到档案间的关联.针对新收录档案数据的分类问题,采用现有档案数据,有监督的训练FastText深度学习模型,用训练完成的模型对新收录的档案数据进行全自动分类.在数据集上测试的结果表明,所提聚类方法在文档数据集的准确率相较于传统的基于TF-IDF特征的聚类算法提升6%,基于FastText的档案分类方法准确率超过96%,达到了代替手工分类的级别,验证了该方法的有效性和实用性.

Keyword:

LDA特征表示 文本聚类 档案管理 FastText文本分类

Author Community:

  • [ 1 ] [霍光煜]北京工业大学
  • [ 2 ] [张勇]北京工业大学 信息学部 多媒体与智能软件技术北京市重点实验室,北京 100124;北京市交通信息中心,北京 100055
  • [ 3 ] [孙艳丰]北京工业大学
  • [ 4 ] [尹宝才]北京工业大学

Reprint Author's Address:

Email:

Show more details

Related Keywords:

Source :

计算机工程与应用

ISSN: 1002-8331

Year: 2021

Issue: 6

Volume: 57

Page: 247-253

Cited Count:

WoS CC Cited Count:

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count: -1

Chinese Cited Count:

30 Days PV: 1

Online/Total:363/5275826
Address:BJUT Library(100 Pingleyuan,Chaoyang District,Beijing 100124, China Post Code:100124) Contact Us:010-67392185
Copyright:BJUT Library Technical Support:Beijing Aegean Software Co., Ltd.