收录:
摘要:
本发明公开了一种基于改进的Single‑pass聚类算法的微博话题检测方法,包括:微博文本内容采集,文本预处理,基于LDA建立文本向量模型,基于改进的Single‑pass聚类算法进行文本聚类,结果评测;改进的Single‑pass聚类算法包括增加时间参数、对类别数据计算聚类中心点和批量输入数据。本发明通过增加时间参数,保证话题的同一性;通过对类别数据计算聚类中心点,新数据与聚类中心点进行比较,这样有助于减少新数据与每条数据比较的次数,提高了计算的效率;通过对数据批量输入,即对数据先进行聚类然后再输入,新输入的聚类中心点和已聚类好的中心点进行比较,提高了运算效率,节省了运算空间。
关键词:
通讯作者信息:
电子邮件地址: