收录:
摘要:
本发明提出了一种不均衡文本集的特征选择和权重计算方法,属于文本信息处理领域,具体是涉及不均衡文本集的特征选择和权重计算方法。针对不均衡文本数据的分类问题,本发明提出一种特征选取和权重计算方法与系统。本发明结合类别区分度和平均词频因素,通过改进卡方统计量方法进行特征选取,同时对常用的特征权重计算方法进行改进,并在其基础上提出了TF‑IDF的权重计算方法,本发明提供的方法在处理不均衡数据集问题时效果要优于传统的特征选择方法,对于有效提高分类准确率是有效可行的。
关键词:
通讯作者信息:
电子邮件地址: