关键词:降维 文本分类 主成分分析 信息增益率 特征选择
摘要:由于文本分类中的特征空间高维稀疏,传统单一的降维方法难以满足实际大数据分类需求。针对这种情况,提出一种两阶段的混合特征选择方法。第一阶段计算每个特征词的信息增益率并进行排序,然后根据设定的阈值进行特征词的选择。第二阶段利用主成分分析方法将第一阶段输出的仍保持高维特性的高维特征空间映射到低维新特征空间。实验结果表明,与单一的传统方法比较,混合特征选择方法实现了二次降维,不但减少了计算开销,还提高了分类性能。
计算机应用与软件杂志要求:
{1}文章关键要素,需有英文摘要。
{2}文章主题明确,数据可靠,书写准确,图表清晰,文字简练,内容齐全完整。来稿应含以下部分:中英文题名、中英文摘要、中英文关键词、中图分类号(本编辑部亦可代查)、正文以及必要的图表、参考文献。
{3}文稿要一稿一投,严禁各类侵权行为。
{4}前言应充分说明研究工作的背景、意义、本文拟解决的问题、采用的方法和手段,引出重要文献,全面评述相关研究工作,突出本工作的重要性和创新性,不要忽视国内同行的工作。
{5}稿件注释一律采用 “脚注”。注释规则请参下附《注释规范》,请投稿者严格遵循。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社