期刊在线咨询服务,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

期刊咨询 杂志订阅 购物车(0)

基于均值漂移算法的文本聚类数目优化研究

赵华茗; 余丽; 中国科学院文献情报中心; 北京100190

关键词:均值漂移 文本聚类 聚类数 聚类有效性 

摘要:【目的】探索最佳文本聚类数目的优化方法,为提升文本聚类算法的有效性和质量提供参考。【方法】结合TF-IDF和Word2Vec算法,提取TopN关键词向量作为语料库文本特征表达;结合均值漂移算法、聚类有效性指标(Silhouette)和均方误差(MSE)指标,确定最佳文本聚类数目。【结果】Top 4 500关键词向量规模能较好呈现文本特征;基于均值漂移算法确定的最佳文本聚类数与人工研判优化的聚类数相符。【局限】选取的实验数据集合不够充足,缺少在其他领域的应用对比。【结论】本文方法可以在无监督方式下高质量完成文本聚类个数的确定。

数据分析与知识发现杂志要求:

{1}所有作者的作者简介(姓名、工作单位、职称、研究方向);通讯作者请再提供电子邮箱。

{2}稿件文责自负。编辑部有权对来稿进行文字和技术性删改,对实质性内容的修改,则应征求作者同意。

{3}标题序号:可按四级小标题的格式写:一、(一)、1、(1);一级、二级标题另起段,正文另起段;三级、四级小标题另起段,但正文接排;正文内序号用①……②……等。

{4}参考文献:(1)正文格式:作者,发表年(多版次文献请同时提供第 1 版的发表时间),页码,外加圆括号。(2)文末格式:中、外文献分开,各按音序排列。

{5}摘要应反映论文的目的、方法及主要结果、结论,并充分反映论文的创新点,表达简明、语义确切,以100 ~300 字为宜。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

数据分析与知识发现

CSSCI南大期刊
1-3个月下单

关注 12人评论|1人关注
相关期刊
服务与支付