期刊在线咨询服务,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

期刊咨询 杂志订阅 购物车(0)

分布式主题爬虫的研究与设计

任昱凤 陕西师范大学计算机科学学院 西安710000

关键词:主题爬虫 主题相关度 

摘要:本文通过对分布式技术和主题网络爬虫的研究,设计了一个能处理海量数据的分布式主题爬虫。设计内容主要包括分布式主题网络爬虫的各个功能模块及其实现方法。如页面的主题相关度判定方法、URL去重过滤方法等。主要使用了Hadoop技术和向量空间模型。该分布式主题爬虫的研究与设计为后面分布式主题爬虫的实现奠定了基础。

计算机光盘软件与应用杂志要求:

{1}文章正文的标题、表格、图、公式以及脚注应分别连续编号。

{2}参考文献:本刊参考文献附于文末,执行国家标准《信息与文献参考文献著录规则》GB7714—2015的规定,序号用数字加方括号表示,如[1]、[2]...

{3}中文摘要为150-300字。摘要的内容应包括目的、方法、实验结果和结论;综述性、评论性文章可写指示性摘要。摘要中不应出现“本文、我们、作者”之类的词语。

{4}请作者提交附件,注明姓名,职称,所在学术机构,通讯地址,电话,电子邮箱。

{5}基金项目名称应按照国家有关部门规定的正式名称填写,多项基金项目应依次列出,其间以分号隔开。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机光盘软件与应用

部级期刊
1个月内下单

关注 34人评论|1人关注
相关期刊
服务与支付