基于Nutch的Web网站定向采集系统
徐健; 张智雄
2009
发表期刊现代图书情报技术
期号177页码:1-6
摘要在对目前具有代表性的开源网络抓取软件Nutch、Heritrix、WCT、Web-Harvest进行比较分析的基础上,提出基于Nutch的Web网站定向采集系统,并对种子站点的选取、抓取过程管理、网页去噪、新种子站点的发现等关键问题进行重点探讨。
关键词网站定向采集系统 Nutch 网站抓取 网页去噪
学科领域信息技术
收录类别其他
语种中文
项目资助者国家“十一五”科技支撑计划子课题“网络科技信息监测与评价”(项目编号:2006BAH03B05)的研究成果之一
文献类型期刊论文
条目标识符http://ir.las.ac.cn/handle/12502/2401
专题中国科学院文献情报中心(北京)_信息系统部
推荐引用方式
GB/T 7714
徐健,张智雄. 基于Nutch的Web网站定向采集系统[J]. 现代图书情报技术,2009(177):1-6.
APA 徐健,&张智雄.(2009).基于Nutch的Web网站定向采集系统.现代图书情报技术(177),1-6.
MLA 徐健,et al."基于Nutch的Web网站定向采集系统".现代图书情报技术 .177(2009):1-6.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
基于Nutch的Web网站定向采集系统.(549KB) 开放获取使用许可请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[徐健]的文章
[张智雄]的文章
百度学术
百度学术中相似的文章
[徐健]的文章
[张智雄]的文章
必应学术
必应学术中相似的文章
[徐健]的文章
[张智雄]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。