NSL OpenIR  > 中国科学院文献情报中心(北京)  > 信息系统部
基于Nutch的Web网站定向采集系统
徐健; 张智雄
2009
Source Publication现代图书情报技术
Issue177Pages:1-6
Abstract在对目前具有代表性的开源网络抓取软件Nutch、Heritrix、WCT、Web-Harvest进行比较分析的基础上,提出基于Nutch的Web网站定向采集系统,并对种子站点的选取、抓取过程管理、网页去噪、新种子站点的发现等关键问题进行重点探讨。
Keyword网站定向采集系统 Nutch 网站抓取 网页去噪
Subject Area信息技术
Indexed By其他
Language中文
Funding Organization国家“十一五”科技支撑计划子课题“网络科技信息监测与评价”(项目编号:2006BAH03B05)的研究成果之一
Document Type期刊论文
Identifierhttp://ir.las.ac.cn/handle/12502/2401
Collection中国科学院文献情报中心(北京)_信息系统部
Recommended Citation
GB/T 7714
徐健,张智雄. 基于Nutch的Web网站定向采集系统[J]. 现代图书情报技术,2009(177):1-6.
APA 徐健,&张智雄.(2009).基于Nutch的Web网站定向采集系统.现代图书情报技术(177),1-6.
MLA 徐健,et al."基于Nutch的Web网站定向采集系统".现代图书情报技术 .177(2009):1-6.
Files in This Item: Download All
File Name/Size DocType Version Access License
基于Nutch的Web网站定向采集系统.(549KB) 开放获取LicenseView Download
Related Services
Recommend this item
Bookmark
Usage statistics
Export to Endnote
Google Scholar
Similar articles in Google Scholar
[徐健]'s Articles
[张智雄]'s Articles
Baidu academic
Similar articles in Baidu academic
[徐健]'s Articles
[张智雄]'s Articles
Bing Scholar
Similar articles in Bing Scholar
[徐健]'s Articles
[张智雄]'s Articles
Terms of Use
No data!
Social Bookmark/Share
File name: 基于Nutch的Web网站定向采集系统.pdf
Format: Adobe PDF
This file does not support browsing at this time
All comments (0)
No comment.
 

Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.