NSL OpenIR  > 中国科学院文献情报中心(北京)  > 信息系统部
基于Nutch的Web网站定向采集系统
徐健; 张智雄
2009
Source Publication现代图书情报技术
Issue177Pages:1-6
Abstract在对目前具有代表性的开源网络抓取软件Nutch、Heritrix、WCT、Web-Harvest进行比较分析的基础上,提出基于Nutch的Web网站定向采集系统,并对种子站点的选取、抓取过程管理、网页去噪、新种子站点的发现等关键问题进行重点探讨。
Keyword网站定向采集系统 Nutch 网站抓取 网页去噪
Subject Area信息技术
Indexed By其他
Language中文
Funding Organization国家“十一五”科技支撑计划子课题“网络科技信息监测与评价”(项目编号:2006BAH03B05)的研究成果之一
Document Type期刊论文
Identifierhttp://ir.las.ac.cn/handle/12502/2401
Collection中国科学院文献情报中心(北京)_信息系统部
Recommended Citation
GB/T 7714
徐健,张智雄. 基于Nutch的Web网站定向采集系统[J]. 现代图书情报技术,2009(177):1-6.
APA 徐健,&张智雄.(2009).基于Nutch的Web网站定向采集系统.现代图书情报技术(177),1-6.
MLA 徐健,et al."基于Nutch的Web网站定向采集系统".现代图书情报技术 .177(2009):1-6.
Files in This Item: Download All
File Name/Size DocType Version Access License
基于Nutch的Web网站定向采集系统.(549KB) 开放获取LicenseView Download
Related Services
Recommend this item
Bookmark
Usage statistics
Export to Endnote
Google Scholar
Similar articles in Google Scholar
[徐健]'s Articles
[张智雄]'s Articles
Baidu academic
Similar articles in Baidu academic
[徐健]'s Articles
[张智雄]'s Articles
Bing Scholar
Similar articles in Bing Scholar
[徐健]'s Articles
[张智雄]'s Articles
Terms of Use
No data!
Social Bookmark/Share
File name: 基于Nutch的Web网站定向采集系统.pdf
Format: Adobe PDF
All comments (0)
No comment.
 

Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.