基于Nutch的Web网站定向采集系统 | |
徐健![]() ![]() | |
2009 | |
Source Publication | 现代图书情报技术
![]() |
Issue | 177Pages:1-6 |
Abstract | 在对目前具有代表性的开源网络抓取软件Nutch、Heritrix、WCT、Web-Harvest进行比较分析的基础上,提出基于Nutch的Web网站定向采集系统,并对种子站点的选取、抓取过程管理、网页去噪、新种子站点的发现等关键问题进行重点探讨。 |
Keyword | 网站定向采集系统 Nutch 网站抓取 网页去噪 |
Subject Area | 信息技术 |
Indexed By | 其他 |
Language | 中文 |
Funding Organization | 国家“十一五”科技支撑计划子课题“网络科技信息监测与评价”(项目编号:2006BAH03B05)的研究成果之一 |
Document Type | 期刊论文 |
Identifier | http://ir.las.ac.cn/handle/12502/2401 |
Collection | 中国科学院文献情报中心(北京)_信息系统部 |
Recommended Citation GB/T 7714 | 徐健,张智雄. 基于Nutch的Web网站定向采集系统[J]. 现代图书情报技术,2009(177):1-6. |
APA | 徐健,&张智雄.(2009).基于Nutch的Web网站定向采集系统.现代图书情报技术(177),1-6. |
MLA | 徐健,et al."基于Nutch的Web网站定向采集系统".现代图书情报技术 .177(2009):1-6. |
Files in This Item: | Download All | |||||
File Name/Size | DocType | Version | Access | License | ||
基于Nutch的Web网站定向采集系统.(549KB) | 开放获取 | License | View Download |
Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.
Edit Comment