中国科学院文献情报中心机构知识库
Advanced  
NSL OpenIR  > 中国科学院文献情报中心  > 信息系统部  > 期刊论文
Title: 基于Nutch的Web网站定向采集系统
Author: 徐健 ; 张智雄
Source: 现代图书情报技术
Issued Date: 2009
Issue: 177, Pages:1-6
Keyword: 网站定向采集系统 ; Nutch ; 网站抓取 ; 网页去噪
Subject: 信息技术
Indexed Type: 其他
Abstract: 在对目前具有代表性的开源网络抓取软件Nutch、Heritrix、WCT、Web-Harvest进行比较分析的基础上,提出基于Nutch的Web网站定向采集系统,并对种子站点的选取、抓取过程管理、网页去噪、新种子站点的发现等关键问题进行重点探讨。
Language: 中文
Content Type: 期刊论文
URI: http://ir.las.ac.cn/handle/12502/2401
Appears in Collections:中国科学院文献情报中心_信息系统部_期刊论文

Files in This Item: Download All
File Name/ File Size Content Type Version Access License
基于Nutch的Web网站定向采集系统.pdf(549KB)----开放获取View Download

Recommended Citation:
徐健,张智雄. 基于Nutch的Web网站定向采集系统[J]. 现代图书情报技术,2009(177):1-6.
Service
Recommend this item
Sava as my favorate item
Show this item's statistics
Export Endnote File
Google Scholar
Similar articles in Google Scholar
[徐健]'s Articles
[张智雄]'s Articles
CSDL cross search
Similar articles in CSDL Cross Search
[徐健]‘s Articles
[张智雄]‘s Articles
Related Copyright Policies
Null
Social Bookmarking
Add to CiteULike Add to Connotea Add to Del.icio.us Add to Digg Add to Reddit
文件名: 基于Nutch的Web网站定向采集系统.pdf
格式: Adobe PDF
此文件暂不支持浏览
所有评论 (0)
暂无评论
 
评注功能仅针对注册用户开放,请您登录
您对该条目有什么异议,请填写以下表单,管理员会尽快联系您。
内 容:
Email:  *
单位:
验证码:   刷新
您在IR的使用过程中有什么好的想法或者建议可以反馈给我们。
标 题:
 *
内 容:
Email:  *
验证码:   刷新

Items in IR are protected by copyright, with all rights reserved, unless otherwise indicated.

 

 

Valid XHTML 1.0!
Copyright © 2007-2017  中国科学院文献情报中心 - Feedback
Powered by CSpace