中国科学院文献情报中心机构知识库
Advanced  
NSL OpenIR  > 中国科学院文献情报中心  > 研究生  > 学位论文
Title: 基于多策略组合的主题爬行技术研究
Author: 乔建忠
Degree Level: 硕士论文
Issued Date: 2011-05-31
Degree Grantor: 中国科学院研究生院
Place of Degree Grantor: 北京中关村北四环西路33号,中国科学院国家科学图书馆,邮政编码:100190
Supervisor: 李广建教授、博士
Keyword: 多策略组合 ; 主题爬行技术 ; 主题爬行器 ; 搜索算法 ; 分类算法
Subject: 信息技术::搜索引擎
Abstract: 主题搜索在数字图书馆等多个领域得到广泛应用,主题信息采集在实现主题资源构建的同时避免了大规模占有互联网资源和资源浪费,而作为其核心技术之一的主题爬行技术(FC)因其智能化程度较高、适合精确搜索、减少空间占用等特点自提出以来一直是一个研究热点。但主题爬行技术不仅要解决主题多样化问题,而且要解决搜索或分类策略单一和不灵活的问题。理论上需要对现有主题类型进行梳理和归纳,建立一个一体化的主题爬行策略框架;实践上需要研究可聚焦多种类型主题目标的组合爬行技术。 本文以多种主题抓取目标为牵引研究一种新的FC即基于多策略组合的主题爬行技术(CMSFC)。重点研究可满足多种主题抓取需求的一体化的多策略组合解决方案和其中的两个关键问题:搜索策略和分类策略。 本文的研究路线是首先从理论研究入手利用文献和系统调研方法分析、评价前人研究成果、关键技术和存在的问题;其次提出基于多策略组合的主题爬行技术的概念、主题的分类和一体化多策略组合解决方案;第三,通过方法论的研究解决CMSFC的搜索算法和分类算法等核心问题;最后通过原型系统实现和实证研究评价所提方法的优势与不足。 在创新性研究方面,论文从理论的层面首先在梳理主题爬行技术研究现状的基础上,分析了主题含义的变化,提出将各种主题抓取需求统一起来的技术框架概念即CMSFC;其次将主题分为三种类型(内容主题、类型主题和网站主题),定义了与之对应的三种主题爬行技术并以典型案例作支撑总结聚焦三类主题的解决方案;第三,提出本文的一体化多策略组合解决方案和两个需要改进的核心问题。理论研究部分为后面的算法设计和原型系统实现研究提供了前提和支撑。而后第三章和第四章分别针对CMSFC中的两个核心问题展开具体算法设计。第三章,提出基于多启发策略的组合搜索算法。其中包括提出面向内容与类型主题的改进的最好优先搜索算法、用于预测链接相关性的新特征因子、运用这些特征因子的优先级算法以及KBES算法隧道策略等。第四章,提出基于知识库和择优策略的组合分类算法。其中包括提出用于建设知识库的KBB算法、面向内容主题的多分类器组合择优网页分类算法、面向类型主题的基于统计特征的集成分类算法等。第五章,实现了一个基于CMSFC的原型系统即CMSCrawler,描述了其体系结构和各模块功能,重点论述了实验设计、评价方法和结果分析等。最后对如何优化系统性能、提高搜索精度和投入实际运行等作为进一步改进和今后的工作。
Language: 中文
Content Type: 学位论文
URI: http://ir.las.ac.cn/handle/12502/3751
Appears in Collections:中国科学院文献情报中心_研究生_学位论文

Files in This Item: Download All
File Name/ File Size Content Type Version Access License
基于多策略组合的主题爬行技术研究_乔建忠_正式加密版.pdf(3193KB)----开放获取View Download

Recommended Citation:
乔建忠. 基于多策略组合的主题爬行技术研究[D]. 北京中关村北四环西路33号,中国科学院国家科学图书馆,邮政编码:100190. 中国科学院研究生院. 2011.
Service
Recommend this item
Sava as my favorate item
Show this item's statistics
Export Endnote File
Google Scholar
Similar articles in Google Scholar
[乔建忠]'s Articles
CSDL cross search
Similar articles in CSDL Cross Search
[乔建忠]‘s Articles
Related Copyright Policies
Null
Social Bookmarking
Add to CiteULike Add to Connotea Add to Del.icio.us Add to Digg Add to Reddit
文件名: 基于多策略组合的主题爬行技术研究_乔建忠_正式加密版.pdf
格式: Adobe PDF
此文件暂不支持浏览
所有评论 (0)
暂无评论
 
评注功能仅针对注册用户开放,请您登录
您对该条目有什么异议,请填写以下表单,管理员会尽快联系您。
内 容:
Email:  *
单位:
验证码:   刷新
您在IR的使用过程中有什么好的想法或者建议可以反馈给我们。
标 题:
 *
内 容:
Email:  *
验证码:   刷新

Items in IR are protected by copyright, with all rights reserved, unless otherwise indicated.

 

 

Valid XHTML 1.0!
Copyright © 2007-2017  中国科学院文献情报中心 - Feedback
Powered by CSpace