NSL OpenIR  > 中国科学院文献情报中心(北京)  > 研究生
基于多策略组合的主题爬行技术研究
乔建忠
学位类型硕士论文
导师李广建教授、博士
2011-05-31
学位授予单位中国科学院研究生院
学位授予地点北京中关村北四环西路33号,中国科学院国家科学图书馆,邮政编码:100190
关键词多策略组合 主题爬行技术 主题爬行器 搜索算法 分类算法
摘要主题搜索在数字图书馆等多个领域得到广泛应用,主题信息采集在实现主题资源构建的同时避免了大规模占有互联网资源和资源浪费,而作为其核心技术之一的主题爬行技术(FC)因其智能化程度较高、适合精确搜索、减少空间占用等特点自提出以来一直是一个研究热点。但主题爬行技术不仅要解决主题多样化问题,而且要解决搜索或分类策略单一和不灵活的问题。理论上需要对现有主题类型进行梳理和归纳,建立一个一体化的主题爬行策略框架;实践上需要研究可聚焦多种类型主题目标的组合爬行技术。 本文以多种主题抓取目标为牵引研究一种新的FC即基于多策略组合的主题爬行技术(CMSFC)。重点研究可满足多种主题抓取需求的一体化的多策略组合解决方案和其中的两个关键问题:搜索策略和分类策略。 本文的研究路线是首先从理论研究入手利用文献和系统调研方法分析、评价前人研究成果、关键技术和存在的问题;其次提出基于多策略组合的主题爬行技术的概念、主题的分类和一体化多策略组合解决方案;第三,通过方法论的研究解决CMSFC的搜索算法和分类算法等核心问题;最后通过原型系统实现和实证研究评价所提方法的优势与不足。 在创新性研究方面,论文从理论的层面首先在梳理主题爬行技术研究现状的基础上,分析了主题含义的变化,提出将各种主题抓取需求统一起来的技术框架概念即CMSFC;其次将主题分为三种类型(内容主题、类型主题和网站主题),定义了与之对应的三种主题爬行技术并以典型案例作支撑总结聚焦三类主题的解决方案;第三,提出本文的一体化多策略组合解决方案和两个需要改进的核心问题。理论研究部分为后面的算法设计和原型系统实现研究提供了前提和支撑。而后第三章和第四章分别针对CMSFC中的两个核心问题展开具体算法设计。第三章,提出基于多启发策略的组合搜索算法。其中包括提出面向内容与类型主题的改进的最好优先搜索算法、用于预测链接相关性的新特征因子、运用这些特征因子的优先级算法以及KBES算法隧道策略等。第四章,提出基于知识库和择优策略的组合分类算法。其中包括提出用于建设知识库的KBB算法、面向内容主题的多分类器组合择优网页分类算法、面向类型主题的基于统计特征的集成分类算法等。第五章,实现了一个基于CMSFC的原型系统即CMSCrawler,描述了其体系结构和各模块功能,重点论述了实验设计、评价方法和结果分析等。最后对如何优化系统性能、提高搜索精度和投入实际运行等作为进一步改进和今后的工作。
学科领域搜索引擎
语种中文
文献类型学位论文
条目标识符http://ir.las.ac.cn/handle/12502/3751
专题中国科学院文献情报中心(北京)_研究生
推荐引用方式
GB/T 7714
乔建忠. 基于多策略组合的主题爬行技术研究[D]. 北京中关村北四环西路33号,中国科学院国家科学图书馆,邮政编码:100190. 中国科学院研究生院,2011.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
基于多策略组合的主题爬行技术研究_乔建忠(3193KB) 开放获取使用许可请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[乔建忠]的文章
百度学术
百度学术中相似的文章
[乔建忠]的文章
必应学术
必应学术中相似的文章
[乔建忠]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。