NSL OpenIR  > 中国科学院文献情报中心(北京)  > 研究生
基于多策略组合的主题爬行技术研究
乔建忠
Subtype硕士论文
Thesis Advisor李广建教授、博士
2011-05-31
Degree Grantor中国科学院研究生院
Place of Conferral北京中关村北四环西路33号,中国科学院国家科学图书馆,邮政编码:100190
Keyword多策略组合 主题爬行技术 主题爬行器 搜索算法 分类算法
Abstract主题搜索在数字图书馆等多个领域得到广泛应用,主题信息采集在实现主题资源构建的同时避免了大规模占有互联网资源和资源浪费,而作为其核心技术之一的主题爬行技术(FC)因其智能化程度较高、适合精确搜索、减少空间占用等特点自提出以来一直是一个研究热点。但主题爬行技术不仅要解决主题多样化问题,而且要解决搜索或分类策略单一和不灵活的问题。理论上需要对现有主题类型进行梳理和归纳,建立一个一体化的主题爬行策略框架;实践上需要研究可聚焦多种类型主题目标的组合爬行技术。 本文以多种主题抓取目标为牵引研究一种新的FC即基于多策略组合的主题爬行技术(CMSFC)。重点研究可满足多种主题抓取需求的一体化的多策略组合解决方案和其中的两个关键问题:搜索策略和分类策略。 本文的研究路线是首先从理论研究入手利用文献和系统调研方法分析、评价前人研究成果、关键技术和存在的问题;其次提出基于多策略组合的主题爬行技术的概念、主题的分类和一体化多策略组合解决方案;第三,通过方法论的研究解决CMSFC的搜索算法和分类算法等核心问题;最后通过原型系统实现和实证研究评价所提方法的优势与不足。 在创新性研究方面,论文从理论的层面首先在梳理主题爬行技术研究现状的基础上,分析了主题含义的变化,提出将各种主题抓取需求统一起来的技术框架概念即CMSFC;其次将主题分为三种类型(内容主题、类型主题和网站主题),定义了与之对应的三种主题爬行技术并以典型案例作支撑总结聚焦三类主题的解决方案;第三,提出本文的一体化多策略组合解决方案和两个需要改进的核心问题。理论研究部分为后面的算法设计和原型系统实现研究提供了前提和支撑。而后第三章和第四章分别针对CMSFC中的两个核心问题展开具体算法设计。第三章,提出基于多启发策略的组合搜索算法。其中包括提出面向内容与类型主题的改进的最好优先搜索算法、用于预测链接相关性的新特征因子、运用这些特征因子的优先级算法以及KBES算法隧道策略等。第四章,提出基于知识库和择优策略的组合分类算法。其中包括提出用于建设知识库的KBB算法、面向内容主题的多分类器组合择优网页分类算法、面向类型主题的基于统计特征的集成分类算法等。第五章,实现了一个基于CMSFC的原型系统即CMSCrawler,描述了其体系结构和各模块功能,重点论述了实验设计、评价方法和结果分析等。最后对如何优化系统性能、提高搜索精度和投入实际运行等作为进一步改进和今后的工作。
Subject Area搜索引擎
Language中文
Document Type学位论文
Identifierhttp://ir.las.ac.cn/handle/12502/3751
Collection中国科学院文献情报中心(北京)_研究生
Recommended Citation
GB/T 7714
乔建忠. 基于多策略组合的主题爬行技术研究[D]. 北京中关村北四环西路33号,中国科学院国家科学图书馆,邮政编码:100190. 中国科学院研究生院,2011.
Files in This Item: Download All
File Name/Size DocType Version Access License
基于多策略组合的主题爬行技术研究_乔建忠(3193KB) 开放获取LicenseView Download
Related Services
Recommend this item
Bookmark
Usage statistics
Export to Endnote
Google Scholar
Similar articles in Google Scholar
[乔建忠]'s Articles
Baidu academic
Similar articles in Baidu academic
[乔建忠]'s Articles
Bing Scholar
Similar articles in Bing Scholar
[乔建忠]'s Articles
Terms of Use
No data!
Social Bookmark/Share
File name: 基于多策略组合的主题爬行技术研究_乔建忠_正式加密版.pdf
Format: Adobe PDF
This file does not support browsing at this time
All comments (0)
No comment.
 

Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.