NSL OpenIR  > 中国科学院文献情报中心(北京)
基于分布式技术的科技文献大数据平台的建设研究
常志军1,2; 钱力1,2; 谢靖1,2; 吴振新1,2; 张鹄1; 于倩倩1; 王颖1; 王永吉3
2021
Source Publication数据分析与知识发现
Volume5Issue:03Pages:69-77
Abstract

【目的】解决海量篇级文献的存储与在线访问、大规模数据治理和服务性能低的问题,建设科技文献大数据平台。【方法】以分布式技术为基础,分析科技大数据特点及服务导向,结合服务器、网络等硬件资源条件,采用共租部署策略,设计了"5+2"整体架构的科技文献大数据平台。【结果】建成PB级科技文献大数据平台,数据存储量达到200TB,文献实体量达3.2亿条,实体关系量达60亿条,基于MapReduce的元数据处理性能提高3倍,形成了基于微服务的知识服务架构。【局限】该平台未设计完整的流式处理流程,不能满足增量数据即时响应的需求。【结论】本文建设的科技文献大数据平台已支撑中国科学院文献情报中心知识发现平台、慧科研等产品体系,取得较好的线上服务效果,提升了对科技文献数据的处理计算与服务能力。

Indexed ByCSSCI
Language中文
Document Type期刊论文
Identifierhttp://ir.las.ac.cn/handle/12502/11658
Collection中国科学院文献情报中心(北京)
Affiliation1.中国科学院文献情报中心
2.中国科学院大学经济与管理学院图书情报与档案管理系
3.中国科学院软件研究所
First Author Affilication中国科学院文献情报中心
Recommended Citation
GB/T 7714
常志军,钱力,谢靖,等. 基于分布式技术的科技文献大数据平台的建设研究[J]. 数据分析与知识发现,2021,5(03):69-77.
APA 常志军.,钱力.,谢靖.,吴振新.,张鹄.,...&王永吉.(2021).基于分布式技术的科技文献大数据平台的建设研究.数据分析与知识发现,5(03),69-77.
MLA 常志军,et al."基于分布式技术的科技文献大数据平台的建设研究".数据分析与知识发现 5.03(2021):69-77.
Files in This Item: Download All
File Name/Size DocType Version Access License
基于分布式技术的科技文献大数据平台的建设(2139KB)期刊论文出版稿开放获取CC BY-NC-SAView Download
Related Services
Recommend this item
Bookmark
Usage statistics
Export to Endnote
Google Scholar
Similar articles in Google Scholar
[常志军]'s Articles
[钱力]'s Articles
[谢靖]'s Articles
Baidu academic
Similar articles in Baidu academic
[常志军]'s Articles
[钱力]'s Articles
[谢靖]'s Articles
Bing Scholar
Similar articles in Bing Scholar
[常志军]'s Articles
[钱力]'s Articles
[谢靖]'s Articles
Terms of Use
No data!
Social Bookmark/Share
File name: 基于分布式技术的科技文献大数据平台的建设研究_常志军.pdf
Format: Adobe PDF
All comments (0)
No comment.
 

Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.