基于科技档案的学术专题情报快速辅助生成系统设计研究

2018-01-31 05:31
天津科技 2018年1期
关键词:科技情报情报学网页

陈 默

(机械工业信息研究院 北京100037)

1 论文的研究背景和意义

科技档案是指在自然科学研究、生产技术、基本建设等活动中形成的应当归档保存的图纸、图表、文字材料、计算材料、照片、影片、录像、录音带等科技文件材料。随着信息网络技术的发展,云科技、大数据时代的到来,数据信息呈现出爆炸式增长。在这种情况下,再采用人工手段来检索情报信息已经成为不可能完成的任务。

本文基于数字档案平台、科技报告系统等数据库设计建立一套以人为主,数据、信息、知识和智慧综合集成,高度智能化的人机结合智慧情报系统。从系统的物理构成来看,包括3部分(见图1)。

文章将主要运用信息智能检索、数据统一结构化、信息抽取、机器学习、自然语言理解等前沿数据挖掘分析技术,对各数据库的结构化与非结构化文本进行处理,实现对海量信息的数据挖掘,完成数据的关键词输入、引文爬取、数据解析分析、统计,最终形成关于学术专题情报报告的雏形。

图1 基于综合集成研讨厅的人机结合智慧情报系统框架示意图Fig.1 Schematic of human-machine integration smart intelligence system framework based on HWME

2 功能需求分析与系统设计

2.1 系统需求分析

本系统需要在普通搜索引擎的基础上通过重点、互动、专业垂直搜索,完成深入的、交互式的、专业的科技情报搜索。本部分的科技情报专用搜索工具是由元搜索系统、重点搜索系统、互动搜索系统、垂直搜索系统和深网接口系统封装在一起构成。本系统根据研究内容设定采集数据的范围,力争把数以十万计的海量信息压缩到600条以内,同时保存足够的核心信息,并采用人机结合的工作方式,提供专家判读的界面,为数据筛选的准确性提供保障。

2.2 系统模块设计

本系统根据关键词并行进行科技报告系统网页爬取与数字档案馆中的科技档案爬取,获取有效的网页信息与档案信息,去重、去噪后得到需要的网页信息与档案信息。具体流程如图2所示。

按照档案情报流程节点的不同,该学术专题情报快速辅助生成系统可以细分为几个大模块:搜索大模块、控制大模块、整理大模块、分析大模块及结论生成大模块。大模块下又可细分为几个小模块。学术专题情报快速辅助生成系统模块划分如图3所示。

图2 系统数据流程图Fig.2 Flowchart of system data

图3 系统功能模块图Fig.3 System functional modules

2.3 系统架构设计

系统结构共包括元搜索、多线程控制器、垂直搜索、数据存储器、URL调度器、源码解析器和数据分析等七大模块。由于网页数据与档案库的格式差异较大,故本系统开发两个软件分别对网页数据和档案数据进行处理。从系统结构上说,除了信息采集模块外,两个软件的结构基本一致,都是通过上述模块进行相互协调控制(见图4)。

图4 系统整体结构图Fig.4 Overall system structure

系统的基本流程:在传统网络爬虫的基础上进行改进,抽取各类网页信息,将抽取下来的各类信息存储于内存之中,每次抽取与前一次链接相同,每当存储的信息超过设定的阈值,信息存入本地文件。

抓取下的数据被分为互联网数据与档案库数据,档案库数据一般为标准结构化数据(双层 PDF等除外),重复率低,可直接使用系统对数据进行分析。

3 系统的功能实现

以人工智能领域为例,使用本系统进行实验,验证本系统的可行性和有效性。

①可以实现对档案数据库、科技报告数据库的中文数据采集搜索,可以自动实现对档案、科技报告相关词库的搜索,对相关文献详细信息(包标题、摘要、完成人、完成单位、完成时间、项目名称等)进行搜索采集,对相关文献内高频词汇进行统计分析。系统检索过程见图5~7。

图5 搜索工具Fig.5 Search tool

图6 词库内数据Fig.6 Data within the lexicon

图7 详细信息内数据Fig.7 Data within the detailed information

②系统对采集到的数据进行归类、去噪、去重处理,筛选出较具情报价值的信息,运用文献计量学方法对筛选完的数据进行统计分析,形成清晰的档案文献相关信息统计分析表格。

③系统可以用来搜索某学术领域相关机构、相关专家,还可以对机构之间的合作关系、专家之间的合作关系、专家学术研究点之间的关系进行可视化展示。

科技情报是情报学的主要学科,档案信息、科技报告是情报采集的重要来源,基于科技档案的学术专题情报快速辅助生成系统可以有效提高情报机构数据资源建设能力,对于打造情报机构核心竞争力具有重要促进作用。

[1] 郑彦宁,宋振峰. 我国科技情报行业现状与发展对策分析[J]. 情报学报,2007,26(5):10-15.

[2] 贺德方. 我国科技情报行业发展方向的探讨[J]. 情报学报,2007,26(4):23-29.

[3] 贺德方. 我国科技情报行业发展战略与发展路径的思考[J]. 情报学报,2007,26(4):54-61.

[4] 成帅. 文献增长规律的研究[J]. 科技情报开发与经济,2005,15(22):13-20.

猜你喜欢
科技情报情报学网页
开放与融合:公安情报学进入情报学方式研究*
基于数据工程的国防科技情报生态体系构建
基于HTML5与CSS3的网页设计技术研究
构建中国特色的情报学
铜陵市科技情报工作存在的问题与发展对策
试论市场经济条件下农业科技情报自动化发展策略
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
国内图书馆情报学的发展现状与趋势探索
加强科技情报档案管理工作的建议