我国轨道交通行业科技情报服务创新研究*

2021-11-03 07:45李子林李雪山郭肖肖赵占芳
数字图书馆论坛 2021年9期
关键词:情报服务轨道交通科技

李子林 李雪山 郭肖肖 赵占芳

(1. 中国铁道科学研究院科学技术信息研究所,北京 100081;2. 河北地质大学信息工程学院,石家庄 050031)

大数据、云计算、人工智能、物联网等数字技术的突破发展与广泛应用在全球范围内掀起一场“数字转型”运动。2021年3月发布的《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》(下文简称“十四五”规划)中明确提出“加快数字化发展 建设数字中国”“加快建设数字经济、数字社会、数字政府,以数字化转型整体驱动生产方式、生活方式和治理方式变革”。在此背景下,我国轨道交通行业积极探索数字化转型之路,充分应用数字技术创新业务流程,提升行业数字应用能力,服务于行业科技研发和设计制造等重要活动。为顺应行业数字化转型的大趋势,以科技信息整合、开发、利用为核心的轨道交通行业科技情报服务亟需进行相应的调整和创新。鉴于此,本文首先分析了数字化转型期我国轨道交通行业科技情报服务发展的现实需求,在此基础上,结合轨道交通专业知识服务系统案例,阐释轨道交通行业科技情报服务创新发展的具体思路,旨在为新时期我国轨道交通行业科技情报服务的创新发展提供参考和借鉴。

1 我国轨道交通行业科技情报服务相关研究

作为关乎我国国计民生的重点行业,轨道交通行业始终坚持创新发展的总体观念。行业的创新发展离不开优质科技情报资源的获取和利用。如何短时间、高效率地对行业发展趋势和技术研发热点进行精准判断,科学制定一系列重大发展决策,这就需要汇聚国内外科研论文、技术报告、研发专利、科学数据等丰富、准确的国内外轨道交通行业信息,面向行业科研工作者对海量资源进行信息组织和挖掘,提供优质的情报资源和精准化、个性化的知识服务。

当前,我国轨道交通行业科技情报服务相关研究开展较少,整体上呈现零散分布状态。①轨道交通行业科技情报工作存在的问题与策略研究。万宝安[1]立足上海铁路局科研所的科技情报工作现状,指出情报研究工作缺乏常态化管理、标准等,提出要加强行业情报业务交流、拓展对外合作、搭建文献信息服务系统等策略。②“互联网+”背景下轨道交通行业科技情报发展研究。左荣欣等[2]依托湖南高速铁路职业技术学校的行业平台,论述基于知识聚类技术的高速铁路信息情报网站建设方案。黄建玲等[3]提出以全面感知、泛在互联、深度挖掘、多样服务为指导思路的轨道交通信息采集、挖掘、服务流程,旨在为行业监管、企业运营等提供情报支持。③数字转型期轨道交通行业科技情报服务模式研究。刘峰博等[4]从北京城市轨道交通现行方案出发,设计了融合大数据技术的应急辅助决策系统,探索大数据时代轨道交通行业情报服务新模式。李雪山等[5]引入竞争情报思维、专题服务模式,设计并实现轨道交通行业知识服务系统暨数字图书馆,旨在为我国轨道交通行业用户提供更加全面、个性化、精准化的科技信息与情报服务。

我国农业、医药卫生等行业自2012年起受中国工程科技知识中心资助,开展领域专业知识服务系统[6]建设,面向全行业提供领域数据资源整合、情报检索与追踪等知识服务。相较于农业水产、计算机技术、生物医学等行业科技情报服务发展现状[7]而言,我国轨道交通行业科技情报服务体系建设起步较晚,当下正处于高速建设发展时期。究其原因主要有两方面。一方面,我国轨道交通行业相对封闭的特性在一定程度上制约行业内科技信息资源归集与情报服务的对外拓展。以铁路行业为例,在我国铁路行政管理体制改革之前,行业内各主体参与市场竞争的积极性不强[8],相应地对科技信息、竞争情报的获取和利用需求不显著,未能与市场发展速度保持高度正相关关系。另一方面,轨道交通行业细分类别众多,领域知识高度专业化在一定程度上增加了该行业科技情报资源归集、整合的难度。仅凭借科技情报服务部门“一己之力”,承担轨道交通行业科技信息资源的择选、采集、整合和开发利用工作难以满足现实需要。如何对科技信息资源的类别、数量、质量进行科学、合理的把控,设计并推出贴合行业业务场景、满足科研人员利用需求的情报服务(产品),离不开行业专家、顾问的积极参与和广泛合作。

2 我国轨道交通行业科技情报服务发展需求

随着我国数字化转型进程不断加快,科技情报服务的资源环境和技术支持也产生深刻变革。从轨道交通行业科技情报服务的业务流程来看,数字化转型对该行业科技情报机构的数据整合、数据加工、服务方式、合作模式等提出新的发展需求。

2.1 整合处理海量多源异构数据的需求

随着大数据、融媒体、数字化等技术的发展,海量的非结构化数据资源不断涌现,如各类型的文本、数值、音频、视频以及用户生成内容等逐渐成为科技情报服务的重要数据资源。多源、异构成为当前科技情报服务源头数据的主要特征,优质、高效的科技情报服务需要建立在多元异构数据融合的基础上。所谓多源数据融合,即由不同用户、不同来源渠道产生,具有多种不同的呈现形式(如数值型、文本型、图形图像、音频视频格式等),描述同一主题的数据并为了共同的任务或目标融合到一起的过程[9]。前期多源异构数据资源整合与建设工作水平将直接影响后期科技情报服务方式的设计和拓展。以轨道交通领域的“铁路机车车辆”主题为例,该主题作为国内外轨道交通领域关注的重点主题,其相关数据主要分布在国内外铁路行业资讯网站、铁路专业数据库(期刊库、标准库、专利库等)、行业社交媒体公众号、行业协会成果库、行业运营商及服务商网站、行业实体图书馆等。如何运用数字技术、工具实现同主题多源异构数据的归集与融合,是当前轨道交通领域科技情报工作首要攻克的难题。

2.2 数据驱动的科研热点发现与挖掘需求

传统的科技情报服务具有明显的“被动服务”特征,基本上遵循着“等客上门”的服务模式,即基于目标用户的研究主题需求,开展相应的科技信息收集、整理和产品定制工作。在大数据时代,数据驱动研究已经成为全学科研究范式[10]。一方面,以海量数据为基础,运用一定的算法(如机器学习、强化学习等)对数据内蕴含的相关关系、因果关系等进行分析,从而呈现出新的知识单元及知识聚类。另一方面,运用可视化工具对数据进行主题、时间、人物、地点等多维度的可视化分析与呈现,帮助用户更加直观、清晰地掌握研究主题的整体分布情况、高频相关主题等。主动型、预测型、前瞻性的科技情报服务成为数字转型期科技情报工作发展的重点课题。积极引入“数据驱动”的业务思维,挖掘数据资源的潜在价值,发现数据整合互联下的新关系、新知识,形成针对特定主题的知识或情报,进而为特定决策提供支撑。

2.3 聚焦知识细分的用户专题定制需求

轨道交通作为工程科技类行业,其涉及的知识分类繁复,覆盖多个学科和专业领域。以“铁路运输”为例,其包括铁路运输经济、铁路线路工程、电气化铁路、特种铁路、机车车辆、铁路通信信号、铁路运输管理工程等领域。其中,“机车车辆”又可二次细分为机车、铁道车辆、机车车辆构造、机车车辆理论、机车车辆制造、机车车辆运用、机车车辆检修。“机车”按照驱动类型又可三次细分为蒸汽机车、内燃机车、燃气轮机车、电力机车、动车组。一方面,轨道交通行业领域知识细分增加了科技情报工作在数据整合加工、服务设计方面的难度;另一方面,领域知识细分也为科技情报服务业务转型提供新思路——用户专题定制。用户可根据自身从事或关心的专业领域、研究方向、科研课题等,通过对知识点进行层层分解,配置专题,即可实现对竞争对手、热点技术、行业动态等的自动跟踪、精准个性化推送功能[11]。数据驱动研究的时代背景下,统一的、低颗粒度的科技信息咨询和参考服务业已无法满足用户高度个性化的情报需求,用户在开展跨领域、交叉学科研究的过程中迫切需要聚焦领域知识细分的精准化专题定制服务。

2.4 搭建行业高端知识交流社群的需求

在国家数字化转型战略推动下,数字赋能科技创新成为国家重大发展议题。2021年出台的“十四五”规划第四章“强化国家战略科技力量”中也提及“构建国家科研论文和科技信息高端交流平台”。在此背景下,如何应用数字技术改造科创环境,优化科技研发流程,助力我国科技创新事业发展,打造科技信息高端交流平台也成为各类科研院所、信息中心、科技情报服务机构拓展业务的方向。铁科院作为我国轨道交通行业有代表性的研究机构,在生产制造、学位教育、科技研发、成果推广应用等方面积累了深厚的资源。值得一提的是,各类资源之间存在的“壁垒”极大限制了资源协同效用的发挥,而数字转型、平台建设、社群思维将为该问题的解决提供方案。依托数字平台整合行业研发、建设、运维、勘察设计、生产制造等单位间的科技资源,搭建以行业业务流程为内核的知识交流合作社群,实现“业务主体”与“知识资源”的双重链接,既符合我国科技创新工作数字转型的时代趋势,又增强了行业内跨部门、跨领域交流与协作的机会。

3 我国轨道交通行业科技情报服务创新路径

立足数字化转型背景下我国轨道交通行业科技情报服务发展的现实需求,铁科院信息所结合自身业务内容,从以下方面对科技情报服务工作进行创新。

3.1 观念层:树立以平台联动多方主体协作的服务观

科技情报服务作为连接目标用户和科技资源的“桥梁”,在本质上承担着信息媒介的作用。传统科技情报服务的“一对一”“一对多”模式虽然保证了情报服务的质量和用户体验,但是无法实现各类用户之间的有效关联和交流,难以形成行业内的知识交流共享圈。以轨道交通行业装备产业链为例,该产业链上游为轨道交通的设计和零部件制造,中游为轨道交通装备的制造,下游为运营维保(包括列车运营及运营维保服务)。从上游至下游每个链条节点对应的实施主体在开展科技研发、市场竞调、业务决策、项目总结等活动时产生的科技情报需求虽各有侧重,但是也具有紧密的业务相关性。鉴于此,依托数字平台实现以科技情报服务串联多方主体的目标,有利于推动行业内协同合作、联合科技攻关、知识再造等活动的开展。

为满足搭建行业高端知识交流社群的需求,轨道交通专业知识服务系统应运而生。该系统在建立之初确立了集成轨道交通行业科技信息资源,创新科技情报服务的基本目标。在此基础上,通过实现多个系统、多类资源的打通与归集,降低各类用户跨系统获取目标情报资源的成本。依托数字平台开展“多对多”科技情报服务,有利于将行业相关单位凝聚到一起,推动了我国轨道交通行业研发、建设、运维、勘察设计、生产制造等单位间的协同作业、科研合作。另外,该平台开发了信息资源建设、知识产权服务、科技查新、国际交流、会展服务、期刊编辑出版、科技成果管理等功能模块,引导相关业务部门通过数字平台开展对口业务,推动轨道交通行业业务流程数字化转型。

式中:qj(j=1,2,…N′)为j线元流进或流出节点i的流量;N′为点i的度数,即交于i点的线元的总数;Qi为点i处的源汇项。

3.2 资源层:实现多源异构数据的标准化整合存储

轨道交通行业的数据资源类别丰富,如期刊论文、会议论文、标准、专利、网站资讯、社交媒体平台推送、机构内部文献等。运用数据采集、数据库整合与Web Service接口技术实现跨语种、跨系统多源异构数据的归集。但归集后的数据资源类型多样、格式不一,如不同资源类别的元数据数量、著录标准不尽相同,而知识服务系统需要对不同资源类别进行统一存储和对外服务。鉴于此,轨道交通专业知识服务系统在综合参考资源型网站、系统数据管理经验的基础上,确定实行多源异构数据资源统一存储和管理方案。该方案在资源建设方面主要借鉴国内外成熟的数字资源存储系统DSpace,参考其在数据收集、存储、索引、保存和发布环节的技术架构、功能模块、数据标准等,搭建多源异构数据统一存储系统,配置各类型资源元数据非编程性动态定制、扩展功能。

多源异构数据统一存储系统能够预先建立元数据集,对各元数据字段类型、长度、格式、是否建立索引、是否显示等特征进行设定,在添加不同资源类型(如期刊论文、奖励、成果、资讯、报告、专利、公众号推送等)时,可以从元数据集中选择相应字段作为具体描述字段,进而实现多源异构资源的灵活添加、统一存储和检索。截至2021年8月,该平台已经汇聚了国内外轨道交通行业各类科技文献、多媒体资源3亿多条。其中,中文期刊1.5万种,外文期刊1.9万种,行业内刊56种,国内外铁路专利55万条,专业视频2 000多部,以及大量的行业科技奖励、成果鉴定、行业报告、行业标准、世界铁路动态、行业统计数据、硕博士论文等自建资源。

3.3 技术层:善用算法模型实现资源深度处理加工

进入大数据时代,对海量、多源异构数据进行满足行业需求的统一特征提取、知识组织、信息挖掘成为情报服务开展的重要难题。依靠情报专员人工批量化、专业化地处理与分析数据实施难度大,时间成本高,实际效果不甚理想。同时,囿于铁路行业涉及的领域知识广泛,横跨交通运输、动力工程、机械工程、电力工程、电子工程、建筑工程、工程力学、工程材料、仪器仪表、试验技术等学科领域,导致精准化的科技信息资源内容识别、组织和抽取对专业术语、领域知识单元、行业语料的依赖程度较高。适时引入人工智能算法模型,对科技信息资源进行深度处理与挖掘,可为后期科技信息资源自动分类标引、智能语义检索、知识图谱构建等情报服务功能的实现夯实基础。

轨道交通专业知识服务系统依托多源异构特色资源优势,初步筛选并抽取领域专业文献;随后,引入融合Word2Vec算法模型的TextRank关键词抽取方法[12],对目标文献集进行内容处理和关键词提取,进而优化铁路行业基础词库,并将研究成果应用于铁路文献自动分类标引和知识图谱构建。具体有6个阶段。①实验数据准备阶段:自动抽取铁路各知识领域中文文献约80万篇,作为算法实验的训练数据。②实验数据处理阶段:在Python3.7算法环境下,利用Jieba分词模块,同时引入铁路核心词库作为自定义词典,对80万篇文献进行分词处理,过滤停用词,获得词汇集(V1,V2,…,VN),每个词汇集Vi对应一篇文档,词汇集的并集得到语料词典D。③词汇节点初始化权重设置阶段:基于语料的上下文关系建立词图节点的连接关系,利用词频、词位置及铁路核心词库对词汇节点的初始化权重进行加权衡量与赋值。④概率转移矩阵构建阶段:利用Word2Vec模型对语料词典D进行训练并得到词汇的向量表征,通过余弦相似度计算得到词汇间的相似度关联关系,作为词汇间的转移概率。在此基础上构建相似度矩阵,作为TextRank算法概率转移矩阵,即初始化词间关系权重。⑤词汇节点的TextRank值计算阶段:针对词图中每一个词汇节点分别迭代计算TextRank值。⑥关键词最终抽取阶段:对词图中每个词汇节点的TextRank值进行排序,设置阈值N,输出前N个最大值对应的词作为最终抽取的关键词。融合Word2Vec算法模型的TextRank关键词抽取方法经试验验证效果显著,为优化信息检索精准度,绘制领域知识图谱、聚类显示科研热点等提供有效支撑。

3.4 服务层:贴合用户需求设计行业特色功能模块

随着数字经济时代用户思维的不断深入,科技情报、信息服务机构逐渐以用户思维为导向,探索满足用户专题研究需求的资源建设和功能设计思路。鉴于轨道交通行业领域知识范围广泛、分类体系繁复,领域间知识关联显性度不高以及科技情报信息资源类别多样等现实特点,轨道交通专业知识服务系统在设计阶段,借助实践调研、用户行为数据分析等方法深入了解行业用户的科研信息利用需求,将用户研究方向、关注领域与前期数据库的知识分类体系、元数据著录项进行关联,进一步优化科技信息检索的查准率。在此基础上,该系统设置“专题定制”服务模块,围绕用户的研究方向、目标专题编制高级检索表达式,并将检索表达式固化在“专题定制”功能模块内,实现专题信息自动配置。专题可集中展示该研究方向科技资源更新情况,以实现对竞争对手、热点技术、行业动态等的自动跟踪、精准个性化推送功能,为用户全方位跟踪监测提供及时信息支持。

参照“专题定制”服务模块的流程图(见图1)可知,该服务流程主要涉及“两端一平台”。“两端”即领域用户和情报专员,“一平台”即轨道交通专业知识服务系统。首先,领域用户根据自身科研需求和专业背景提出专题要求;其次,情报专员接收到领域用户的专题要求后,依靠自身行业知识积累和基于Word2Vec算法的联想词识别,最终确立领域相关检索词。以此为基础在系统内定制布尔逻辑检索表达式,并设定更新时间、资源库等指标,系统将自动参照设定条件进行资源统一检索、整合、汇编和定期更新。同时,系统在网页端将专题资源呈现给用户后,用户可进行专题定制成效反馈,进而实现“专题定制”业务流程的不断优化。另外,该系统已面向用户提供可视化工具,从时间、人员、机构等维度进行专题信息可视化呈现、聚合,有效帮助用户快速识别专题科技信息的显著特点,及时发现各细分研究领域的科研合作主体、权威专家,为后期科研专题知识追踪提供高质量的判断信息。

图1 专题定制业务流程图

4 结语

在大数据时代,要真正完成从数据库到“事实库”的跨越、从文献馆到知识库的跨越,从文献服务向情报服务的回归,从信息服务向知识服务的转型,对于我国传统科技情报机构都是极大的挑战[13]。当前轨道交通专业知识服务系统在多语种资源中文化翻译等方面仍然存在不足。鉴于此,拟对轨道交通行业词句数据进行采集和清洗,引入基于Transformer的神经网络训练模型,融入轨道交通领域语料的文本特征以提升模型的计算能力,进而优化机器翻译引擎的准确性。在此基础上,将机器翻译引擎嵌入系统资源检索框,为用户提供以中文检索词为入口的多语种资源一站式检索和中外文对照展示服务。总体而言,该系统的建立与拓展为“数字化转型”战略背景下我国轨道交通行业科技情报服务创新提供可参考借鉴的思路。海量多源异构数据归集、基于算法的科技信息资源深度组织、智能检索、专题定制将成为新时期轨道交通行业科技情报服务的重要着力点和落脚点。

猜你喜欢
情报服务轨道交通科技
面向安全管理的安全情报服务能力影响因素研究*
轨道交通产品CE认证论述
城市轨道交通投融资模式分析
大数据环境下基于分工协作的情报系统构建方法研究
高速轨道交通发展趋势
科技助我来看云
高校图书馆情报服务策略
科技在线
科技在线
科技在线