科研大数据治理多螺旋联动模型研究*

2022-09-24 13:32佟泽华丰佰恒石江瀚孙晓彬
情报杂志 2022年9期
关键词:线性螺旋定位

佟泽华 丰佰恒 石江瀚 孙晓彬

(山东理工大学信息管理研究院 淄博 255000)

0 引 言

科研大数据作为国家大数据战略基础资源引发多国研究[1]。美国率先以Big Data Research and Development Initiative[2]拉开科研数据治理的序幕,并在Big data Research and Development program中提及医疗、航天等众多领域的科研大数据管理[3],英国在Seizing the Opportunities presented by data: the UK data Capability Strategy中警醒数据机遇[4],中国在《科学数据管理办法》中制定科研大数据管理规范[5]。虽然各国均聚焦于科研大数据的治理工作,但数据维度混乱、数据不对称引用、生态关系薄弱、国际数据壁垒等问题依然存在[6]。科研大数据治理能力是科研人员所必备的一种能力,是科研创新活动的关键,否则引用无效数据甚至错误数据将会直接影响数据质量、危害数据安全,使科研活动步履维艰。基于此,本文在已有研究的基础上,构建了多螺旋联动模型并对其应用场景进行进一步探究,以期提升科研人员数据治理能力,维护科研大数据生态系统的和谐稳定。

1 相关理论概述

1.1 螺旋模型相关理论概述

螺旋模型最早起源于生物学[7],后被相关学者引入到经济、管理、教育等领域,大致经历了从双螺旋到三螺旋再至四螺旋模型的发展历程,如图1所示,双螺旋模型直接引入生物双螺旋结构而构建,例如,主客观效率二者形成的双螺旋结构[8],企业文化与战略双螺旋[9],线上线下协同创新的创客空间[10],技术与网络能力的创新力模型[11],学习与服务相关联的学习支持服务模型[12]等研究从不同的学科与角度给双螺旋模型带来了新的生命活力。后随时代发展在协同创新领域三螺旋模型已经成为研究主流[13],以政产研三螺旋[14]为代表的三螺旋模型探讨了科技孵化[15]、计量化研究、技术转移[16]等问题。但随社会分工的细化,传统的“政、产、研”三螺旋模型已经无法满足完美表述现阶段社会发展互动主体的需要,因此“政、产、研、资”[17]、“政、产、研、服”[18]、“政、产、研、介”[19-20]等四螺旋模型逐渐涌现。由此实现了由双螺旋至四螺旋模型的演化。但科研大数据治理问题复杂多变,涉及到政治、经济、科技、人员、服务、组织、数据等,在传统的“政产研”三螺旋模型上增加的“资”“服”“介”等第四螺旋并不能完美囊括所有因素,从整体性的研究思路出发就会发现,即便是增加到五螺旋模型也难以处理数据维度混乱、数据不对称引用、生态关系薄弱、国际数据壁垒等变幻莫测的科研大数据治理问题。实际上早在2013年邹益民等就提出了N螺旋模型的构想[21],该模型可以涵盖多种因素,很好地解决复杂系统的问题,但对该模型如何具体构建并未作出明确解释。

图1 螺旋模型研究史

1.2 科研大数据治理模型相关理论概述

科研大数据治理始于信息治理,是大数据治理一分支[22],涵盖了治理的原则、框架、方法、活动、功能和规范[23]等内容。同时科研大数据作为大数据的重要组成部分 具有“规模性、高速性、价值性、多样性”4V特征[24],因此相关学者认为科研大数据治理需根据信息治理与大数据治理之框架,结合科研大数据之特征完善其治理体系、推进其共享机制、维护其合法权益[25],例如,针对此Maguire S倡导统一元数据标准,Horsburgh J S主张引入数据仓储技术[26],马玲玲则提出保障质量控制[27],Hao S建立了科研大数据全过程质量控制的计算机可识别的规则库[28]等。随时代发展,在已有的科研大数据理论基础之上,中国公共数据质量控制模型[29](主要针对于政府数据等公共数据的质量管控),自识别功能的数据质量控制模型[30](将先进的自动识别技术等大数据技术引入到数据质量控制过程中)等大数据治理模型应运而生。后随科研大数据研究的进一步深入,科研大数据质量管控模型[31]、科研大数据再生模型[32]、科研大数据共生模型[33]、科研大数据变异模型[34]等专对于科研大数据治理的模型逐渐涌现。

综上可知,螺旋模型诞生于生物学,后被广泛的应用到经济、管理、教育、行政等领域,且经历了从双螺旋到三螺旋再至四螺旋的逐步演化,在国家倡导大数据战略的今天,大数据井喷式增长,科研大数据作为大数据的重要组成部分,其治理的相关研究逐渐增多,但经典的螺旋模型与科研大数据治理相结合的研究鲜有耳闻,基于此本文将两者有机结合构建了科研大数据治理多螺旋联动模型。

2 模型构建

科研数据多次引用导致其维度飙升,造成维度混乱。因此本文设计了“人员、数据、管理”多层集成,“挖掘、存储、剪枝”三位一体的科研数据降维旋,整合其“查找、理解、评估、降维、引用”等技术,降低科研数据维度,厘清各维度间关系,推动科研大数据治理实践的进程。

劣质数据具有较强的迷惑性,受众人员难以把握数据的真伪,引用时极易出现科研数据的不对称引用、甚至错误引用现象,对于科研大数据生态系统中的虚假数据难以定位。因此本文引入定位螺旋以解决上述问题,定位螺旋主要由X旋、Y旋、Z旋3个子螺旋构成,在快速定位科研数据解决数据不对称引用的同时还可查找劣质数据。

科研大数据生态系统其构成要素繁杂,科研大数据治理问题可以看作是一个难以测度的非线性问题。为更好地化解科研大数据治理的复杂性,可引进经典线性模型对各要素进行量化分析,沟通各要素间关联关系将其转化为线性问题,因此本文设计转化旋,将科研大数据治理要素间关系转化成线性关系,以解决生态关系初建各要素间权责边界不明晰的问题,同时辅助监管者科学制定各类策略弱化国际数据壁垒。

综合以上,针对科研大数据治理现存问题本文构建了科研大数据治理多螺旋联动模型(Multi-screw Linkage Model of Scientific Research Big Data Governance,MLM-SRBDG)(见图2)。

图2 多螺旋联动模型

3 模型分析

3.1 降维旋

与传统意义上螺旋模型[35]不同的是,降维旋依据科研大数据高维性特征建立,由人员旋、服务旋、管理旋、数据旋、技术旋以上5个子螺旋组成(见图3)。各子螺旋具体分工如下:

a.人员旋:人员旋通过计算机与数据相连,实现人与数据间的互通,其主要由数据监管者、平台维护者、数据消费者、数据生产者、数据专家等相关人员构成。根据科研大数据全生命周期特点,对整条数据生态链进行管控,生产者作为数据的提供方有义务提供真实可靠的数据,监管者与平台维护者有责任监管数据质量杜绝数据造假,消费者作为数据接收方有权维护自己获取真实数据的权利。数据专家则是利用自己专业化的知识鉴别数据真伪、检索需求数据。人员作为科研大数据生态系统的重要组成部分,在科研大数据治理中发挥着不可或缺的作用。

b.服务旋:服务旋主要指科研数据服务机构,其具有数据的记录、预览、刷新、设计、打印等功能。服务旋常见的存在形式是数据平台,例如数据中介机构、代理机构、咨询机构等,核心的功能是数据检索,科研人员将从服务旋直接获取数据,因此服务旋对于科研数据的监管可在源头处明显降低科研大数据治理难度。

c.管理旋:管理旋由数据管理系统构成,例如科研数据资产管理系统、科研数据转发与接收系统、科研数据整合系统、科研数据汇聚系统。科研数据资产管理系统主要负责科研数据调度,控制其质量、保障其安全,预防劣质科研大数据的灾难性后果。科研数据转发与接收系统除负责常规的数据接收与转发外,还要负责数据的初检与群析。科研数据整合系统根据数据间关联进行数据分类,对于结构不明晰的数据类型进行数据转换,然后进行统一的数据配置。科研数据汇聚系统以数据引擎为核心,主动采集科研数据并对其进行镜像处理。

图3 降维旋细化模型

d.数据旋:数据旋又称劣质数据处理旋,由挖掘单元、观察单元、剪枝单元三部分组成。劣质数据挖掘单元主要在数据库中进行数据抽取并进行分析,看其是否维度混乱,若为混维科研数据便将其引流至观察单元的数据集市。观察单元主要负责在数据集市中选取数据进行分析,看其是否存在错位属性、是否容易造成数据劣质,并将劣质数据放置剪枝单元中。数据剪枝单元对混维科研数据进行剪枝处理,根据数据消费者需求降低数据维度,或将其剪枝为单维科研数据,以降低维度混乱问题概率。

e.技术旋:技术旋主要涵盖了挖掘技术(模型拟合、过滤采样、分组聚合)、储存技术(分布式储存、交互引擎、互联网计算)、降维技术(线性降维、非线性降维)等三大技术。其中降维技术是技术旋的关键,本模型将主成分分析、线性判别、线性嵌入、特征映射、多维尺度分析、等距离映射、扩散映射、自动多层编码等技术有机整合共同致力于科研大数据治理。

综合以上,科研大数据治理经过由人员旋、服务旋、管理旋、数据旋、技术旋所构成的降维旋过滤可在一定程度上删除数据冗余属性,降低数据维度,解决科研数据维度混乱的问题,从而降低劣质科研大数据出现的概率。

3.2 定位旋

劣质科研大数据难以定位捕捉,而定位螺旋主要由X旋、Y旋、Z旋3个子螺旋构成,如图4所示,各个子螺旋间联动协同,X旋、Y旋、Z旋分别形成定位夹角,3角交叉重叠区域S即为定位范围,可一定程度缩小数据范围。如表1所示各螺旋间共有以下30种联动网络方式,具体分析如下:

表1 螺旋匹配种类

a.X旋:根据科研大数据生命周期理论,X旋涵盖了科研数据的生产、传递、消费、分解、再生5个阶段,在图4中分别依次表示为X1、X2、X3、X4、X5。结合上文所设计的人员旋,以X旋为中轴线探寻科研大数据定位机理。在X1阶段主要的定位人员为科研数据生产者,在此阶段扼制虚假数据的产生,预防数据劣质突变。X2阶段的定位人员为科研数据传递者,在这一阶段对科研数据进行研判,看其是否存在劣质倾向。X3阶段定位人员是科研数据消费者,在此阶段需引导科研数据消费者引用正确数据,提高鉴别能力。X4阶段定位人员为分解者,在此阶段对虚假数据进行分解亦或淘汰。X5阶段定位人员为再生者,在此阶段对科研数据的劣质程度进行评级,对于可修复的数据类型进行再生处理。

图5 定位旋细化模型

b.Y旋:Y旋包括数据发现、数据研判、数据分级3大过程,在图4中分别表示为Y1、Y2、Y3。三大过程贯穿于X1至X5五个阶段,根据其全数据生命周期探寻科研数据的生产、传递、消费、分解、再生中是否存在科研大数据劣质现象,对整个科研数据生态链中的数据质量进行严格把控,在监管数据质量的同时监督科研人员行为,杜绝科研数据造假。对于已经出现的劣质数据进行分级,并对科研人员的行为进行警示。帮助科研数据接收方了解数据质量,在进行数据引用的时候避免失误,减小实验误差。

c.Z旋:Z旋指以人员Z1、数据Z2为检测对象,以人员行为的监管与数据质量的管控为核心活动的子螺旋。在这一螺旋中可对科研人员精确定位,方便今后的数据溯源与追责。同样对于科研数据的精确定位,可判断分析数据在哪一环节出现了问题,有无补救的办法,对于易解决的问题可在当前环节弥补施救,以节约成本。

综合以上科研大数据治理经过由X旋、Y旋、Z旋所构成定位旋过滤可根据科研大数据人员的需求在一定程度上缩小数据范围,合理高效的匹配数据,对所需数据进行精准定位,解决科研数据不对称引用的问题,从而降低科研大数据检索成本。

3.3 转化旋

科研大数据生态系统变幻莫测是一个非线性的系统,科研大数据治理是一个难以测度的非线性问题。其构成要素繁杂、独立、差异大,大致可分为数据、人员、环境三部分[36]。不同的数据类型管控难度也相差甚远,相较于结构化数据而言,半结构化与非结构化数据涵盖种类多样、监管困难,且人员体系庞大(可分为竞争者与合作者)且素养良莠不齐,所处环境(包括科研数据平台、政治、科技、经济)复杂多变。对于无序性问题、突变性问题难以把握其规律,很难将其转化为线性问题。但在治理科研大数据时仍有伪线性问题、可计量问题、模板性问题等诸多问题可转化为线性问题进行处理。如图5,为更好的治理科研大数据,可引进经典线性模型对各要素进行量化分析,沟通各要素间关联关系将其转化为线性问题,为今后科研大数据生态问题应对战略的制定提供可靠依据,同时统一的数据标准与线性模型的建立可弱化科研大数据迷雾,促进世界范围内的科研大数据交流共享,从而进一步达到弱化科研数据壁垒的目的。

图5 转化旋细化模型

转化旋的关键在于线性模型的构建,在模型构建过程中应坚持目标性原则(以提高科研大数据治理效率、维护科研大数据生态系统稳定为目标)、系统性原则(依据科研大数据生态系统构建系统化的治理模型)、动态性原则(根据不同时期的不同数据类型对模型进行灵活转换)、独特性原则(在构建线性模型的过程中要根据不同的数据结构针对性构建)、科学预测原则(线性转换的主要目的是对应对策略作用效果的预估)等原则。在线性模型构建的过程中主要用到数据挖掘工具(例如,QUEST系统、MineSet系统、DBMiner系统等)、量化评估工具(可在已搭建好的量化平台中加入所需的特定条件,免除从无到有的基础框架搭建过程)、模拟仿真工具(具体可使用MATLAB、Vensim等软件操作)等三大工具。在线性模型构建中遵循一体化建模方法,要具体考虑到科研大数据治理线性模型转化的时空交错(科研大数据具有规模性需要治理的数据往往存在于不同的时间与空间)、现实与功能兼具、要素分析等。本文以科研大数据供需为例构建线性模型,ISLM模型是经典的供给需求模型[37],可根据其构建科研数据供给曲线DM,与数据需求曲线AP。将结构化数据、半结构化数据、非结构化数据、竞争者、合作者、政治、科技、经济、平台、政府等子螺旋依次表示为d1、d2、d3、c、p、G、t、e、f、g。数据劣质度从0到1,劣质度越高其供给者获利越大,需求曲线随劣质度的升高而降低。该模型要求同时达到以下条件:

A(Y)=P(c)

M/P=D1(Y)+D2(c)

Y=P+E

P=d1+d2+d2+p-c

E=G+t+e+f+g

其中,A为数据共享,P为劣质数据,M为名义数据传递量,Q为数据价值系数,M/Q为实际数据利用量,Y总数据价值水平,D是数据需求。通常将M/Q视为由数据生态系统确定的定值,劣质度和数据需求量呈反向关系,而提供者既得利益和数据需求量呈正向关系,从而得出一条数据价值水平曲线Y,斜率大小由实际数据需求及价值决定,而位置由实际数据利用量决定。利用模拟数值对可实施的部分策略进行模拟仿真,在数据共享中,均衡条件为A(Y)=P(c),所以A和P的变动会引起AP曲线的移动。数据传递增加Δa则传递曲线向右移动Δa,这将使AP曲线向右移动kΔa,其中k科研数据传递乘数。设科研数据共享保持不变,若劣质数据增加Δs,则科研数据消费者总数据价值水平会下降Δs,AP曲线会向左移动,移动量为kΔs。类似地,劣质数据减少使AP曲线右移,其移动量也是kΔs。我们将数据监管者所采取的一系列措施统称为m,m增加,劣质度下降,从而使Y增加,故DM曲线右移;m减少,数据保留价值率上升,从而使数据消费者所得收益减少,故DM曲线左移 ;其中m作为可控变量,是监管者进行策略仿真的重要依据。科研数据的供需可构建出多种线性模型,科研数据监管人员利用转化旋将科研大数据治理问题转换为线性问题,并可以利用多种仿真软件对预策略进行仿真,可大大提高策略的制定效率与科学性。

3.4 降维旋、定位旋与转化旋的关联分析

降维旋、定位旋、转化旋三者之间紧密相连、相辅相成,且三者之间存在互动、互助、互益关系。a.互动关系指多螺旋联动模型各个螺旋之间是相互联动的,每一次科研大数据治理都是多螺旋模型依次联动的过程。首先,定位旋定位,在定位旋的作用下科研大数据治理联动模型对数据进行时空定位,获取所需治理的科研大数据所处的学科领域和所处的生命周期,并将其统一保存;其次,降维旋降维,降维旋接受定位旋所获取的数据并判断其是否需要剪枝,以便进一步处理;最后,转化旋转化,转化旋对精简后的科研大数据进一步进行影响因素分析,将其转化为线性问题处理并科学预测战略效果。b.互助关系是指各个螺旋之间协同合作,共同完成科研大数据的治理工作。降维旋的工作需要定位旋的帮助,因为只有在精准定位的前提下才能获取所需治理的数据并进一步分析。同时转化旋的工作也需要降维旋的辅助,科研大数据在经过降维旋的剪枝处理之后可明确其主要的相关影响因素,从而进行线性模型的构建。对不需要降维的部分科研大数据亦是需要定位旋的提前定位,但定位旋的工作并不是单独进行的,其工作过程需要人员旋的科研大数据人员的操作,技术旋的技术支撑,管理旋的统筹管理等等。c.互益关系指多螺旋联动模型各子螺旋之间互惠互利。例如,降维旋的存在降低了转化旋线性模型构建的难度,定位旋的存在使科研大数据人员快速获取数据信息降低了数据检索成本,转化旋的作用简化了科研大数据治理的流程反馈至其他两旋,提高了其工作效率。

降维旋、定位旋、转化旋三者之间联动方式也是多种多样的,具体可分为依次联动、交叉联动、反向联动等联动方式。依次联动指科研大数据按照多螺旋模型的既定路线依次走完定位、降维、转化的路线,这种联动方式具有层层推进、化繁为简的特点;交叉联动具体可分为降维旋与定位旋的联动(适用于存在固有线性模型的科研大数据类型)、降维旋与转化旋的联动(适用于已知的特定学科特定生命周期范围内的科研大数据类型)、定位旋与转化旋的联动(适用于原本维度较低的科研大数据类型);反向联动指首先进行化线旋的转化,将其转变为线性问题,然后再进行降维并逐维分析的联动路径,这种联动方式适用于具有较高纬度且需要对不同维度进行分析的科研大数据治理情况。由此科研大数据螺旋模型形成了以点带面的联动关系。对科研大数据的联动治理可维护科研大数据的和谐稳定,巩固科研大数据、科研人员、科研环境之间的生态关系。

4 应用场景分析

人工智能在核军备方面的大规模应用,意味着一旦出现大数据质量问题,人工对误警难以干预,将大大提高风险概率,造成连带灾难。建立长期的公共安全数据保存系统至关重要,在公共安全领域大数据质量问题的出现将会影响数据采集的精确度,从而影响公共安全科研事业的发展。科技的进步可促进科研人员间数据的传递,促进创新成果转化,在科研领域大数据质量问题的出现将会直接阻碍社会科教事业的发展,从而影响国家的进步与发展。企业间合作有助于经济发展,当竞争对手释放迷惑性数据时,企业以此类数据为依据进行科研并提供决策建议时易产生经济数据质量问题,多螺旋联动模型具有较强的领域适用性,从军事、公共安全、科研、经济等领域均可看见其主螺旋或是子螺旋发挥作用,如图6所示,本文谨以“中国科学院数据云”为例[38],阐述其在科研领域的适用性,具体分析如下:

图6 模型的应用场景图

4.1 数据降维场景应用分析

数据降维处理指的是,随5G时代的到来,科研数据量的暴增,处于人员旋的科研工作人员在数据引用时会遭受大量数据噪声的影响,此时利用多螺旋联动模型降低科研大数据维度,以减少科研大数据质量问题出现概率。由前文分析知科研大数据的超高引用频次使得数据维度激增,从而引起数据维度混乱造成维度灾难,数据维度混乱是科研大数据质量问题产生的主要原因之一,因此科研大数据的降噪处理将是多螺旋联动模型的主要应用场景。数据降维处理以多螺旋联动模型降维旋为核心,以定位旋与转化旋等为辅助多螺旋联动应用。如图6所示,以“中国科学院数据云”为例,在“中国科学院数据云”降维旋中以“IA(iAnalysis)交互分析云服务系统”为例的管理旋将会联动技术旋,利用docker技术、独立容器技术、镜像技术等对科研大数据进行管理,此时效力于服务旋的科研大数据管理与分析平台基本建成。人员旋同时联动服务旋与管理旋,向平台申请算法库。该平台采用容器技术设计,以物理、虚拟主机为科研大数据资源节点,对科研大数据进行横向扩展,联动定位旋来定位学科领域与所处生命周期阶段,以形成特定领域科研大数据资源池,目前“IA(iAnalysis)交互分析云服务系统”已经涵盖海洋科学、极地数据、烟草预测、大气科学、生命健康、生态科学、地理空间以及重大专项等科研大数据资源池,资源池内科研大数据随所处学科与所属数据类型分门别类地存放,从而进一步构建数据旋。数据旋以独立容器的方式呈现,后人员旋联动转化旋将其转化为特定算法模型,即通过科研工作人员的API申请来匹配相应的算法资源,减少次级相关科研大数据的质量问题干扰。

4.2 对称引用场景应用分析

对称引用处理指的是,随科研数据量增加,科研大数据良莠不齐造成科研大数据人员数据引用失范,此时利用多螺旋联动模型规范科研大数据引用,进一步提高检索效率,以减少科研大数据质量问题出现概率。当科研大数据供需冲突时,科研数据寡头根据利好发布数据,甚至于为迷惑对手发布错误数据,从而科研大数据出现质量问题,从而造成数据引用时供需不对称,数据不对称引用是科研大数据劣质产生的主要原因之一,因此科研大数据的供需对称处理是多螺旋联动模型的又一主要应用场景。对称引用处理以多螺旋联动模型定位旋为核心,以降维旋为辅助多螺旋联动应用。由科研大数据生命周期理论知,科研大数据质量问题有可能爆发于生产、传递、消费、分解、再生任意阶段,此时需要定位旋对造成科研大数据质量问题的科研人员与数据进行定位。如图6所示,以多螺旋联动模型的研究方法来看待“中国科学院数据云”,该服务平台的“科学数据存储库(ScienceDB)”[39]探索人员间联系,利用Z旋定位科研人员、科研期刊、高校等利益相关者、边缘相关者,并结合科研大数据的汇交、保存、出版、共享、获取等服务,对其与已有科研大数据质量问题相关的一系列科研成果结合技术旋与X旋进行生产、传递、消费、分解、再生等科研大数据全生命周期的审视,在进行数据审视过程中需应用降维旋中多项技术对数据进行爬取并在必要时进行降维,利用Y旋对科研大数据质量问题进行分级,淘汰错误科研大数据。在保障科研大数据安全的基础上,促进科研大数据的可发现、可定位、可重用。

4.3 生态巩固场景应用分析

生态巩固应用指的是,在科研大数据生态系统形成初期,科研大数据生态制度并不完善,缺乏统一的行业标准规范,此时利用多螺旋联动模型规范科研大数据行业标准,巩固科研大数据生态关系,以减少科研大数据质量问题出现概率。科研大数据生态治理重理论乏实践、重人工干预忽略生态自我修复功能、修复具有短期性、缺乏修复效益评价、法律不健全造假成本低、人员权责边界不明晰等问题都催生了科研大数据质量问题。科研大数据生态关系薄弱是科研大数据质量问题产生的主要原因之一,因此巩固科研大数据生态关系是多螺旋联动模型的再一主要应用场景。科研大数据生态巩固以多螺旋联动模型中服务旋为核心,以管理旋与人员旋等为辅助多螺旋联动应用。例如,在“中国科学院数据云”中“标准规范体系”涵盖了指导规范、数据采集与整理、元数据与元模型、系统与接口、数据管理、数据服务六大标准板块内容[40],又如“指导规范”类型的“主题数据库建设规范”,本规范联动服务旋与技术旋规定了主题数据库的技术工作、运行维护和服务要求。再如“数据管理”类型中的“数据质量管理规范”管理旋联动服务旋与数据旋阐述了科研大数据质量管控、科研大数据质量描述、科研大数据质量评价。标准的行业规范使科研大数据生态关系更加牢固、生态环境更加美好,日益优化的科研大数据生态环境可减少科研大数据质量问题的产生。

4.4 数据破壁场景应用分析

数据破壁指的是,在数字化的今天,各国的科学数据交流愈加频繁,但科研大数据种类多样,各国科研大数据使用标准不尽相同,缺乏统一的科研大数据模型,数据共享壁垒依然存在,此时利用多螺旋联动模型为不易分享的非线性科研大数据构建线性模型,突破科研大数据共享壁垒,以减少科研大数据质量问题出现概率。非结构化与半结构化科研数据难以自由流动与保存,当数据需求者鉴别能力较弱时,非官方渠道获取数据的方法难以保障所得科研大数据的精确性,科研误差累积至一定程度时催生科研大数据质量问题,从而造成灾难性后果。数据共享壁垒是科研大数据质量问题产生的主要原因之一,因此科研大数据的破壁处理是多螺旋联动模型的另一主要应用场景。数据破壁处理以多螺旋联动模型转化旋为核心,以数据旋、服务旋与定位旋等为辅助多螺旋联动应用。科研大数据生态系统是一个非线性的系统,所处环境复杂多变引起科研大数据质量问题的出现具有波动性。在治理科研大数据质量问题的伪线性、可计量、模板性等问题时可利用转化旋引进经典线性模型将其转化为线性问题进行处理。如图6所示,“中国科学院数据云”旗下“时空三极环境大数据平台”[41]的构建,利用定位旋对多源头、高纬度、多尺度的异构科研大数据进行时间、空间、参数上的统一,突破传统的遥感、观测、模型分割的研究方法,进行相互关联的南极、北极、第三极的整体研究。联动数据旋搭建北极海冰季节预报统计回归模型、GBEHM Model、TESim模型、内陆河高寒山区流域分布式热耦合模型(DWHC)、WEB-DHM、Community Earth System Model、冰川度日模型、HBV冰川水文模型及经济评估模型以解决半结构化的、伪线性的、可计量的科研大数据问题并在标准化处理后构建三极科学模型库。联动服务旋整合“大数据与云服务”、“数字地球科学平台”,实现数据库——模型——方法可互操作的综合平台,以规范的线性模型为大数据平台提供服务,以科研大数据共享减小科研大数据质量问题出现概率。

综合以上分析,科研大数据治理多螺旋联动模型在数据降维场景、对称引用场景、生态巩固场景、数据破壁场景均可应用,且可有效解决数据维度混乱、数据不对称引用、生态关系薄弱、国际数据壁垒等问题。

5 结语

本文构建了多螺旋联动模型以应对科研大数据治理过程中数据维度混乱、数据不对称引用、生态关系薄弱、国际数据壁垒等问题,具有较强的适用性与理论价值。

其适用性表现为:a.主体适用性,科研大数据治理需要多主体、多机构协同。科研大数据治理与科研人员想要获取高质量科研数据减小实验误差的愿望,与科研数据监管人员维护科研大数据生态系统稳定的愿望,与资助机构获取高收益的愿望等高度契合,具有较强的主体适用性。b.客体适用性,对于科研大数据的治理,是对科研大数据生态系统的优化,有利于科研大数据生态系统的可持续发展。c.功能适用性,现有的数据挖掘技术、数据储存技术、降维技术、数据分析技术足以支撑平台的运行,多螺旋联动模型与弱化科研壁垒、促进数据共享、完善数据治理机制的需求高度匹配。

价值贡献在于:a.丰富了科研大数据相关理论,使科研大数据生态系统理论体系更加完善。b.构建了多螺旋联动模型,与以往螺旋模型不同的是本文所设计的多螺旋联动模型是在数据维度混乱、数据不对称引用、生态关系薄弱、国际数据壁垒等问题下催生的,以控制科研数据质量、保护科研数据安全、维护科研大数据生态系统稳定为目标,以降维旋、定位旋、转化旋为核心,以人员旋、服务旋、管理旋、数据旋、技术旋、X旋、Y旋、Z旋为辅助,以数据降维、快速定位、线性转化为策略的多螺旋联动的具有较强适用性的科研大数据治理模型。

猜你喜欢
线性螺旋定位
多层螺旋CT诊断急腹症的临床效果分析
16排螺旋CT在肝细胞癌诊断中的应用分析
肠梗阻放射诊断中多层螺旋CT的应用分析
二阶整线性递归数列的性质及应用
《导航定位与授时》征稿简则
银行业对外开放再定位
非齐次线性微分方程的常数变易法
少儿智能定位鞋服成新宠
把握新定位、新要求 推动人大工作创新发展
奇妙的螺旋