科技大数据多元价值链模型与价值评估方法

2022-06-27 13:51姜元春王继成贺菲菲陈航刘业政
预测 2022年3期
关键词:价值评估

姜元春 王继成 贺菲菲 陈航 刘业政

摘 要:科技大数据在科技创新、社会经济运行和国家安全等活动中发挥着重要的作用,其价值评估问题是目前学术界和工业界关注的难题。基于价值链理论和品牌价值理论,本文构建了科技大数据的全过程价值链模型,提出了科技大数据的核心价值链;基于科技大数据核心价值链,构建了科技大数据价值评估指标体系,并针对其中难以量化的关键指标,提出了基于社交网络分析和动态主题模型的指标测度方法,同时以科技论文数据为例验证了所提测度方法的有效性。本文研究为科技大数据价值评估难题提供了新的研究视角、理论框架和模型方法。

关键词:科技大数据;价值评估;价值链模型;机器学习方法

中图分类号:F045.3文献标识码:A文章编号:2097-0145(2022)03-0031-08doi:10.11847/fj.41.3.31

Multi-dimensional Value Chain Model and Value Evaluation Method for Scientific Big Data

JIANG Yuan-chun1,2, WANG Ji-cheng1,2, HE Fei-fei1,2, CHEN Hang1,2, LIU Ye-zheng1,2

(1.School of Management, Hefei University of Technology, Hefei 230009, China; 2.Key Lab of Process Optimization and Intelligent Decision-making, Ministry of Education, Hefei 230009, China)

Abstract:Scientific big data plays an important role in scientific and technological innovation, socio-economic operation and national security. Its value evaluation is a difficult problem concerned by academy and industry. Based on the value chain theory and brand value theory, this paper constructs a whole-process value chain model of scientific big data, and designs a core value chain model of scientific big data. Based on the core value chain model, we design a criteria system to evaluate the value of scientific big data. For the criteria which are difficult to measure, the evaluation methods based on social network analysis model and dynamic topic model are constructed, and the effectiveness of the proposed methods is verified with the data of academic papers. This research provides a new research perspective, theoretical framework and theoretic models for the problem of value evaluation for scientific big data.

Key words:scientific big data; value evaluation; value chain model; machine learning model

1 引言

科技大數据是一类能够反映人类科技活动状态和过程的信息资源,可以支持人类洞察新思想、发现新规律、发明新技术、开发新产品。2020年3月,国务院《关于构建更加完善的要素市场化配置的体制机制的意见》正式发布。该意见将数据与土地、劳动力、资本、技术作为并列的一个重要要素,指出要提升社会数据资源的价值,加强数据资源整合和安全保护,并强调引导培育大数据交易市场。由于数据价值是数据交易流通的基础,因此,数据价值评估成为数据要素市场化配置的重要环节。“科技大数据”作为“大数据”集合中的高价值密度组分,其价值正逐步得到重视。与其他类型的大数据类似,科技大数据的价值评估问题是目前学术界和工业界关注的难题。

围绕科技大数据价值评估问题,现有研究从不同维度和视角进行了探讨[1~3],为科技大数据的价值发现奠定了有效的理论基础。科技大数据的产生、分析、传播和应用是一个全生命周期的系统过程,其价值在生命周期的不同阶段得到创造、整合、传递和实现。现有关于科技大数据价值的研究通常面向科技大数据全生命周期中的单一主体或聚焦于全生命周期的特定阶段,科技大数据价值评估的系统框架尚未建立。在科技大数据价值评估框架的基础上,如何对科技大数据的多元价值进行评估仍是目前理论研究的难点问题,相关方法需要持续探索。

针对上述问题,本文首先对科技大数据的价值及其特征进行系统分析,在此基础上,基于波特战略理论和品牌价值理论,构建了科技大数据的全过程价值链模型,提出了科技大数据的核心价值链;基于科技大数据核心价值链,构建了科技大数据价值评估指标体系,并针对其中难以量化的关键指标,提出了基于社交网络分析和动态主题模型的指标测度方法。本文研究对构建科技大数据价值评估的系统性框架具有理论和实践意义。

2 科技大数据的价值及特征

2.1 科技大数据的多元价值

围绕科技大数据的价值及其评估问题,研究者近年来从不同维度和视角进行了探讨。李阳等[1]研究认为科技大数据不仅是科学研究的结果,且日益成为科学研究的重要基础,是支持科研活动与科技创新的关键。王晶金等[2]研究指出科技成果的应用转化在国家创新体系建设中具有重要意义。杨友清和陈雅[3]研究认为科技大数据集科学价值和使用价值于一体,并对科技创新的发展产生影响。除了科学价值,诸云强等[4]认为,经济价值和社会价值也是科技大数据的重要维度。此外,科技大数据对不同的使用者价值不同,可以支撑个体的科研需求、企业的技术创新、政府的管理决策[5],需要构建动态的价值评估指标体系[6]。从研究现状看,关于科技大数据价值评估的研究尚处于探索阶段。本文从用户视角并借鉴营销学的品牌价值理论[7]分析科技大数据的价值,将科技大数据的价值分为使用价值和象征价值。使用价值是指科技大数据满足用户的功能效用的程度,用户使用科技大数据的功能效用主要表现在洞察新思想、发现新规律、发明新技术、开发新产品等方面;象征价值是指科技大数据满足用户的心理效用的程度,用户使用科技大数据的心理效用主要表现在地位、身份等的提升。具体分析结果如表1所示,从中可以看出,科技大数据作为一类特殊的信息资源,其价值主要在于创新,包含知识、产品、服务、政策创新等。

2.2 科技大数据价值的特征

虽然我们借鉴了营销学中的品牌价值理论将科技大数据价值划分为使用价值和象征价值,但科技大数据的价值与商品价值毕竟存在着差异,表现出自身的一些特征,如图1。

图1 科技大数据价值特征关系图

(1)多元性。科技大数据价值的多元性特征主要是指同一科技大数据本体往往具有多种潜在价值。例如,科技大数据不仅可以帮助企业提升生产效率,具有使用价值,也可以提升企业科技形象,具有象征价值。受使用者价值标准与追求的影响,科技大数据价值的多元性特征往往会体现得更加明显。

(2)稀疏性。虽然科技大数据是大数据集合中的高价值密度组分,其价值依然具有稀疏性特征。一方面是因为有价值的数据被大量无价值的数据掩盖;另一方面,对具体使用者而言,真正有价值的数据往往隐藏在其他科技大数据之中,需要借助相关技术进行跟踪和识别。

(3)增值性。科技大数据的价值并非固定不变。在数据创造、生产、交易和使用的过程中,科技大数据蕴含的价值会得到不断发掘。科技大数据价值的增值性特征也会在数据的价值传递中得到体现。例如,科技论文中的某些知识引发新知识的产生。科技大数据的价值传递及其产生的价值增值路径,是科技大数据价值增值性特征的重要体现。

(4)互补性。科技大数据的价值不仅取决于数据本身的价值,还取决于使用者已有的数据基础。与已有数据在数据量、样本特征以及时间、空间维度上形成互补的科技大数据,对使用者而言通常会具有更大的价值。

(5)标准不确定性。不同类型的科技数据往往具有不同的价值标准。例如,论文、专利和科技情报的价值标准互不相同。受科技大数据价值多元性特征的影响,同一类数据的价值标准也不统一。标准不确定性使得无法设计一套通用的评估指标体系对不同类型科技大数据的价值进行评估。

(6)情景相关性。传统商品的使用价值具有同一性,即对于不同主体而言,其使用价值是一致的,而科技大数据的使用价值则往往不具有同一性,对于不同主体其价值往往不同。例如,同一发明专利,对一个企业价值连城,对另一个企业可能一文不名。因此,需要结合相关主体的价值目标和使用情景对科技大数据的价值进行评估。

3 科技大数据全过程价值链模型

Porter[8]认为,每一个企业都是在设计、生产、销售、传递(核心价值活动)和辅助其产品的过程(辅助价值活动)中进行种种活動的集合体,所有这些活动可以用一个价值链来表明。针对大数据的价值创造过程,Miller和Mork[9]提出了数据价值链的概念,

将大数据的核心价值活动分为三阶段七种价值活动,即数据发现阶段的收集与标注、准备、组织活动,数据整合阶段的整合活动,以及数据利用阶段的分析、可视化、决策活动。科技大数据作为一种特殊的产品类型和数据类型,本文基于波特的产品价值链模型和米勒的大数据价值链模型,将科技大数据的生成与获取、整合与分析、传递与交易、决策与应用等核心价值活动纳入统一架构,形成价值创造的动态过程,并整合科技大数据基础设施、技术与工具、人才队伍、盈利模式等辅助价值活动,构建了科技大数据全过程价值链模型,如图2所示。

(1)生成与获取——价值创造。科技大数据的生成与获取是价值创造活动,使得科技大数据从无到有, 处于科技大数据价值链的顶端,主要增值部分就在其原创性的科技知识含量之中。科学实验数据的采集、科技论文和专利的撰写、科技项目的立项、科技政策的制定等都是科技数据的价值创造过程。科技大数据价值创造过程的参与者包括科研机构、科技工作者等。

(2)整合与分析——价值整合。科研机构、科技工作者产生的数据可能是碎片化的,科技大数据的整合与分析就是通过聚合、组织、存储、分析、挖掘等活动,使科技大数据从“溪流”变成可相互支持、相互验证的“海洋”, 成为可传递和利用的产品,实现科技大数据价值整合。整合过程的参与者包括各类数字出版商、知识产权登记组织、知识产权服务商、相应政府部门以及各类数据处理服务商等。

(3)传递与交易——价值传递。科技大数据的传递与交易是价值传递活动,是价值整合与价值实现间的桥梁,没有价值传递,聚合的数据价值就无法得到充分应用,甚至会变成一堆占用大量资源的数字垃圾。价值传递任务包括科技大数据的交易、推广和服务等活动,传递过程的参与者包括各类科技大数据平台以及支撑科技大数据平台运行的各类服务商等。

(4)决策与应用——价值实现。科技大数据的价值通过科技大数据的消费使用而得以实现。在科技大数据价值链模型中,价值创造、价值整合和价值传递是成本投入的过程,最终在价值实现环节实现成本投入的变现。

4 科技大数据价值评估指标体系

从科技大数据全过程价值链模型可以看出,在科技大数据的价值创造、整合、传递和实现过程中,不同阶段的价值活动各不相同,涉及的价值活动主体也不相同,构建适用于相应阶段的价值评估指标体系,实现对不同阶段活动的精准价值评估,有助于促进科技大数据在不同主体间交易流通,服务不同价值主体,实现多元的价值目标。

4.1 价值创造环节的价值评估指标体系

科技大数据价值创造环节,生产者指标、数量指标和内容质量是这一环节影响科技大数据价值的重要指标。生产者指标衡量的是科技大数据创造过程中数据生产者对科技大数据价值的影响,包括组织信用、个人信用和物理信用三个方面。数量指标可以从样本规模、属性数量、多样性三个方面进行衡量。考虑到科技大数据价值在创新性上的特殊性,内容质量维度可以从新颖性、流行性、前沿性、有用性、易用性等方面评价科技大数据的质量。科技大数据价值创造环节评估指标层次结构如表2。

4.2 价值整合环节的价值评估指标体系

影响科技大数据整合价值的因素包括整合参与者信用、整合质量、科技大数据的时间属性和空间属性等。科技大数据整合过程中的参与者影响着科技大数据的价值,可以从参与者的组织信用和物理信用两方面来衡量。整合质量是指整合数据的粗细程度和符合规定的程度,可以使用粒度和完整性两个指标衡量。时间属性是指整合数据的时间戳信息,可以从时间跨度、时效性、实时性三个方面衡量。空间属性是指整合数据涉及的“空间”范围,可以从区域、领域和行业三个方面衡量。科技大数据价值整合环节评估指标层次结构如表3。

4.3 价值传递使用环节的价值评估指标体系

科技大数据价值传递使用环节,交易促进者和使用者是此环节影响科技大数据价值的两个重要维度。交易促进者是链接科技大数据与用户的中间桥梁,对科技大数据的传递价值产生重要影响,可以从版权范围、垄断性、收费模式、组织信用和物理信用五个方面衡量其作用。使用者对科技大数据价值实现的影响可以从领域匹配性、使用者偏好和目的性三个方面来衡量,不同特征的使用者使得数据资源能够发挥的价值不同。基于上述分析,科技大数据价值传递使用环节评估指标层次结构如表4。

综上,科技大数据价值评估指标体系如图3所示。

5 科技大数据价值评估关键指标测度

在科技大数据价值评估众多指标中,一些指标如样本规模、属性数量易于测度,但诸如组织信用、个人信用以及内容质量中的新颖性、流行性、前沿性等指标则较为抽象,难以测量,见表2~表4。以下将针对科技大数据生产者信用、科技大数据新颖性、流行性及前沿性等关键指标给出相应的测度方法。

5.1 基于分层PageRank算法的个人信用和组织信用度量方法

科技大数据生产者之间存在着广泛的联系,社交网络可以作为这种关系的表示模型,社交网络中的结点影响力可以用来测度个人信用和组织信用。考虑到生产者个人与组织之间存在着隶属关系,可利用生产者个人全局影响力与所属组织影响力协同度量生产者个人的影响力,进而提出了一种分层PageRank算法来计算个人信用和组织信用。度量流程如图4所示。

具体步骤如下:

Step 1 构建科技大数据生产者个人之间在创造、合作、引用和分享科技数据方面的关系网络

G=(U,E,W),网络中的节点表示科技大数据生产者个人,节点集合记为U={u1,…,ui,…,un},其中ui表示第i个生产者,n表示生产者的数量,1in;边表示生产者个人之间存在着合作关系,边集合记为E,其中生产者个人ui和uj之间的合作关系记为

eij,若eij=1,则表示ui与uj之间存在合作关系,反之则不存在;边的权重wij表示生产者个人间的合作次数,权重集合記为W。

Step 2 检测科技大数据生产者个人所属组织,即利用社区检测Louvain方法[10]发现科技论文合作网络中的生产者组织分布。具有相同所属组织或相似研究领域的生产者们往往具有紧密性和聚集性,而不同组织或领域群体之间的关系相对分散和疏离。若将所属相同组织的生产者视为一个科技大数据创造群体,合作网络中则包含了很多存在着相互合作但又所属不同科技数据创造领域的群体。在Louvain方法中,首先将每个生产者个人视为一个独立的群体;然后将生产者个人ui分配到其每个邻居所在的群体中并计算分配前后的模块度增量,若最大模块度增量大于0,则将ui分配到最大模块度增量所对应的群体;接着对其他生产者个人重复执行与ui相同的操作,直至生产者个人集合U的所属群体不再变化为止;最终得到了多个生产者组织集合,记为G^={g1,…,gs,…,gz},其中gs表示第s个生产者组织,z表示生产者组织的数量,1<s<z。

Step 3 构建科技大数据生产者组织间的关系网络,即基于检测到的生产者个人所属组织,利用生产者组织间的合作关系及其次数构建生产者组织间的关系网络。在生产者组织间的关系网络中,节点表示生产者组织,节点集合为G^;边表示生产者组织之间存在着合作关系,边集合记为E^,其中生产者组织gi和gj之间的合作关系记为ij,若ij=1,则表示gi和gj之间存在合作关系,反之则无合作关系;边的权重表示两个生产者组织内全部生产者个人合作的次数,权重集合记为W^,其中生产者组织gi和gj之间合作的次数记为ij。

Step 4 度量科技大数据生产者个人所属组织信用,即利用PageRank方法[11]度量生产者组织间关系网络中节点的重要性程度。对于生产者组织集合G^,首先给每个生产者组织设置相同的信用值,然后将每个生产者组织的信用值除以相连的出链边数后作为每个出链边的权值,接着将每个生产者组织的入链边的权值之和作为每个生产者组织的新信用值。重复执行更新过程,直至两次更新的信用值不变为止,从而得到生产者组织的信用集合,记为

P^G^={g1,…,gs,…,gz}

,其中gs表示生产者组织gs的信用值。

Step 5 度量科技大數据生产者个人信用,通过分层的PageRank方法来实现。该方法认为生产者个人信用是由生产者个人的全局信用及其所属生产者组织的信用共同决定的。对于合作网络G,首先给每个生产者个人设置相同的信用值,然后将每个生产者个人的信用值除以相连的出链边数后作为每个出链边的权值,接着将每个生产者个人的入链边的权值之和作为每个生产者个人的新信用值。重复执行更新过程,直至两次更新的信用值不变为止,从而得到生产者个人的全局信用集合,记为

PG={u1,…,ui,…,un},其中ui表示生产者个人ui的全局信用值。若生产者个人ui隶属于组织gs,那么生产者个人的信用值为psi=gs×ui。

我们随机抽取了230个生产者个人生成的科技论文大数据,其合作关系网络如图5(a)所示,包含702条合作关系;检测出4个科技大数据生产者组织,如图5(b)所示。通过科技大数据生产者组织间的关系网络,分别计算出科技大数据生产者组织和个人的信用值,如图6(b)所示,并按照信用从低到高定义4个生产者组织为A、B、C、D。相比于PageRank方法(图6(a)),分层PageRank算法下生产者组织和个人之间起到了相互促进的正向作用。表5对比了信用最大的10位生产者个人的信用,可以看出,分层PageRank方法中组织D中的高信用个人数量明显增加,个人影响力排名显著提升,而低信用生产者组织A的高信用个人占比有所降低。

5.2 基于动态主题模型的科技大数据创新性度量方法

基于动态主题模型的科技大数据新颖性、流行性和前沿性等创新性指标度量方法,将每一条科技数据看做一个文档,通过动态主题模型训练得出相应的文档主题分布,并基于文档主题分布中的最大概率值得到对应主题,从而将科技数据划分为不同主题。假设科技数据di所对应主题k下所有文档的平均发表时间为MPubYear(k),该科技数据的发表时间记为PubYear(di),则该科技数据的新颖性为Novelty(di)=MPubYear(k)-PubYear(di)

基于主题分布,科技大数据的流行性与前沿性可以通过以下步骤进行测度:

Step 1 计算不同时间切片下的主题热度。按照时间划分计算不同时间切片各个主题的热度,对于一个时间切片t,该时间切片内文档集合记为Dt,文档数量为Nt,每个文档记为dtj,dtj的文档主题分布为p(kt|dtj)。所有时间切片下各主题热度TopicHot(kt)为

TopicHot(kt)=∑dtj∈Dtp(kt|dtj)Nt

Step 2 计算科技数据的流行性。基于不同时间切片下的主题热度TopicHot(kt),每个科技数据的流行性Popularity(dtj)为

Popularity(dij)=∑ktTopicHot(kt)×p(kt|dtj)

Step 3 计算科技数据的前沿性。对于一条科技数据dtj,其对应的时间切片为t,对应年份的主题热度为TopicHot(kt)。主题k在每一个时间切片内都有一个对应的主题热度值,记其中主题热度最高的时间切片为tm,最高主题热度值为TopicHot(ktm)。科技数据dtj在每个主题上的前沿性Frontier(dtj,k)可通过下式计算得到

Frontier(dtj,k)=TopicHot(ktm)-TopicHot(kt),t<tm

0,t=tm

TopicHot(kt)-TopicHot(ktm),t>tm

每个科技数据的前沿性Frontier(dtj)计算如下

Frontier(dtj)=∑k∈KFrontier(dtj,k)

本文应用上述新颖性、流行性、前沿性指标对科技论文价值进行了评估预测,科技论文的价值使用下载量指示,并取对数值。其他影响变量包括参与机构数量、期刊影响力因子、期刊跨学科性、获取论文信息时论文发表时长。实验数据来自4本著名管理学期刊近10年共计5964篇论文,评估预测模型选择引导聚集(Bootstrap Aggregating,Bagging)回归模型和支持向量回归(Support Vector Regression,SVR)模型,训练集90%,测试集10%,使用10倍交叉验证,实验结果见表6。结果表明,新颖性、流行性、前沿性指标对科技论文价值具有很好的评估预测能力。

6 结论与展望

价值评估是数据要素流通交易的基础,是加快构建数据要素市场化配置体制机制的核心任务。本文以科技大数据为研究对象,针对科技大数据价值评估难的问题,分析了科技大数据的多元价值及其特征,构建了科技大数据的全过程价值链模型,设计了科技大数据价值链模型核心维度的测量方法,并验证了所提方法的有效性。

科技大数据多元价值链模型与价值评估问题非常复杂,相关理论研究尚处于探索阶段。为了进行有效的科技大数据价值评估,后续研究需要结合科技大数据的情景相关性特点,对科技大数据的多元价值进行深入刻画。在科技大数据价值链模型中,数据价值的增值路径及其影响机制尚不清晰,需要深入的理论探索。面向科技大数据的核心价值维度,需要进一步探索更加简便、准确的测度方法。此外,本文利用科技论文数据对所提指标测度方法的有效性进行了验证,后续将拓展科技大数据类型,对所提指标体系和指标测度方法的有效性做进一步验证。

参 考 文 献:

[1]李阳,孙建军,裴雷.科学大数据与社会计算:情报服务的现代转型与创新发展[J].图书与情报,2017,(5):27-32.

[2]王晶金,李盛林,梁亚坤.新政策下科技成果转移转化问题与对策研究[J].科技进步与对策,2018,35(14):102-107.

[3]杨友清,陈雅.科学大数据共享研究:基于國际科学数据服务平台[J].新世纪图书馆,2014,(3):24-28.

[4]诸云强,朱琦,冯卓,等.科学大数据开放共享机制研究及其对环境信息共享的启示[J].中国环境管理,2015,7(6):38-45.

[5]佟泽华,韩春花,孙杰,等.科研大数据再生的内涵解析[J].情报理论与实践,2020,43(9):39-46,78.

[6]王菲菲,弋新月,贾晨冉,等.Altmetrics视角下科技文献学术影响力动态评价体系构建与实证研究[J].情报理论与实践,2020,43(8):77-83.

[7]Park W, MacInnis D, Eisingerich A, et al.. Brand admiration: building a business people love[M]. John Wiley & Sons, Inc., 2016.

[8]Porter M. Competitive advantage: creating and sustaining superior performance[M]. New York: Free Press, 1985.

[9]Miller H, Mork P. From data to decisions: a value chain for big data[J]. IT Professional, 2013, 15(1): 57-59.

[10]Blondel V, Guillaume J, Lambiotte R, et al.. Fast unfolding of communities in large networks[J]. Journal of Statistical Mechanics: Theory and Experiment, 2008, (10): 10008.

[11]Page L, Brin S, Motwani R, et al.. The page rank citation ranking: bringing order to the web[R]. Stanford InfoLab Working Paper, 1999.

猜你喜欢
价值评估
实物期权法在电子商务企业价值评估中的应用研究
市场法在企业价值评估中的应用研究
大华股份公司价值评估研究
基于非财务指标的互联网企业价值评估研究
新三板生物医药企业价值评估问题研究
价值评估方法理论综述
近海环境资源价值评估探讨
企业并购中的财务问题及对策
湖南省多功能农业发展价值评估
跨国并购企业价值评估问题与对策分析