基于专利动态复杂网络的产业共性技术预测

2021-01-14 01:49吴颖文纪杨建顾新建

计算机集成制造系统 2020年12期

吴颖文，纪杨建，顾新建

(浙江大学机械工程学院浙江省先进制造技术重点研究实验室，浙江杭州 310027)

0 引言

根据我国科学技术部在国家科技支撑计划中对共性技术的定义，共性技术是指在不同领域、不同行业或不同区域能够广泛共享应用，对经济和社会发展产生普遍推动作用的技术[1]。当前产业与科技的竞争日趋激烈，产业竞争已经从市场化阶段的技术竞争走向竞争前技术的竞争。作为竞争前技术，产业共性技术创新不仅能够推动新兴产业的形成和培育，支撑其他多个产业实现技术突破，还能够促进我国有限的科技资源实现高效分配与共享[2]。各国政府高度重视共性技术研发活动，如美国的先进技术计划(Advanced Technology Program, ATP)、日本的研究联合体(Very Large Scale Integration， VLSI)、欧洲信息技术研究发展战略计划(ESPRIT计划)等。我国政府同样支持共性技术研发活动，其中科技攻关计划、科技支撑计划、国家工程研究中心、国家工程技术中心和行业技术开发基地都明确提出加快产业共性技术的研发和推广工作[3-5]。优先组织和实施战略性共性技术研发的基础是依据未来产业和技术发展方向前瞻性地选择出拟重点支持的共性技术，从而进行超前部署，因此产业共性技术选择是共性技术研究领域的重点之一。

目前，国内外对产业共性技术选择的研究主要可分为基于德尔菲法的选择方法、基于技术路线图的选择方法和基于文献计量的选择方法。从德尔菲法的角度，Ronde[6]提出在德尔菲调查中引入“专家对技术的熟悉程度”指标，建立“技术—专家熟悉度”二维矩阵以及不同技术关联度矩阵，再通过因子分析法判别产业共性技术。刘波等[7]基于技术预见视角，使用德尔菲法构建了共性技术初步筛选的指标体系，并根据优劣解距离法(Technique for Order Preference by Similarity to an Ideal Solution，TOPSIS)举例筛选共性技术的课题。从技术路线图的角度，王倩等[8]、贺正楚等[9]分别以大数据产业和生物医药产业为例，采用专利地图法遴选中国大数据产业和生物医药产业的共性技术，归纳出几种典型的技术发展模式，绘制了两大产业在近期、中期、长期的共性技术路线图。从文献计量的角度，Hall等[10]以美国专利商标局的专利数据为基础，借助技术共性度、引文数量、引文滞后以及专利分类增长等指标对共性技术进行了识别，并指出共性技术多为信息和通信方面的技术。张鹏等[11]结合专利计量分析的相关理论和方法，构建了专利引文网络和专利技术领域共现网络，分别进行K-核分析和搜索路径连接统计值(Search Path Link Count，SPLC)主路径分析，得出全球定位系统(Global Positioning System，GPS)产业共性技术发展演化的规律和趋势。

总的来说，基于德尔菲法和技术路线图的选择方法属于定性研究方法，很大程度上依赖于专家的主观判断及对技术领域的了解程度，缺乏一定的客观性。而基于文献计量的选择方法虽然是一种定量研究，但识别出的其实是事后共性技术[12]，无法解决大量竞争前共性技术的识别问题。因此，本文提出基于专利技术共现动态网络的产业共性技术预测方法，从定量的角度解决事前共性技术[12]选择问题。

专利技术共现网络是专利分析中常用的一种方法，可用于挖掘技术的特点、发展路径、关联关系等。刘凤朝等[13]基于专利技术共现网络分析方法，利用国际专利分类号(International Patent Classification, IPC)构建了纳米技术演化路径分析框架，考察了纳米技术与相关技术领域融合发展的实现模式。沈君[14]从专利的标题和摘要中提取技术术语，并以此构建专利技术共现网络，利用卡龙的共词分析方法和原则对专利技术主题结构进行分析。动态网络主要用于揭示网络的演化过程及规律。李登杰等[15]基于动态网络对技术创新网络演化机制进行了系统分析，并验证了该方法在刻画技术创新网络演化方面的有效性。考虑到专利技术共现复杂网络和动态网络在技术分析中的有效性，本文将这两种网络进行结合，作为产业共性技术预测方法的基础。

1 共性技术预测理论基础

据世界知识产权组织调查，专利文献中包含世界上90%～95%的最新发明成果和技术情报，且约有70%的成果未在非专利文献上发表。专利文献涵盖着全球最新创新成果，可以作为技术的预测性竞争情报来源[16-18]。因此，本文选择专利文献作为共性技术预测的研究对象。

如果一项专利涉及两个或两个以上的技术领域，则称为专利技术共现。一个专利集包含的技术领域之间的共现关系可以通过复杂网络表现出来。在专利技术共现复杂网络中，网络节点代表技术领域，边代表所连接的两个技术领域之间存在共现关系。根据共性技术具有的基础性、广泛性、关联性等特征[3-4]，本文认为在共现网络中一项技术与其他越多的技术共现，表明越多的技术需要依赖该技术以实现技术突破，则该技术是共性技术的可能性越大，即技术的共性度越大；一项技术与其他技术之间的共现频次越高，表明该技术对其他技术所起的技术支撑作用越大，则该技术的共性度越大。基于该思想，提出共现广度和共现强度两个技术共性度衡量指标，共性技术则是这两个指标值都比较大的一类技术。

对于事前共性技术选择来说，需要识别的是未来一段时间内技术共性度较大的一类技术。随着专利文献的不断增长，专利技术共现网络在不断变化，网络中每一项技术的共现广度和共现强度也在不断变化。技术共性度的变化是有规律的，有些技术在现阶段的共性度较小，但共性度的增长十分迅速，这类技术很可能成为未来的共性技术；而有些技术虽然在现阶段的共性度较大，但共性度的增长十分缓慢，这类技术可能不具备发展为共性技术的潜力。因此，基于技术共现广度和共现强度随时间的变化规律，运用相关的数据预测模型，可预测出该技术在未来时间点的共现广度和共现强度，从而确定未来技术共性度较大的技术并将此作为日后重点研发的共性技术。

基于以上分析，提出产业共性技术预测方法，其过程如图1所示。具体步骤为：①建立专利技术共现动态网络；②确定衡量技术共性度的网络指标，这里定义了共现广度和共现强度两个指标；③计算动态网络中每项技术在各个时间点的技术共性度；④预测技术在未来时间点的技术共性度，这里采用基于差异化阶数的多项式回归模型；⑤选择共现广度和强度都比较大的技术作为预测出的未来共性技术。

2 专利动态复杂网络模型

2.1 动态网络

Gt(Vt,Et,Wt)=g0∪g1∪g2∪…∪gt。

2.2 专利技术共现动态网络

在目前的研究中，一般用专利分类号来表征技术领域[20-21]，本文采用IPC国际专利分类号，因此专利技术共现即IPC分类号共现。

专利技术共现动态网络Gt(Vt,Et,Wt)表示不同时间t技术领域之间的共现关系及共现频次，其中：Vt表示0～t时间段内存在的IPC分类号，Et表示0～t时间段内u和v两个分类号之间存在共现关系，Wt表示0～t时间段内u和v两个分类号之间的共现频次，反映了分类号所代表的技术领域间的关联程度。

3 基于活跃因子的技术共性度指标

3.1 技术共性度指标

根据共性技术的定义，本文提出共现广度和共现强度这两个技术共性度衡量指标。

(1)共现广度Ri专利技术共现网络中与节点i相连的其他节点的个数，即与技术i出现共现的其他技术的个数，表示技术i所能影响的技术范围。

3.2 技术共性度活跃因子

当技术i与其他技术共现之后，若在一段时间内没有再次发生共现，则该技术的共性度不应该等同于初始时刻，而应随着时间变化减弱，即技术共性活跃度下降。因此，使用技术活跃因子对技术共性度指标进行修正。

(1)

式中：t为专利公开后经历的时间，T为专利半衰期，α为技术共性度的活跃因子。

基于技术共性度的活跃因子，将技术共性度指标修正为:

(2)

(3)

4 基于差异化阶数的多项式回归预测模型

4.1 多项式回归模型

根据构建的专利技术共现动态网络以及定义的技术共性度衡量指标，可得到每个技术领域在0到t时间段内共现广度和共现强度随时间变化的时序数据，基于这些时序数据，运用相关模型即可预测相应技术在未来时间点的技术共性度，从而预测未来的共性技术。本文使用多项式回归模型展开预测。

在一元回归分析中，如果因变量y与自变量x的关系是非线性的，但是又找不到适当的函数来拟合，通常采用一元多项式回归，一元m次多项式回归方程为：

f(x)=a0+a1x+a2x2+…+amxm。

(4)

多项式回归的最大优点是可以通过增加x的高次项对实测点进行逼近，直到得到满意的结果。研究证明，任何连续函数都能使用某个高次幂的多项式以任何预先指定的精确度一致地近似表示。由于技术领域的特点及发展差异，其共现广度和共现强度随时间变化的规律不同，很难找到同一个函数对所有技术领域进行回归分析，而多项式回归的优点恰巧可以解决这个问题。

多项式回归模型一般利用最小二乘法求解，其准则是求出f(x)的各个系数ak，使得各历史数据(xi,yi)对应的点到f(xi)距离的平方和最小[23]。记距离函数

(5)

要使式(5)最小，需满足

(6)

即以下线性方程组：

(7)

则方程可表示为:

RTRA=RTY。

(8)

式(8)存在唯一解:

A=(RTR)-1RTY。

(9)

根据式(9)即可求出拟合曲线函数f(x)中所有系数ak。

4.2 多项式阶数确定方法

对于多项式回归模型，一般m越大拟合的精度越高，但阶数过大可能会造成过拟合，从而使模型的预测效果较差，因此重点是确定式中阶数m的大小。对本文研究的技术共性度来说，由于技术领域的特点及发展差异，适用于每个技术领域多项式回归模型的阶数不同，因此提出差异化阶数法，即对不同技术领域的模型确定不同的阶数，具体流程如图4所示。

图中R-squared为决定系数，也称为拟合优度，是对回归模型的评价指标，T是对决定系数设定的一个阈值，

(10)

对于某技术领域共性度的一组数据，首先将多项式回归模型的阶数设定为1，计算出拟合模型的R-squared，若R-squared大于阈值T，则确定此时的阶数为该技术领域共性度预测回归模型的阶数，若小于T，则将阶数加1，重新计算拟合模型的R-squared，直到R-squared大于阈值T。确定多项式回归模型的阶数后，即可拟合出每个技术领域共性度的函数关系，并对未来的共性度进行预测。

5 案例研究

5.1 专利动态复杂网络

本案例以美的集团、格力电器、青岛海尔3家家电领跑企业的专利数据为样本，研究家电行业的共性技术。分别以“美的集团”、“格力电器”、“青岛海尔”为申请人关键词搜索万方数据库，截至本文检索时间2018年5月30日，共收集52 848条专利数据。然后，对专利数据进行清洗，去除数据中申请人名称与这3家家电企业相近的其他企业的数据，最终得到47 740条有效数据，其中28 241个专利文献中存在IPC分类号共现，因此以这28 241条数据为研究对象。经统计，数据中共涉及到5 983个技术领域分类号。

以月为单位，建立专利技术共现动态网络，动态网络共有296个时间点。从动态网络中可以观察到随着时间的推移，共现的技术领域越来越多，领域之间共现的频次也越来越多。图5展示了6个时间点的共现网络图。

5.2 技术共性度指标计算

基于296个时间点的专利技术共现网络，利用式(2)和式(3)可计算每个技术领域在每个时间点的共现广度和共现强度，从而得到5 983个技术领域的共性度随时间演化的情况。目前采用的最普遍、最有效的科技文献半衰期计量方法是引文分析法[24]，即将科技文献半衰期定义为被引文献中最新的一半文献是在最近多少时间内发表的，利用该方法计算得出式中专利半衰期T为5.9。

图6选取了其中20个技术领域在20个时间点的数据进行展示，图中点的大小表示技术的共现广度，点的深浅表示技术的共现强度。

5.3 共性技术预测

基于技术领域共性度随时间变化的数据，可进行共性技术预测研究。本文基于1993年～2017年5月的数据对2018年5月的技术领域共性度进行预测。

首先，分别统计2017年5月5 983个技术领域共现广度和共现强度的分布情况，如图7所示，其中横坐标表示共性度的值，纵坐标表示技术领域的个数。由图可知技术领域的共现广度和共现强度均服从幂律分布，即绝大部分技术领域的共性度都很小，极小部分技术领域的共性度较大。对共性技术预测来说，关注的是在未来有潜力成为共性技术的技术，因此选取现时间点共性度较大的那一小部分技术进行预测，在这里选取共现广度和强度分别占前1%的60个技术领域进行预测。

基于差异化阶数的多项式回归模型分别对现时刻共现广度和强度最大的60个技术进行预测，分别将R-squared的阈值T设定为0.97，0.98，0.99，预测结果误差如表1所示。

表1 不同阈值T下的预测误差

由表1可知，当阈值T等于0.98时，无论是共现广度还是共现强度，其预测误差最小，分别为5.27%和3.48%。此时预测结果中广度和强度最大的12个技术的回归曲线图如图8和图9所示。根据所定义的共性技术测度标准，共性技术是共现广度和强度都比较大的一类技术，因此确定如下6个技术领域为2018年5月的共性技术，如表2所示。

将预测结果与实际进行对比，如表3所示，由表可知共现广度预测值前12位与实际值前12位的技术领域共有10个相同，共现强度预测值前12位与实际值前12位的技术领域共有11个相同。共性技术的预测结果误差如表4所示，由表可知2018年5月的共性技术领域共8个，其中预测了6个，由此可知该共性技术预测模型的准确度较好，但覆盖率还有待提高。

表2 2018年5月预测共性技术

表3 预测和实际共性度对比

表4 预测和实际共性技术对比

续表4

5.4 适用性检验

为了检验该产业共性技术预测模型的适用性，将专利数据样本从3家家电企业扩大至8家，加入奥克斯集团、海信电器、TCL集团、四川长虹、小天鹅5家企业的专利数据。数据检索与清洗方式与前述一致，最终得到26 451条有效数据，其中12 401个专利文献中存在IPC分类号共现，加上前述3家企业的28 241条数据，总计获得40 642条数据作为研究对象。

按照前述方法对数据进行分析，得到不同阈值下共现广度与共现强度的预测误差，如表5所示。由表可知，当阈值T=0.98时，无论是共现广度还是共现强度，其预测误差最小，分别为7.49%和5.04%。该数据集的共性技术预测结果与小数据集的预测结果对比如表6所示，由表6可知两个数据集下所预测的共性技术基本一致，由此可知该共性技术预测模型具有较好的适用性。

表5 不同阈值T下的预测误差

表6 不同数据集预测结果对比

6 结束语

产业共性技术选择是组织和实施共性技术研发的基础，通过产业共性技术预测实现对未来共性技术的有效选择有利于带动产业的战略升级，支撑众多相关技术突破，提升自主创新能力及核心竞争力。本文基于专利的技术共现现象进行了产业共性技术预测的方法研究。具体包括以下工作：

(1)构建了专利动态复杂网络，以作为共性技术预测的研究对象。通过动态网络表示出不同时间点技术领域之间的共现关系和共现频次。

(2)确定了技术共性度衡量指标。基于专利技术共现网络定义了共现广度和共现强度两个指标，并计算出动态网络中各个节点在每个时间点的指标值。

(3)建立了共性技术预测模型。以共现广度和共现强度的时间序列数据为基础，采用差异化阶数的多项式回归模型，预测未来共性度比较大的技术以作为拟研发的共性技术。

(4)以家电行业为例进行实证研究，进一步验证了共性技术预测方法的可行性。以2017年5月之前的专利数据为基础，预测出该行业2018年5月的共性技术，并与实际共性技术进行对比，证明了模型的预测效果。

未来的研究方向主要包括两个方面：①更深入地探究技术共性度指标，以实现产业共性技术更精准的预测；②改进产业共性技术预测模型，提高模型预测精度。