热点主题特征维度的识别指标体系构建及实证研究*
——以我国制氢领域为例

2022-09-24 13:35刘晋霞侯倩倩

情报杂志 2022年9期

刘晋霞侯倩倩

(太原科技大学经济与管理学院太原 030024)

0 引言

随着科学研究的迅猛发展和大数据信息化时代的到来，各学科领域均产生了大量的学术资源，其中科技文献特别是各领域内的核心期刊文献作为科研成果的重要载体，不仅具有较高的学术价值，同时也是一个领域发展水平的集中体现。通过对研究领域的期刊文献进行文本挖掘，可以发现其蕴含的潜在主题和热点信息，有效把握领域研究现状与热点方向。

当前关于热点识别的研究成果已有很多，其方法主要分为以下三类：

第一类是引文分析法。它主要是对文献间的引证关系与被引关系进行研究，并进行描述性统计或引用网络分析，进而找到核心文献或热点主题，主要包括共被引分析和耦合分析两种方法。其中共被引分析由Small于1973年提出[1]。随后Garfield提出文献的共被引频次越高，这组文献对就越可能代表领域内一个确定或新兴的主题的观点[2]。郭伏等采用文献共被引分析，并对共被引网络进行可视化，分析了人因工程领域的研究热点[3]。耦合概念由Kessler于1963年提出[4]。Morris等通过文献耦合分析，对耦合强度大于阈值的文献进行层次聚类，从时间变化的角度来展现研究热点的演化趋势和信息流动等[5]；Liu等在文献耦合网络的基础上对研究领域展开主路径分析，揭示了其发展历程[6]。

第二类是词汇分析法。它是将文献的基本单元词汇作为分析对象，对其进行频次统计或共词聚类来研究领域热点，主要包括词频分析和共词分析两种方法。其中词频分析是找到文章中有意义的词汇并对其进行频次统计，最为常用的是通过设定阈值来确定高频关键词，进而找到研究领域的热点问题。如高劲松等通过设定阈值进行高频关键词的筛选，对学科热点进行挖掘[7];周琴英等利用频次统计获得了高频关键词，通过对其进行共词聚类探测了研究领域的热点主题[8];陈红喜等基于高频关键词的共现分析，对国内科技成果转化研究的热点进行了探析[9]。共词分析是对同时出现在一篇文章的两个或多个词汇进行统计来分析研究领域的热点，通常利用关键词的共现网络图谱对一定时间内的研究热点进行可视化分析。如Peters等利用共词分析并结合多维尺度分析绘制了化学工程领域的知识图谱，梳理了该领域的研究进展和重点问题[10];李庆军等对关键词进行了共现分析并绘制共现知识图谱，对虚拟学术社区的研究热点展开讨论[11];李纲等则针对传统共词分析法中存在的问题，进一步提出了关键词加权的共词分析法[12]。

第三类是主题模型法。该法通过对大规模文本集合进行聚类来发现隐含的语义结构，并在词袋模型的基础上进行文档的特征表示，虽然没有考虑文档中词语出现的顺序关系，但其很大程度上弥补了引文分析法和词汇分析法对文本语义内容和语义关系的忽略。主题模型法的发展经历了LSA到PLSA，直到目前应用最为广泛且成功的是LDA主题模型[13]。LDA通过概率统计定量分析和识别研究主题，从语义层面进行文本分析，从而得到文档的潜在主题信息，同时对抽取出的每个主题，LDA都会输出主题下的相关词语，这对我们更好理解主题含义并对主题内容进行分析大有裨益。近年来，已有学者利用LDA模型展开了各种文本的热点挖掘工作，如新闻热点识别[14]、微博热点挖掘[15]、评论热点提取[16]等，但对学科领域的热点主题进行识别的研究尚不多见。谭春辉等借鉴新兴主题的指标构建方法，基于LDA模型抽取研究主题，并通过设定新颖度指标和支持度指标的阈值来确定数据挖掘领域的热点主题[17];张斌和岳丽欣等则基于LDA主题识别的结果，通过设定主题强度的阈值来发现热点主题[18-19]；裘惠麟等在LDA模型的基础上融合了Word2Vec词向量模型，然后基于LDA2vec模型提取了机器学习领域的热点主题[20]。

综上所述，目前进行领域热点识别的研究大多仍以引文分析法、词汇分析法为主，受方法本身存在的局限性影响，此类研究的热点识别结果在准确性和客观性方面均有限。而基于主题模型的方法则大多是通过建立时间和强度方面的指标来识别热点，并未关注到热点主题自身具有的独特特征，使得识别结果对于热点问题的指向性不强。另外，设定指标阈值的方式具有一定的主观性，不同学者的标准不同，可能会导致识别结果不够全面。为改进热点识别研究的上述不足，本文分析了热点主题所具有的影响力特征和关注度特征，并基于LDA主题模型构建了影响力维度和关注度维度的识别指标体系，以增强识别结果的热点指向性。同时引入了指标平均值和线性拟合的斜率进行热点主题的筛选，以使识别结果更加客观准确。

1 热点主题识别指标体系的构建

热点指在某个时间段内经常出现的或受到很高关注度的词语、话题[21]。对于科研热点，罗琰钦认为其通常是由最能代表领域发展水平或影响领域发展趋势的技术要点和理论构成[22]。可见一个领域的热点主题应当是具有较高影响力水平和受关注程度的主题，同时由于主题的受关注程度受时间因素影响较大，因此热点主题还应具有良好的关注度发展趋势，由此本文给出热点主题的定义：热点主题(Hot Topic, HT)是在所研究时间跨度内具有较高影响力水平和受关注程度，且受关注程度具有良好发展态势的主题。

本文界定的热点主题HT应满足两方面特征，HT=HT1∩HT2：

(1)主题在时间跨度内的某一时期达到了较高的影响力水平，符合该影响力特征的主题属于HT1；

(2)主题在时间跨度内的某一时期具有较高的关注度水平，且受关注程度具有良好的发展态势，符合该关注度特征的主题属于HT2。

根据热点主题所具有的特征条件，本文基于LDA主题模型的输出信息，计算主题各年发文量，从而量化主题特征，并构建影响力和关注度两个维度的热点主题识别指标体系。通过LDA输出的文档-主题概率分布得到各个主题属于每篇文档的概率，当这个概率大于或等于10%时，这篇文档就是该主题的一个支持文档[23]，主题在某年的支持文档数即该主题在当年的发文量。本文利用主题发文量的变化来反映主题的各项特征，进而构建指标体系，构建过程如下：

图1 热点主题识别指标体系流程

由此形成热点主题识别指标体系，体系流程如图1所示。利用LDA模型训练输出的文档-主题概率分布，计算每个主题的支持文档数即主题发文量，根据主题每年的发文量计算各指标值，从而进行热点主题的筛选。

1.1 影响力特征维度的识别指标

通过LDA模型输出的文档-主题概率分布，可获得主题每年的支持文档数即主题发文量。由于主题发文量的变化可以体现一个主题的新颖程度和成熟程度，新颖度和成熟度可以共同反映一个主题的影响力，因此利用主题在某年的累加发文量与主题在当前年的累加发文量之比构成主题在该年的成熟度指标(Maturity Index, MI)，并结合新颖度指标(Novelty Index, NI)构建主题影响力指标TII来对主题的影响力进行度量。

a.新颖度指标NI。新颖度指标(Novelty Index, NI)是根据主题的年龄对主题的新颖程度进行度量的指标。当主题出现后，随着时间推移，主题的新颖度逐年降低，因此主题的新颖度值是一条下降的曲线。一个主题在t年的新颖度计算公式为[24]：

(1)

其中FY为主题的起始年(First Year)，将主题的支持文档按时间切片降序排列，逐年检查该年的支持文档数是否为0，当为0时，该年份加一年即可得到主题的起始年。

b.成熟度指标MI。成熟度指标(Maturity Index, MI)是某一时间片t下主题的累加支持文档数与主题从起始年至当前年的总支持文档数之比，是对主题的成熟程度进行度量的指标。固定一个当前年，随着时间的推移，主题的累加支持文档数增加，其与主题从起始年至当前年的总支持文档数之比也随之升高。因此不同当前年的成熟度曲线都是一条上升的曲线。主题i在t年的成熟度计算公式为：

(2)

其中Sumd(t)是主题i在t年的累加支持文档数，Sumd(i)是主题i在当前年的累加支持文档数。

(3)

(1)当MIy=NIy时 (2)当MIy>NIy且MIy-1

(4)

1.2 关注度特征维度的识别指标

根据LDA模型输出的文档-主题概率分布以及支持文档的含义，可获得主题每年的发文量。由于一个主题在某年的发文量占该年的总发文量的比重可以反映主题在该年的受关注程度，因此利用主题某年的发文量与该年所有主题的发文量总数之比构成主题关注度指标TAI来对主题的受关注程度进行度量。

主题关注度指标(Topic Attention Index, TAI)是同一时间片下主题的支持文档数与该年的文档总数之比。TAI越大说明该主题在当年具有越高的受关注程度，将其与指标平均值进行比较来对具有较高关注度的主题进行识别。主题i在t年的关注度计算公式为：

(5)

其中N(i)表示主题i在t年的支持文档数，N(t)表示t年的文档总数。

(6)

同时对主题关注度指标进行线性拟合可以发现主题受关注程度的发展态势，计算拟合直线的斜率kTAI，当kTAI>0时说明主题关注度呈上升趋势，具有良好的发展态势。

2 实证研究

2.1 数据获取

本文研究对象为制氢领域内的相关文献，以该领域的核心中文期刊文献为数据源。由于2000年以前该领域发文量极少，因此不计入统计，检索的时间跨度为2000—2020年。检索平台选择中国知网(CNKI)；使用高级检索，文献类型选择期刊；期刊来源限定为SCI、EI、CSSCI、核心期刊、CSCD；检索式为“SU=制氢”(SU表示主题)。共检索得到3 315篇期刊文献，删除寄语、新闻、动态等非学术类文献，将其以Refworks格式导出题录信息，并进行去重和删除缺失项操作，最终得到2 988条有效文献记录。

2.2 文本预处理

a.对得到的2 988条有效文献记录，选取每篇文献的标题、摘要和关键词进行信息合并，将其作为LDA主题模型的文档语料。

b.按照文档的处理顺序来抽取文档的序号及发表年份，以便对LDA模型生成的文档-主题文件进行时间切片，本文设定时间切片为1年。

c.使用中文分词组件Jieba的精确模式对文档语料进行分词。

d.加载百度停用词表、中文停用词表、哈工大停用词表、四川大学机器智能实验室停用词库以及自建停用词表进行停用词处理。

e.将文献中的关键词进行汇总，形成自定义词典，以提高分词效果。

2.3 LDA主题抽取

对上一步预处理后的语料库进行主题抽取。使用python3作为开发平台，选用scikit-learn中的LDA主题模型，其主要基于变分推断EM算法进行参数估计[25]。通过计算困惑度(perplexity)并结合研究实际对最优主题数K进行选取[26]，理论上困惑度越小，模型性能越好，但过多的主题数易造成数据的过拟合，因此一般选择困惑度最小值或拐点处对应的主题数作为模型的最优主题数。图3为2～51个主题数分别对应的困惑度计算结果。可以看到，当主题数为18时，perplexity值最小，故设定K=18。参数α和β使用默认值，文档迭代次数为1 000次。

LDA对语料库进行训练后会得到两个概率分布。一是文档-主题概率分布，即各主题属于每篇文档的概率，用于计算各主题的支持文档数，进而计算热点主题识别的各项指标；二是主题-词概率分布，即组成各主题的主题词及其概率，并将每个主题下概率排名前30的主题词用于主题内容分析。

图3 主题数K的困惑度曲线

2.4 热点主题识别

2.4.1影响力维度的识别

因篇幅有限，无需一一罗列所有主题的新颖度、成熟度指标数据，这里仅以Topic5为例，对指标计算过程进行演示。为计算主题影响力指标TII，首先根据LDA模型输出的文档-主题概率分布，计算主题的支持文档数，并根据式(1)和式(2)得到主题的新颖度指标NI和成熟度指标MI。如表1所示，Topic5的成熟度指标计算以2020年为当前年，各年度的支持文档数、累加支持文档数、新颖度指标和成熟度指标分别计算列出。

表1 Topic5的各年新颖度指标和成熟度指标

由于计算成熟度指标时第一年或第二年的累加支持文档数意义不大，故当前年应从时间跨度内的第3年开始取。但指标计算过程中发现有主题的起始年为第4年即2003年，意味着其新颖度指标在前3年无意义，为计算主题影响力指标，本文中的当前年从2003年开始取。根据计算结果可得Topic5的新颖度曲线和以各年为当前年的成熟度曲线(见图4)。

图5 Topic5的新颖度曲线及各当前年的成熟度曲线

表及Topic5的TII值对比结果

2.4.2关注度维度的识别

同时根据主题每年的TAI值绘制主题的关注度变化趋势图，并对其进行线性拟合，用拟合直线的斜率kTAI度量其发展态势，kTAI>0说明主题具有良好的发展态势。通过计算主题关注度指标的拟合直线的斜率kTAI，可以得到受关注程度具有良好发展态势的主题有：

表及Topic5的TAI值对比结果

综合影响力和关注度两个维度的识别结果，可以得到同时满足影响力特征和关注度特征的热点主题，即HT=HT1∩HT2={Topic5,Topic8,Topic11,Topic16}。

图5 Topic5的主题关注度及其拟合直线

3 制氢领域的热点主题分析

3.1 热点主题内容分析

本文通过构建的热点主题识别指标体系进行主题筛选，得到了同时具有影响力和关注度的我国制氢领域的4个热点主题。并基于LDA主题模型输出的主题-词概率分布，选取每个主题下概率排名前30且具有代表性的10个主题词对主题进行标识，标识结果如表4所示。根据主题标识，结合主题词对热点主题内容进行分析。

表4 我国制氢技术领域的热点主题

a.Topic5为光催化分解水制氢技术。光催化分解水制氢的原理是在光催化剂的协助下利用太阳能分解水产生氢气。日本学者Fujishima于1972年首次利用二氧化钛光催化分解水产氢[27]，在世界范围内引起高度关注，开辟了光解水制氢的研究道路。近年来，随着“双碳”目标的提出，我国能源结构调整的步伐加快，大力发展氢能产业以代替传统的化石能源迫在眉睫。在国家大力发展可再生能源的低碳经济背景下，以绿色零排放方式制取“绿氢”将成为制氢研究的重点。光催化分解水制氢由于直接利用了一次能源，且没有产生能源转换的浪费，具有简单高效的特点，同时水的储量丰富、清洁可持续，这种通过分解水将光能转化为化学能的制氢方法成为了一种环境友好的持续供应氢能的方案，被视为最有前景的制氢方法之一。

随着电极电解水制氢向半导体光解水制氢的发展，以及二氧化钛以外的光催化剂的相继发现，光催化分解水制氢技术的研究受到了极大关注。然而当前光解水制氢技术还面临着一些技术难点，如光催化剂的性能、光生载流子的复合、光电极对光的利用等因素都会影响其制氢效率，对其应用造成一定阻碍。当前降低光生电子-空穴的复合率、光催化材料的带隙与可见光能量的匹配、光催化材料的能带位置与反应物电极电位的匹配已成为光催化分解水制氢技术的关键课题。若能成功解决技术难点，该技术将逐渐满足商业化的要求，成为我国能源安全和能源结构调整的又一生力军，为能源转型和环境恶化问题提供有效的解决途径。

b.Topic8为甲醇制氢技术。甲醇制氢主要包括甲醇裂解制氢、甲醇水蒸气重整制氢、甲醇部分氧化制氢三种技术。其中甲醇水蒸气重整与大规模的天然气、轻油、水煤气等制氢方法相比，具有流程短、能耗低、成本少、无污染等特点，成为了解决质子交换膜燃料电池氢源问题的有效途径。随着国内甲醇生产规模的扩大，甲醇重整制氢工艺发展迅速，目前已广泛应用于电子、冶金、食品及小型石化行业。甲醇裂解制氢是甲醇与水经过催化裂解生成混合气体，再通过变压吸附并改变操作条件提纯出高纯度氢气的过程。甲醇裂解制氢的自动化程度较高，成本低且产氢纯度高，具有较高的市场应用价值。甲醇部分氧化制氢则具有反应条件温和、反应速度快、易操作等特点。将甲醇制氢与质子交换膜燃料电池技术结合，可以省略分离与纯化过程，实现氢能的“即制即用”。甲醇制氢技术的特点及多种应用场景使其被许多专家学者认为是我国氢能与燃料电池发展的一大突破口。

目前氢能发展虽势头正足，但其还面临着安全隐患、储运价格、基础设施投入等方面的瓶颈问题。针对氢能发展的这些“痛点”，澳大利亚国家工程院外籍院士、南方科技大学创新创业学院院长刘科认为，甲醇是目前最好的制氢材料，甲醇制氢是有效解决氢能“痛点”的途径。甲醇制氢技术获得的超高关注来源于其具有的众多优势：一是甲醇来源广泛，可由煤炭、天然气、氢与二氧化碳反应等方式制取得到，实现了资源的循环利用，保障了制氢原料的供应；二是甲醇的液态形式使其在运输和储存方面具有很大经济优势，在未来的市场推广过程中无需另设加氢站，而可以依托现有加油站的简单改造和升级，将其变为加注汽柴油和甲醇水溶液的联合加注站；三是随着二氧化碳合成甲醇技术的发展，甲醇制氢可以转变为甲醇储氢，在一定程度上达到低碳减排的目的，符合当前我国碳中和的发展趋势。

c.Topic11为光催化剂性能及其制备。光催化剂性能及其制备主要是指对以二氧化钛为主的光催化剂的性能及制备过程的研究。如使用金属或非金属掺杂、染料敏化以及半导体复合等方法来提高催化剂产氢效率的研究，通过X射线衍射、扫描电子显微镜等技术对催化材料的形貌、组成、性能进行系统分析的研究等[28]。二氧化钛由于具有节能环保、低廉高效且耐腐蚀等特点，至今仍是最受关注的光催化剂，但光生电子和空穴易复合等因素使其光催化性能具有一定局限性，因此降低光生电子与空穴的复合率是光催化剂研究要克服的技术难关之一，也是该热点主题的一个重要发展方向。

近年来，随着研究的深入，光催化剂在合成、改性等方面取得了较大进展，但制氢效率低仍是其主要问题。光催化剂的性能主要受其带隙和其接受光的类型影响，其用于水分解的带隙能量则决定了催化剂的灵敏度，同时要产生光催化反应必须保持还原及氧化电位在催化剂的带隙内，且发生光催化的带隙能量须处于一定区间内，因此研发制备带隙低、催化效率高的光催化剂是必要的。中国氢能联盟战略指导委员会委员、中国工程院院士衣宝廉在《碳中和背景下的可再生能源制氢技术及产业发展》专题讲座中提到，随着光催化剂相关问题的解决以及能量利用效率的提高，该技术将成为能源领域的颠覆性技术，对氢能源发展产生巨大助力。

d.Topic16为光伏发电制氢技术。光伏发电制氢是由光伏发电系统直接供应电解制氢的技术。光伏发电制氢可以有效消纳光伏发电，平抑其不稳定性，还可以解决光伏发电的日间或季度不平衡等问题，具有提升储能效用的特殊优势。同时，光伏制氢路线可以实现生产源头上的无碳化制取绿氢，在工业生产中达到减碳脱碳的目的。除此之外，光伏发电由于其制氢规模可随场地和需求进行模块化组合，且具有技术工艺简单、经济性强等特点，可有效解决燃料电池氢源问题，极大推动新能源应用和分布式供能等新兴产业的发展。

光伏制氢为光伏发电提供了更广阔的应用场景和市场需求，实现了光伏与氢能的有效结合与应用。近年来，国家发改委和能源局出台了多项支持光伏产业健康有序发展的政策，广东、浙江、天津、河北、山东等多个省市也陆续出台了氢能产业扶持政策，相关绿氢项目也陆续落地，如山西运城的阳光能源光伏制氢项目、甘肃兰州新区的液态太阳能燃料合成示范工程项目等。另外，受市场前景吸引，中国石化、隆基股份、宝丰能源等企业也积极布局光伏制氢市场。随着光伏组件价格的下降，光伏发电成本还会持续降低，光伏发电的经济与市场价值将逐步显现，使其具有更强的竞争力，“光伏+氢”已经成为了未来清洁能源的终极解决方案之一。

3.2 对比验证

为验证本文所提方法的有效性与准确性，采用共词分析法对我国制氢领域的文本数据进行分析，并与本文方法的识别结果进行对比。利用CiteSpace软件进行共词分析，通过关键词的共现关系生成共现网络图谱并进行聚类来反映研究热点问题[29]。本文将我国制氢领域的文献数据导入CiteSpace中进行关键词的共现聚类，在“Node Types”中选择“Keyword”，并去除“产氢”“制氢”“氢气”“氢能”4个与检索词相关的关键词节点以免影响聚类结果，生成聚类标签时选择“Keyword”，聚类算法选择“LLR”。所得关键词聚类图谱如图6所示。

图6 关键词聚类网络图谱

分析图6可知，本文提出的热点主题识别方法优于共词分析法，不但可以识别出基于共词分析法所识别出的主题，对于一些相关性及代表性不足的主题也可以成功筛除。从图6中可以看到，共词聚类所得类团“0光催化”与本文的热点主题Topic5光催化分解水制氢技术相对应；类团“1甲醇”“6甲醇水蒸气重整制氢”“7甲醇部分氧化制氢”“9加氢裂化”与热点主题Topic8甲醇制氢技术相对应；类团“4催化”与热点主题Topic11光催化剂性能及其制备相对应；热点主题Topic16光伏发电制氢技术是解决燃料电池氢源问题的主要途径，也是燃料电池发展的重要助力与突破口，与类团“2燃料电池汽车”具有很强的交叉性。同时，本文的热点识别结果均是制氢领域的重要发展方向，与共词聚类所得类团相比，指向性更强，识别结果更加清晰。此外，共词分析法识别出的类团“3析氢反应”对制氢领域的代表性不足，类团“5模拟”“8储氢”与制氢领域的相关性很低，均是被本文方法成功筛掉的主题。总体来说，本文提出的热点主题识别方法不但在识别维度和分析粒度上优于共词分析法，其识别结果的指向性也更明确，热点识别效果更为准确和有效。

4 结语

在当前数字信息化的时代背景下，日益庞大的领域信息库使得科研人员难以及时高效地跟踪研究热点，同时已有的热点识别方法未考虑到热点主题的特征，热点指向性不强，且维度较单一、主观性较强。因此本文首先分析了热点主题的影响力及关注度特征，并对其进行量化，从影响力和关注度两个维度构建了热点主题识别指标体系。通过实证研究，发现光催化分解水制氢技术、甲醇制氢技术、光催化剂性能及其制备、光伏发电制氢技术是我国制氢技术领域内同时具有影响力和关注度的热点主题，同时通过对比验证体现了该指标体系的有效性。

本文构建的指标体系立足于热点主题的特征，并根据其特征构建了相应指标来进行主题筛选，提高了热点识别结果的准确性，有助于科研学者跟踪领域热点，帮助进行科研决策，也为今后热点主题的识别工作拓展了新的思路和方法。下一步可结合专利文献和学位论文等，融合多源文献的数据进行指标构建，以提高全领域的热点识别效果。

热点主题特征维度的识别指标体系构建及实证研究*——以我国制氢领域为例

0 引 言