信息计量学理论发展在信息检索领域的应用综述

2019-02-21 14:42施蓓

深圳职业技术学院学报 2019年3期

施蓓

（深圳职业技术学院图书馆，广东深圳518055）

信息检索与信息计量是情报学（Information Science，信息科学）下属的2 个独立子学科，有着各自的学科范畴．信息检索致力于各种载体信息的收集、描述、存储、索引、检索和呈现；信息计量包括其同盟的几种计量学（文献计量学、科学计量学、网络计量学、替代计量学）则致力于对记录信息的产品及其应用进行定量检测分析和评价[1]．信息检索服务提供的是查询获取信息的工具和途径；信息计量服务提供的是评估科研业绩、分析发展趋势、的方法和手段．信息检索的研究目标是尽可能精确地匹配用户的信息需求和信息源中的信息内容；信息计量的研究目标则是尽可能精确地描述、揭示和评估某个知识单元或知识领域的状态[2]．

在情报学的发展过程中，信息检索和信息计量2 个子学科之间各自独立，同时又存在着密切的联系，两者的研究对象都是文献信息，两者的研究人员也存在交叉现象．在大数据环境下，信息检索与信息计量之间呈现出内容并行、工具整合、实践融合的共生发展趋势[3]．一方面，信息检索所依托的系统平台拥有大规模的数据，这些数据里包含了大量信息计量研究所需的数据源，检索系统平台及其检索技术的发展使得信息计量研究能够获取更深层次、更全面、更详尽的数据．另一方面，信息计量学定律和理论在一定程度上为信息检索系统发展新的服务模式及提高检索效率提供了理论支持．

在随着互联网+、大数据、人工智能等技术发展和应用而来的新时代，人们获取信息、选择信息、交流信息的思维方式和行为模式也发生着巨大的变化．用户行为及需求的变化倒逼着信息检索系统在实现基于社交网络的信息过滤机制、基于数据驱动的个性化信息服务、基于语义挖掘的语义搜索、基于全数据管理的数据检索、基于人工智能深度学习的预测检索和多媒体检索等功能的过程中，与信息计量理论协同发展，呈现社会化、数据化、智能化的发展趋势．

1 传统信息计量学理论在信息检索系统中的应用

1.1 信息计量学统计定律在信息检索系统中的应用

1.1.1 文献索引款目频率的幂律分布

信息计量学的经典统计定律中有两类重要的幂律分布．一是齐普夫（Zipfian）词频分布定律：在文献或信息检索系统中，词的出现频率与词的数量呈幂律分布．二是洛特卡（Lotkaian）关于科学生产率的频率分布，即作者-发文量分布呈幂律分布．在洛特卡定律的基础上，有学者通过对文献引文数据研究，得出作者-被引次数、作者-被引篇数、论文-被引次数均呈现幂律分布[4]．这些索引款目频率的幂律分布规律为信息检索系统中检索款目的权重赋值提供了依据，在检索系统中索引款目的权重常与款目频率的统计特征挂钩．例如tf-idf 就是一种信息检索系统中较普遍使用的权重方案，它综合词频和逆文档频率给每条索引分配权重，并据此对检索结果进行排序．

1.1.2 用户需求和用户行为中的幂律分布

除了检索系统的内容数据存在幂律分布现象外，检索系统的使用数据也存在幂律分布现象．有学者研究得出：①信息资源网站的访问频率、用户对不同资源的需求数量均呈幂律分布[5]．②检索系统用户的查询款目频率、用户浏览查询结果的页面数、用户在与系统的一次交互过程中查询及修正查询的次数也呈幂律分布[6]．

用户需求和用户行为数据中的这些幂律分布规律可以帮助检索系统用户界面的设计者抓住那些应重点开发设计的方面，如：优先把访问频率高、需求数量大的资源放在界面的显著位置；注重推荐高频率的查询款目、注重推荐不同的检索结果排序方式、注重设计一些能帮助用户提高交互过程效率的功能等．

1.1.3 文献信息增长和老化的统计模型

文献信息的增长规律和老化规律是信息计量学研究的两项重要内容，包括：关于文献信息累积量快速增长的普赖斯指数模型；初始阶段快速增长，然后增速逐渐变缓的逻辑模型；关于文献信息老化的布鲁克斯引文频率负指数模型等[7]．这些模型在检索系统的规划和设计过程中，为设计者提供了参考依据，如：依据增长模型估算数据库和索引的增长速度；依据老化模型判断文献信息的时效，从而提高有效文献信息的检出率等．

1.2 基于文献特征的关联分析理论在信息检索系统中的应用

基于文献引用关系的引文分析、基于关键词共现的聚类分析、基于合著者的社会网络分析等是传统信息计量学中常用的计量分析范式，其理论基础是利用学术文献之间在某些特征上所反映出来的关联关系，分析学术领域的发展状况和趋势．文献特征上的关联，既映射出学术领域中研究者、研究主题之间的关系，也反映了文献信息体系本身的某些结构特点，因而在信息检索过程中能起到有效的导引作用．

1.2.1 检索结果排序算法

谷歌首创的PageRank 算法是文献计量学引文理论对检索系统设计产生影响的一个经典案例．谷歌创始人Larry Page 曾提到谷歌网页排序的算法思想来源于引文分析理念[8]．基于PageRank 算法的各种计量模型又被进一步应用于各类信息检索系统中的文献特征因子计算、文献影响力评价和检索结果排序[9]．

信息计量学形成了一系列计量概念用于描述学术信息交流的结构，如期刊的核心度、作者的中心度、关键词的频率特征tf-idf 等．Philipp Mayr等人提出将这些计量概念的算法嵌入学术信息检索系统，以检索附加项的方式对检索结果进行排序．他们设计了两种新的检索结果排序方式：①应用布拉德福定律，在查询命中的结果集上，依据命中的论文数量划分出核心出版物区域，并计算各出版物的核心度，核心度高的出版物中的命中结果排在前面．②应用合著者社会网络模型，在查询命中的结果集上，计算合著网络中作者节点的中介中心度，中心度高的作者的论文排在前面．他们通过测试得出：利用这两种计量模型导向的查询结果排序方式，筛选出的结果具有更高的查全率和查准率[10]．

1.2.2 “信息计量辅助检索”策略

信息计量辅助检索是指：在传统文本检索的基础上，将协同引证、文献耦合、关键词共现、学术网络等信息计量模型整合到信息检索策略中，帮助用户在检索过程中更好地把握对专业信息空间范围和结构的限定，从而在保证查准率的前提下提高查全率．

文献计量学者Wolfang Glänzel 等人在其“领域研究”的过程中，为了获得准确而全面的数据样本，将检索策略分为两个部分．第一部分基于期刊浏览、检索词查询等传统检索方法，获得“种子”文献；第二部分加入文献计量组件对扩展的检索式进行条件判定，获得各种文献计量语境下与种子文献有相近关系的文献，并通过阈值设定关系的强度．他们认为在跨学科领域的复杂检索中，通过对检索策略中的文献计量组件及其阈值进行精细调整，可将检索结果的误检率控制在可接受的范围内[11]．

2 发展中的信息计量学在信息检索系统中的应用

2.1 替代计量学在信息检索系统中的应用

在线科研和科学交流网络化发展趋势催生了替代计量学．替代计量学针对在线科研模式，开发线上计量工具和平台，利用各种社会媒体上即时产生的公共数据，采用点击、下载、传递、浏览、收藏、引用、提及、标签、评级、评论、点赞、分享等计量指标，多方位地对处于交流过程中的学术成果的影响力进行计量分析和评价，在新的科研生态体系中构建学术影响力评价体系[12][13]．

替代计量学的研究进展不仅构建了新的学术影响力评价框架，同时它也信息检索系统中得到深入应用：①将替代计量学指标纳入信息检索系统，检索用户可对传播量、同行推荐数、阅读量、用户评级、评分等指标设置限定值，作为检索结果的筛选条件．这种信息筛选模式形成了基于群体智慧的软同行评议过滤机制，实现了纯粹文献关系之外，结合社交网络关系的个性化信息推荐和信息过滤，为检索系统提供了更多可供选择的检索限制条件，丰富了检索系统的结构和层次．②由于替代计量的指标数据能快速地积累，达到可测量的规模，因而它们相比传统的引文指标能更快地投入使用，提高了检索系统的效率．③信息检索系统与替代计量工具平台相结合，既整合了多种媒介类型和文件格式混合的资源集合，又实现了基于学术群体智慧的信息推荐和过滤，还能够提供丰富的学术网络关系数据，因而能较好地满足在线科研用户对信息检索系统的新要求[14][15]．

目前，替代计量学工具和平台已开始被各数据商采用，与数据商的检索平台结合，为用户提供信息服务，如：EBSCO 兼并了Plum Analytics，Elsevier兼并了Mendeley，Nature 和Springer 等数据库也开始采用替代计量数据等，这表明替代计量学在信息检索系统的应用已逐步走向成熟[15]．

2.2 用户行为数据的计量分析在信息检索系统中的应用

Web2.0 以来，人机交互的信息检索系统越来越重视用户与系统间的交互会话过程，通过用户界面，用户可在反复迭代的检索过程中调整和修正检索策略，形成了以用户为中心的交互检索模式．用户日志中用户与系统交互会话的数据，成为信息计量分析研究的重要数据类型．信息计量研究者和信息检索系统设计者们通过对这类数据采用聚类分析、网络分析等计量算法，识别用户的种类，得出用户的行为特征，从而在用户的信息检索过程中依据其种类或行为特征，推送个性化服务．例如：Wolfram等人利用检索系统的用户日志数据对检索者进行聚类分析，识别出三种常规的交互类型，其中有一类是针对某个主题不断调整查询策略，反复交互的检索者．他们认为检索系统应筛选出这类纠结的检索者，为其提供精准的介入服务，帮助其获得满意的检索结果[16]．

研究者和设计者们更深入地将基于用户行为数据的用户画像和用户行为本体建模等新型的信息计量技术应用于信息检索服务平台，有效提高了信息推送服务的精准性．例如：王洋等人设计的用户画像系统利用用户日志中的浏览行为数据及爬取的相关数据，在分布式集群大数据平台上进行聚类分析，得出用户兴趣偏好，并为用户标记不同权重的标签[17]．用户画像方式既挖掘出了用户的隐性需求，又为系统平台的信息推送服务提供了更精准的依据．沈军彩设计的用户行为本体建模方式利用用户的信息查询行为数据，通过数学建模分析，生成“行为-主题分布”和“主题-词汇分布”模型，提取出用户的信息查询行为本体．进行信息推送时，则计算信息资源集合中各文档的关键词向量与用户行为本体匹配的程度，作为信息推送的权重值，实验证明了此方式能够有效提高信息推送的准确性[18]．

2.3 语言模型计量分析在信息检索系统中的应用

目前的语言模型主要是根据文本中各词项概率分布进行数学建模，如：统计语言模型、主题模型等．随着语言模型在自然语言处理领域的深入应用和发展，信息计量研究领域也开始将其作为研究和应用的一个重要方向，如：应用主题模型识别作者、机构间潜在的学术关联性；研究学术群体、学术社区的主题分布及其发展动态等．信息计量基于语言模型的研究成果在信息检索领域的应用，实现了从语义层面对文献内容、检索策略，甚至检索者兴趣的关联性挖掘，进而实现更准确的检索匹配和更有效的检索结果聚类等．

语言模型用生成概率评估一篇文档和一个查询之间的关联程度．例如：李进华等人论述了利用统计语言模型实现的相关性概率检索模式．该模式首先统计词表中各词出现在某篇文献中概率，建立起各篇文献的语言模型；在每次检索时，计算查询词序列生成各篇文献语言模型的概率，依据查询生成概率，按查询似然评分法给出检索结果[19]，实现了一定程度的语义检索．

LDA 是一种典型的文档主题生成模型，它包含“文档—主题—词”三层结构，通过对文档的词频向量进行数学建模分析，得出该文档潜在的主题分布．阮光册等人将LDA 主题模型与K-means 聚类算法结合，对检索结果进行聚类．首先在检索结果中，基于LDA 主题模型得出各篇文档的潜在主题的概率分布信息；然后基于该分布信息对检索结果进行聚类分析，并提取聚类标签对类簇进行标识[20]．沈军彩设计的用户行为本体模型也是运用LDA 主题模型的方法，对用户查询行为数据进行的建模，得出用户查询行为的主题分布[18]．

针对学术网络的主题建模，Jie Tang 等人提出超越单独为某一类节点建立LDA 模型的分离建模方式，在论文集上依据“作者—主题”的关联概率、“主题—词”的生成概率和“主题—出版物”的生成概率，建立论文的异构主题模型，并将其应用于学术信息搜索系统的随机游走框架．在游走排名分值上迭加由该模型计算出的主题相关性分值；或在游走路径上嵌入主题路径，并按该模型计算游走主题路径的概率[21]．

3 信息计量学在信息检索中的应用研究发展趋势

3.1 信息计量研究进展为信息检索系统的发展提供理论支持

在信息技术网络化、智能化的发展趋势下，信息计量的空间和语境不断扩展，发展出新的计量指标和模型．新的计量指标和模型在信息检索系统的应用顺应了新时代用户的新要求，推动了信息检索系统的发展．例如：①协同过滤：信息计量的对象已由单一的文献体系和封闭的资源平台，扩展到多元化的、开放的在线平台和社交网络，催生了替代计量学语境．信息检索系统借助替代计量学指标和平台，形成了基于社交网络数据的信息过滤机制，利用群体智慧筛选信息，提高信息检索效率．②数据驱动：信息计量的数据范围由单一平台的内容数据，扩展到分布式集群平台的内容数据和用户行为数据，形成了数据挖掘、用户画像、数据可视化等大数据分析语境．数据挖掘和可视化技术的应用，促成了检索系统对内容数据中隐含的关联性挖掘和对复杂数据的呈现方式．用户画像等技术提高了信息检索系统用户交互过程的效率和信息推荐的精准性．③语义搜索：信息计量层次由信息的字符层面，深入到信息的语义层面，产生了语言模型、领域本体、知识图谱等语义分析语境，这些理论和技术的应用帮助信息检索系统实现了基于语义的智能检索功能．

3.2 人工智能时代信息检索领域的发展目标对信息计量研究提出新要求

随着人工智能时代的到来，信息检索系统向着智能化检索的目标发展，现阶段主要包括：①基于语言模型的语义检索，②基于推理机制的预测性检索，③多媒体信息检索等．

预测性检索是指信息检索系统可以预测每个用户查询背后的意图，并给出相关的检索结果[22]．用户在为解决某些实际问题而进行信息检索时，常常困于如何清晰地描述具体的信息需求．预测性检索通过对用户检索行为数据的深度学习，运用神经网络算法，推理用户的意图，为用户筛选出符合其需求的信息资源[23]．

多媒体信息检索是指实现对自然语言、图像、音视频等非结构化数据的检索，其关键是实现对非结构化数据的特征识别和数据处理．随着人工智能领域机器学习技术的发展，利用AI 技术构建机器学习系统，可自动分析和汇总大量非结构化数据和自然语言文档，并能精简和加速对音频、图像和视频等非结构化数据的密集而耗时的分析任务等[24]．各种人工智能深度学习算法的应用为实现多媒体信息检索铺平了道路．机器学习或深度学习，追根究底都是以数据的研究为基础的[25]，多媒体信息检索是在对大量密集的数据样本进行深度学习的基础上实现的．

语义检索、预测检索和多媒体信息检索，都是基于对大量数据进行建模分析和计算而实现的，如何构建数模和选择算法，需要跨学科研究解决，这也对信息计量学的研究和突破提出了新的要求．信息计量学是一个不断发展的学科，它一直追随着信息社会的发展变化而不断拓展自身的研究空间和研究语境，在人工智能的新时代中它必将迎来新的发展，也将在信息检索领域中产生新的应用成果．