基于CIPP 模式的中国智库成果质量评价研究*

2023-09-20 08:15韩瑞珍杨思洛

智库理论与实践 2023年4期

■ 韩瑞珍杨思洛

1 武汉体育学院新闻传播学院武汉 430079

2 武汉大学信息管理学院武汉 430079

1 前言

智库作为能够对公共政策制定产生影响的咨询机构，承担着推进国家治理体系和治理能力现代化、增强国家软实力的战略任务。当前，党和政府面临世界格局之变、国际秩序之变、科学技术之变、中国全球化发展崛起之变、社会形态及发展范式之变[1]：对内，担负着实现中华民族伟大复兴的历史使命；对外，需要发出中国声音、体现中国气派，推动构建人类命运共同体。在“世界百年未有之大变局”的激荡时刻，无疑需要智库积极、主动地贡献高质量的研究成果，为前瞻性、全局性、战略性和民主性的科学决策提供研判和支撑。

然而，现有的智库成果通常难以匹配智库被赋予的时代使命和任务。一方面，智库整体缺乏高质量的研究成果，智库成果创新力不足，智库成果同质化、形式化现象严重，造成资源的极大浪费与决策的低效率；另一方面，即便是知名智库的研究成果质量也是参差不齐，在政策影响力和国际话语权提升上亦有较大的发展空间。评价具有引导功能，有什么样的评价指挥棒，就有什么样的智库建设导向[2]。评价引领和促进智库成果质量全面提升是智库在大变局时代应时而动的当务之急。本文基于CIPP（content evaluation（背景评价）、input evaluation（输入评价）、process evaluation（过程评价）、product evaluation（结果））评价模式理念，尝试构建科学、合理、全面的智库成果质量评价体系，为智库成果质量树立标杆，为相关管理部门进行有效管理和资源配置提供依据。

2 国内外相关研究进展

智库评价源于西方发达国家，评价方法主要采用定性研究、定量研究、定性定量结合研究，例如，安德鲁·里奇(Andrew Rich）采用定量分析方法分析了不同类型智库实现影响力的行为差异[3]。从智库评价的主体来看，国外智库主要有3 种评价模式：①以市场主导评价的美国模式、以协会等第三方主导评价的德国模式、以政府主导评价的日韩模式[4]；②评价对象通常分为综合性智库评价和分类智库评价，如麦甘团队发布的《全球智库研究报告》是全球性、综合性的智库评价，美国全球发展中心专门针对美国高校智库进行排名，英国智库研究机构则对智库财务透明度进行评价；③评价内容主要集中于智库影响力的评价和排名，而有关智库成果的评价通常作为其中一项重要指标。

目前，国内较为系统的智库成果评价主要集中在第三方评价机构对智库的评价之中。由中国社会科学评价研究院起草的《人文社会科学智库评价指标体系》[5]于2021 年5 月正式发布，其明确规定了“公开、客观、公正、科学、独立”五大评价原则，设置吸引力、管理力、影响力三大一级评价指标，14 项二级评价指标，为社会科学智库评价指明方向。此外，上海社科院智库研究中心、南京大学中国智库研究与评价中心、浙江工业大学全球智库研究中心等研究机构将智库测评的理论、方法和评价体系应用于智库评价，各评价机构构建了不同的评价指标体系，形成各自的特色，不断丰富和完善智库评价体系。各省市政府部门牵头举办的优秀智库成果评选活动，是评价具体应用之一。例如，湖北省教育厅开展的“湖北高校智库优秀决策咨询研究成果”评选；湖南省社会科学院组织的“年度十大智库创新成果”评选；天津市市委教育工作委员会、市教育委员会组织的“天津市年度高校智库优秀决策咨询研究成果”评选等。这些评选活动激发了智库研究人员的热情，促进了高质量智库成果产出和效用发挥，但是这些评选活动尚未形成系统的评价体系，也没有形成常态化的评价机制。

根据对国内外文献调研发现，智库成果评价通常涵盖在智库影响力评价体系中，研究者过度关注智库影响力，极易误导智库和社会媒体追逐形式上的宣传造势，而忽视了智库成果质量这一智库生存和发展最为本质的要素。专门的智库成果评价也存在一些问题，如未根据智库成果的差异性进行分类评价，评价指标过度强调采纳、批示，评价体系缺乏引导性等[6]。在评价指标的设置、评价方法的选用、评价数据的获取等方面需要进一步商榷、探索并逐步完善。

3 智库成果质量整体评价模型构建

评价模型是智库成果质量评价的基础和支撑，评价指标是为整体评价服务的，确定评价指标体系前，需要确立智库成果质量评价模型。为克服评价单一视角，提升评价的科学性与可靠性，基于系统思维从影响评价的各要素、关系和结构等方面考虑，本文设计了包含评价主体、评价过程、评价对象的智库成果质量的评价模型，如图1所示。

图1 智库成果质量的评价模型Figure 1 Evaluation model for the quality of think tank achievements

评价主体应纳入政府主管部门的力量。中国特色新型智库最根本的特征是党管智库，政府主管部门担负组织生产和监管质量的责任[7]。智库成果严把质量关，旨在增强服务党和政府决策的针对性和时效性。因此，政府主管部门作为主体责任人和利益相关人理应纳入评价主体一方。

在整个评价过程中，智库成果质量评价指标体系的设计是核心和重点。目前的评价体系以单一的结果评价为主，评价目的也局限于证明或优选，而忽略了评价的真正价值和意义，即评价是为了更好地促进质量提升，并为管理者提供决策信息服务。为弥补单一评价视角的不足，本文借鉴了CIPP 评价模式理念。CIPP 评价模式是由美国学者斯塔弗尔比姆（Stufflebeam）提出的，是一个指导人事、产品、机构或系统评价的综合框架，包含背景评价、输入评价、过程评价和结果评价[8]，该模式核心理念是“评价最重要的目的不在于证明，而在于改进”。智库成果质量高低受到研究人员、环境、资源、研究过程、受众需求等诸多因素的影响和制约，将这些因素纳入评价指标，契合CIPP 评价模式理念，评价结果直接体现质量问题归因，实现“以评促改、以评促建”的评价目的。同时，评价指标体系不是孤立存在的，与评价标准、评价环境、评价规范、评价类型、评价流程和评价方法等各体系之间相互联系、相互作用，共同构成评价的有机整体。需要注意的是，不同评价主体面对不同评价对象，评价侧重点也有所不同，质量评价遵循分类评价原则，在评价价值标准、评价指标设计上体现差异性。

3.1 智库成果质量评价标准

智库成果研究主要依托社会科学的知识体系和研究方法展开[9]，智库成果质量的评价沿用社会科学成果评价标准，分为真理性标准和价值性标准两类。

真理性标准是人文社会科学研究成果评价的首要标准[10]。智库成果质量评价的真理性标准是科学性、创新性和逻辑性。其中，科学性是指研究内容反映事物本质和规律，研究结论是可以检验和证伪的；创新性是指对现有理论知识、思想观念、思维模式等进行发展和突破，提出新的思想，解决新的问题；逻辑性是指智库成果研究内容符合逻辑的严密性，文本形式符合逻辑的结构性。

价值性标准重在实际应用，指的是功利性、实用性价值。智库成果质量评价的价值性标准包含政治价值标准、理论价值标准和社会价值标准。其中，政治价值标准是由智库成果的本质属性所决定的，体现出政府决策这一政策活动包含民主政治与民主参与的核心价值；理论价值标准是智库成果学术性的要求，进行基础研究的智库成果要有理论的创新和突破；社会价值标准在于智库及其成果的转化能够引领社会思潮、引导公共舆论，以及受智库成果影响的公共政策的实施所带来的社会效益。

智库成果并非纯学理研究，要实现智力赋能决策活动与民主参与价值标准的耦合统一，评价智库成果质量需兼顾和融合两种评价标准。

3.2 智库成果质量评价环境

科学评价作为社会系统的子系统，必然受到社会环境因素的影响和制约。影响智库成果质量评价的环境因素主要来自政治环境和文化环境。

首先是政治环境。政府信息公开程度、信息披露制度完善程度，以及政务工作透明化、完善化程度等政治环境直接影响智库成果评价。其次是文化环境。文化环境不只是“人情”，但“重人情、讲关系”的传统会影响评价的公平和客观，因此需要建立科学的评价体系，去规范和监管。因此，一方面，在评价中树立“公正、公开、公平”的规则意识，利用定量评价的客观性和公开性弥补定性评价中人为因素的干扰；另一方面，要建立全面的智库成果质量评价规范体系，对评价主体和评价行为进行有效约束和监管。

3.3 质量评价规范和程序

质量评价规范是对质量评价主体和评价过程的监督和管理，质量评价会受到各种环境和人为因素的影响。在评价中，难免会有失公正和客观，严谨、完善的质量评价规范是进行科学、客观、公正评价的基础和保障。质量评价规范一方面，是来自外部相关政策法律、行业规范的约束以及社会监督等；另一方面，是来自评价机构内部的质量控制和管理，包括完善的智库成果评价制度体系，以及从技术和行为两个层面实施的智库内部质量控制机制。

智库成果评价程序包括准备、实施、得出结论、结果应用和信息反馈等一系列的环节。第一步，确定评价对象并进行分类。对某一智库全部成果进行评价，通常是自身改进型评价；对多家智库代表成果进行评价，则是评优排名的评价。不同类型的智库成果面向不同受众、不同目的，不能采用统一标准进行评价和衡量，需要依据每种类型的独特性和针对性进行分类评价。第二步，进行成果查新，以确保评价对象的学术规范和原创性。第三步，最后的评价程序依次是评价指标选取、方法确定、专家遴选、结果公示与监督、评价意见反馈、评价申诉、评价时间、评价周期等事项。

3.4 质量评价方法

依照不同的评价主体，质量评价有3 种评价方式，包括：上级主管部门的审核、组织内部的自我评定以及独立的第三方机构测评。每一种评价方式都有相应的评价方法。智库成果不同于物质成果，又区别于一般的思想成果。鉴于智库成果的特殊性以及评价的复杂性，评价方法的选用也较为复杂，需要借助多指标综合评价方法，即将反映智库成果质量的多个指标信息联合起来得到一个综合指标，据此反映智库成果质量整体情况[11]。构建智库成果质量评价体系时，充分利用比较主成分分析法、层次分析法（the analytic hierarchy process，AHP）、主观评定法、模糊综合评价法等多指标综合评价方法，开展定性研究与定量研究相结合、主观评价与客观评价相结合的评价研究。

科学、高效的智库成果质量评价依赖智库成果评价体系中的各环节要素，在各种先进信息技术辅助下实现有机融合、共同作用。例如，培育和净化影响质量评价的环境体系，建立和完善约束智库成果质量评价主体和评价行为的规则体系；构建科学合理的智库成果质量评价指标体系等，以确保评价的顺利运转和评价结果的公正、可信。

4 智库成果质量PRICE 评价指标体系

评价指标体系是智库成果质量评价的核心内容和关键环节。智库成果质量评价存在评价对象的多样性（包括研究报告、图书、论文等）、评价层次的差异性、评价数据的难获得性等特征。为更好地反映和实现评价目标，应在独立性、分类评价、代表性以及动态性等评价原则指导下科学设计和选定评价指标。智库成果质量评价指标体系如表1 所示。

表1 智库成果质量评价指标体系Table 1 Evaluation index system for the quality of thinktank achievements

4.1 指标体系的构建流程

科学、合理的评价指标体系是进行智库成果质量评价的基础和前提。首先，遵循相关指标体系构建原则，采用文献调研法、智库机构咨询和专家访谈等方式初步确定指标框架，多种方法的运用可以有效避免指标中可能出现的偏颇；其次，通过问卷调查法、指标因素法、层次分析群策法等，对初始的评价指标进行筛选，并确定权重；最后，确立指标框架。智库成果质量的评价指标体系具体构建流程见图2。

智库成果质量受到由多重具体要素构成的复杂系统的影响。智库成果质量评价具有多维度性，评价目标具有多层次性。为适应多维度和多层次的评价要求，依据智库成果质量要素的复杂程度，采用由准则层（一级指标）、领域层（二级指标）和单项考核指标（具体观测点）构成的树状式指标体系结构。

4.2 评价指标的遴选与分析

智库成果有不同的类型，从成果形式上，可分为咨询研究报告类、专著图书类、期刊类、简报简讯类、论文类、听证会证词类等智库成果；从研究内容上，主要分为对策建议类、应用理论类、分析预测类、政策阐释类等类型。不同的智库成果具有不同的特点，有不同的质量要求，因此，应有相应的指标体系。基于同类比较、分类评价的思想，以及考虑到样本的代表性和数据的可获取性，针对公开出版发行的研究报告类智库成果设计指标体系。基于CIPP 评价模式，结合影响智库成果质量的关键要素，确定5 个一级评价指标（准则层）：环境支持（environment）、资源保障（resouce）、内容质量（content）、过程监管（process）、影响效果（influence）。其中，环境支持对应背景评价，是指在特定的环境下评定成果产出的背景、资源和机会；资源保障对应输入评价，对达到目标所需的条件、资源等进行评价，其实质是对成果质量的保障性和效用性进行评价；影响效果对应结果评价，是对成果目标达到、智库功能实现程度所做的评价；考虑智库成果的知识性，增加内容本身质量指标，实现智库成果的全程评价、过程评价和反馈性评价。五个一级指标的首字母可以组合成英文单词“PRICE”（价值），契合了智库成果质量评价的内涵价值。

对于二级指标（领域层）的确定，参考智库成果特征、质量基本要素等，对智库成果的选题、问题分析、信息分析、策略与验证、风险评估等步骤进行分析，遵循评价指标设定原则，选择有代表性、可获得性和简便的指标。同时，结合智库成果类型的特点和要求确定指标的范围，利用频度统计法对国内外相关文献进行频度统计，选择使用频度较高的指标[12]。在初步选出评估指标的基础上，依据专家咨询的反馈意见对指标进行修正调整。基于上述频度统计法、理论分析法和专家咨询法三种方法，设计具有科学性、代表性的二级指标体系[13]。

4.2.1 环境支持高质量的智库成果离不开优质智库环境的支持，包括智库内部环境和社会整体环境。出于评价的简便考虑，仅设置与成果质量密切相关的内部环境的二级指标：成果质量管理制度、文化氛围以及智库规模和层次。智库成果研究者的知识层次、认识深度、日常习惯等参差不齐，质量意识也相差甚远[14]。人的意识决定行为，行为决定工作质量，也直接决定了成果质量。质量管理制度以外在力量强制和约束智库研究人员注重成果质量，是形成良好质量意识的硬性保障。质量文化氛围提供了一种软性的、内在的、情感性的约束。两者有效结合有利于形成研究者优品、精品质量意识。智库的规模和层次在一定程度上代表智库的水平，也是智库成果质量的重要基础，特别是对于一些知名的大型智库，其成果质量也往往更有保障。

4.2.2 资源保障人力、物力、财力等资源是智库研发成果的前提。研究人员水平、智库的信息化

以及研究经费保障直接影响智库成果的质量，因此，遴选这三项作为评价的二级指标。研究人员的研究能力、政策预判和分析能力，研究团队学科、专业结构等，是研究人员素质和水平的重要观测点。在网络环境下，智库的研发也从简单原始的手工作坊式转变为智能化、自动化和网络化的团队研究模式，因此，智库的信息化水平相当重要。研究经费是保证智库正常顺利运转的必要条件，只有稳定充足的资金，才能建设科学完备的信息平台，才能流畅运用和扩大传播渠道进行广泛而深入的产品推介，并且有助于吸引全球顶级人才的加盟和合作。这些是产生高质量思想成果的重要因素。

4.2.3 过程监管过程监管主要评价智库成果研发过程中的相关因素。科学、严谨、规范的研究过程是高质量成果的基础。遴选研究选题与规划、信息源与研究方法和成果传播过程作为二级指标。研究选题的观测点集中在针对性和前瞻性，选择党委政府和社会民生亟待解决的重大课题，预测事关国家全局的重大问题及未来发展变化态势[15]；信息来源的真实性和可靠性、研究方法的科学性与适用性是智库成果研发的关键一步，故被纳入研究过程评价中，以切实保障成果源头质量；传播过程是智库发挥效用、实现影响的重要环节，多元、畅通的传播渠道，以及灵活、有效的传播方式是传播过程质量的主要评测点。

4.2.4 内容质量内容质量是智库成果质量的核心，主要从成果内容、成果结论和成果结构三个方面测评。其中，成果内容是否具有思想性、价值性和创新性是内容质量的重要观测点；智库成果中有针对性的应急预案和战略部署关涉国计民生，结论应精准可行、经得起实践的验证；智库成果结构要以方便用户使用为目的，论据充分，论证严密，语言通俗精炼。

4.2.5 影响效果影响效果是检验智库成果质量的重要标准，依据智库的功能，遴选成果政策影响、成果学术影响和成果社会影响作为二级指标。智库成果主要为政府部门决策服务，相关政策影响主要是指智库成果被采纳或被领导审阅和批示，或引起决策层固有思想模式改变等；虽然智库成果并不是单纯的学术研究，但也应体现其学术价值，为后续研究提供参考和借鉴；成果社会影响可以从被媒体广泛报道，引起社会价值的积极变化等方面测评。

4.3 评价指标权重和评价等级集

在权重的设置上，邀请专家针对智库成果评价侧重点，利用层次分析法进行权重分析。3 位专家分别来自智库机构和高校，专业领域分别是智库管理、科学评价、经济管理领域。在指标体系中，共有3 位专家参与递阶层次结构中12 个评价指标权重系数的确定[16]。基于群决策思想，对3 位专家的判断结果进行算术平均加权运算得到最终的权值（见图3）。

图3 智库成果质量的评价指标体系及权重Figure 3 Evaluation index system and weight of think tank achievements’ quality

5 研究报告类智库成果质量评价实证

5.1 评价样本简介

从智库的代表性、权威性以及成果数据的可获得性考虑，研究选择3 个不同类型的智库，分别是政府官方智库代表“X”、社会科学研究院智库代表“Y”以及高校智库代表“Z”。基于同类比较的原则，从这3 个智库的研究成果中选取关于区域发展的智库成果作为评价样本，载体形式为研究报告，出版的年份为2020 年，分别以《X报告》《Y 报告》《Z 报告》指代。

5.2 评价具体过程与方法

依据评价指标设计智库成果质量评价表（模糊综合评价法问卷调查表），依据指标程度的层级确定相应的等级。质量管理相关规章制度依据其完备程度划分为非常完备、比较完备、有相关制度和没有相关制度四个层级，分别对应的评价等级为优秀、良好、中等、较差；研究选题指标中选题与国家内政外交战略全局密切相关的重大问题等级为优秀，重要问题则为良好，一般问题则为中等，选题滞后或无关选题则为较差。本研究特邀请了经济管理领域与智库研究领域的5 位专家进行评价。

评价调查结果的处理采用了层次分析法和模糊综合评价法相结合的方法。为满足对后期评价结果进行单值化处理的要求，需要为各个评价选择等级的隶属度赋予相应分数，设计的分值向量集C=(5,4,3,2)，分别对应即优秀、良好、中等、较差4 个等级；将专家评价的结果导入评测表，并计算得到其综合评价结果。考虑到在实际的评价中，智库成果各个指标均得到5 分，才能获得优秀等级，这显然是不合理的，而且综合得分通常不是整数，因此，本研究以分数区间来对应相应的等级（见表2）。

表2 3 个报告类智库成果的综合评价得分Table 2 Comprehensive evaluation scores of threereporting think tanks achievements

评价采用定性与定量相结合的方法。对于定性指标（如选题的重要程度、内容的创新性与成果结构完整性等），由评价专家依据自身专业学识和经验进行主观评判；对于定量指标（如成果被引用、被报道的次数等），则利用搜索引擎挖掘和分析相关数据并并进行客观评价。评价信息数据获取来源主要有智库官方网站、主流媒体、搜索引擎、学术数据库、网上书店等。

5.3 评价结果分析

通过上述定性（专家主观评判法）与定量（数据挖掘、数理统计方法）相结合的综合评价方法，得出的结果如表2 所示。智库成果质量的评价综合得分是由各个指标得分根据数与量的衡量汇总的结果；智库成果指标的得分以专家根据各观察点的判断得出，总指标得分是根据各项指标的权重，加权汇总后得出的分值。研究结果表明，3 项成果得分都不太高（表3），其中，《X 报告》和《Y 报告》的质量等级为良好，而《Z 报告》则得分较低。本文所选择的3 家智库是3 种不同类型中较高水平的智库，在一定程度上代表了中国较高水平智库的成果质量，理应产出更高质量的成果，为各级政府决策提供高水平的智力支持。但是，从3 家智库成果质量得分可以看出，智库成果质量与智库的地位和责任担当尚不能完全匹配，与党和政府的期许仍有一定的差距，这也反映出中国智库成果整体质量水平有待进一步提升。

表3 3 项成果具体指标评价得分Table 3 Evaluation score of specific indicators of threeachievements

详细对比分析每项智库成果的具体指标得分情况（表3），可以看出，3 家智库成果存在的问题主要有三方面。一是环境支持指标分值低。智库缺乏专门质量管理和质量控制的各项规章制度，尚未形成重视质量的文化价值理念和氛围，一定程度上反映出智库质量意识普遍相对较为薄弱。二是过程监管指标中的成果传播过程普遍得分较低。3 家智库只在智库官网和购书网站上查询到相关信息，鲜少能从其他新闻媒体、社交媒体、新书推介会、智库峰会、论坛等渠道获取成果的介绍或推广信息。智库对成果的传播和推介工作重视程度不足，宣传推广成果力度还远远不够。三是内容质量上还有很大的提升空间。智库成果多是短期的、被动的和应对的，缺乏战略性、前沿性、原创性研究成果，在对接政府需求、提出切实可行的政策建议方面仍有待进一步改进和提升[17]。四是智库成果的影响力不高。智库成果影响力的大小取决于智库本身以及智库成果从生产到传播再到利用各环节的质量水平，并受到学术环境、政治环境和社会环境的影响和制约。因此，提升智库成果的影响力，依赖智库、党政机构、学术界、媒体、社会之间的协调合作、共同作用。

6 结论

智库成果不同于经济性成果，也有别于一般思想性成果。智库成果的特殊属性与智库成果质量影响因素的多样性决定了智库成果质量评价的多维性和复杂性。本研究初步构建了智库成果质量评价体系。并进行了可操作性的模拟评价。但仍然存在以下问题，需要在后续的研究中不断完善和拓展。

一方面，本研究中指标权重的确立是通过AHP 群策法进行的，层次分析法是一种主观赋值法，更多的是专家定性认识，缺乏定量数据的支撑，因此，指标权重的赋值还缺乏科学、权威的实验性验证。后续的研究中，可以利用主客观综合集成赋值法使指标权重的设置更加科学、合理。另一方面，因为时间和资源的限制，本文选取3种不同类型的智库成果进行可操作性的模拟评价，单类型、少样本的评价结果只是管中窥豹，未能呈现中国智库成果整体质量水平。后续的研究中，会进行多种类型、大量样本的智库成果质量评价分析，使所得的评价结果更加真实、可信、客观、全面。