国际职场汉语口语能力测试体系的构建

2023-11-14 12:48吴伟平

语言战略研究 2023年6期

吴伟平

（广东外语外贸大学外国语言学及应用语言学研究中心广东广州 510420）

提要 “国际职场汉语口语能力测试体系”是“中文+职业”热潮下国际中文教育界和产业界携手研发的测试工具，是汉语二语教学中语用为纲教学与测试模式在产业界的落地成果。之所以研发这一测试，是因为职场中的语言能力最终只能在具体的语境中体现，而该测试正是在职场语境中直接评估语言能力。现阶段该测试体系以口语测试中的开放型题目为题库基础，包括试用中的通用题库和建设中的专用题库两部分。该测试体系将职场汉语口语能力分为6 级，前3 级为职场通用，后3 级为职场专用。评核员根据考生口语产出，对其口语能力的评判直接影响该测试的效度和信度，评核员培训的最终目的是把评核标准内化，并根据这些标准对每一位考生的口语水平做出一致和稳定的判断。该体系有语别化测试版本，用考生的母语解释考试要求，要求考生根据测试要求用汉语回答，以此保证测试效度。该测试对语境、功能和内容这3 个维度的关注，可以引导中文二语学习者注重语境在人际交流中的关键作用，培养汉语语感，使其汉语口语产出在“结构正确”的基础上，尽快过渡到中文母语者认同的“文化得体”。

近年来，“中文①从“对外汉语教学”到“国际中文教育”，这一领域因为学科名称本身的变化，给相关研究和讨论带来了诸多困惑和不便。本文根据目前的趋势，用“中文”统指书面语和口语，但在提及原有名称、具体成果，或需要强调口语的时候用“汉语”。+职业”成为国际中文教育的研究热点，并从理论探讨转而付诸实践，包括各种职业汉语课程和不同类型的大型测试，比如国家职业汉语能力测试和医学汉语水平考试（MCT）。本文介绍的职场汉语口语能力测试体系，是学界（国际中文教育）和业界（科技产业园）携手开发的阶段性科研成果之一。文中以该成果研发过程中的问题为导向，探讨如何通过职场语言能力测试的引导，帮助职场汉语二语使用者更好地关注语境、功能和内容这3 个维度在人际交流中的不同作用，更自觉地在汉语使用的过程中培养语感，使其口语产出在“结构正确”的基础上，尽快过渡到母语者所认同的“文化得体”。人际交流是否得体是语用学研究领域一直关注的问题。如何让“得体性”成为语言测试体系的一部分并纳入评核框架，是所有大型测试工具研发的难点。鉴于汉语二语学习者口语产出的语用能力测试并无先例可循，本文的讨论以实例为基础，聚焦测试体系构建的理念、题目的分类和题库的建设、评核的等级系统、评核员的培训和标准的落实，以及语别化测试的利弊。因为项目仍在研发试用阶段，文中的观点和建议主要目的是开拓思路，为这一领域的发展添砖加瓦，或许也可以成为同一方向研发团队的他山之石。

一、引言：国际中文教育的新天地

国际中文教育近年来围绕“中文+职业”这一理念有很多不同的探讨。不同的学者从不同的层面和角度讨论如何让语言学习走出校门、走进职场，探索语言技能和职业技能的获得之间到底如何互补。有学者从“推动国际中文教育和职业教育融合发展”及“促进中外民心相通”的角度解读这一问题（教育项目研究组2021）。有学者认为，我们要立足国际中文教育和职业教育基本属性，以海外需求为前提、以中文教学为基础，推进“中文+职业技能”课程标准、教学标准、职业中文水平考试研发等方面的创新发展。②该内容引用自于天琪2021 年9 月26 日中外语言交流合作中心“国际职业课程建设研讨会”主旨发言。有学者开始研究语言的经济属性，呼吁“中文+职业教育标准”走出去，认为中文可以借中国走向世界的大势“跟着中国产品或工程走出去”，也可以“带着中国产品或工程走出去”。③该内容引用自李宇明2021 年9 月27 日国际中文教育励学大讲堂第一讲“语言的经济属性与国际中文教育”主题讲座。

新的领域往往带来新的问题和挑战，如何评估职场汉语二语使用者的语言能力就是其中之一。本文介绍的测试体系，是探索汉语二语教学中语用为纲教学与测试模式（吴伟平，冯胜利2020）如何在业界落地的尝试。语用能力测试涉及对语言能力的定位，对语言与文化之间关系的深入研究，对语言任务的分类分级以及对交际能力的量化，历来是测试领域十分关注的问题（Hymes 1972；Bachman &Palmer 1996）。国际职场汉语口语能力测试体系的研发，首要的是必须厘清“职场汉语”这一概念。

首先，职场汉语是汉语的一部分。跟日常汉语相比，它在内容上或许有某些专属特征，但在语言形式上并没有本质上的不同。沿用多年来大家耳熟能详的ESP（特定领域英语），我们可以把职场汉语归入CSP（特定领域汉语）一类。其次，在CSP 这把大伞之下，我们还必须区分职场汉语和职业汉语。虽然有人觉得这两者是一回事，而且常常混用，但从测试研发的角度看，它们之间有很大的不同。前者的重点是“汉语”，侧重在工作场景中常见的语言交流；后者的重点是“职业”，关注的是某一特定的职业所需要用到的某些特别的语言。在构建语用为纲测试体系时，我们采用了“职场”，因为“职业”太多太细①《中华人民共和国职业分类大典》对职业进行了分类，包含8 大类、75 中类、434 小类，共计1481 种不同的职业。，把测试与具体职业挂钩的话，在实际生活中很难落到实处。

我们可以举一个例子来说明这一问题。高铁走出国门，相关的语言服务必须包括这一行业的口语能力测试。用“职场汉语”的话，我们的重点是了解从事轨道交通行业的工程人员能否听懂一些科普性的高铁知识，能否根据需要用汉语进行一些跟工作相关的沟通交流。用“职业汉语”的话，这个重点就会发生变化，我们的目标就会包括用汉语进行与某个具体职业相关的技术性探讨，需要用到与职业相关的专业知识。比如跟列车空气动力学相关的职业，跟机车车辆震动有关的专业词语可细分为横向震动、垂向震动、摆滚震动、浮沉震动等，这些词语和相关专业知识可以在高铁“职业汉语”的教学和测试中出现，但并不是“职场汉语”的目标。

在研发过程中，另一个必须厘清的问题是考语言还是考专业。虽然研发团队从一开始就有了职场汉语测试考的是“语言能力”，而不是专业知识和业务能力的共识，但一碰到具体问题，就发现事情没有那么简单。因为在不同领域中，什么算“专业知识”有时候是一个很难说清楚的问题。世界上有很多为某种特定目标而设计的语言测试（Test for Specific Purposes）（Douglas 2000），比如不同地区的教师、导游、医护人员，各个特定行业从业人员（会计、厨师、律师……）的语言资格考试。这些测试当然会涉及一定程度的专业知识，比起一般的语言测试，这些语言能力测试可能“专业”了一点，但这种考试绝对不是该行业的专业资格考试。简单地说，任何只通过“中医汉语”考试的人，显然是没有资格当中医的，因为我们不知道这个人是否拥有中医的专业资格；然而一个通过了“中医资格考试”的外国人，假如没有通过“中医汉语”的考试，恐怕也很难在中国挂牌行医。

上面的这种理解，可以在测试研发的过程中帮助我们排除干扰，在每一个具体题目上为测试内容守好底线。在职场汉语口语能力测试中，一个题目在内容上是否合适，我们可以把“语言知识”和“专业知识”看成一条连线的两端，通过题目所涉及的内容在这条连线上的位置来判断。问一个考生“皮草加工过程中要注意哪些问题”，或“什么是核电站的安全防护措施”，这种话题涉及专业知识，就算是没有语言问题的母语者也难以回答，在“语言知识—专业知识”的连线上，显然太靠近专业知识的一端，所以不适合作为职场汉语测试的题目。

二、国际职场汉语口语能力测试体系构建的理念

构建国际职场汉语口语能力测试体系，是国际中文教育“产品化思维”（崔希亮2023）的落地尝试之一，可以从必要性和科学性两个方面讨论。在国际中文教育领域，我们对外已经有了汉语水平考试（HSK），对内有普通话水平测试（PSC），还有以海外华人为服务对象的华文测试（王汉卫，等2023），为什么还要研发为职场服务的语言能力测试呢？从必要性上来看，是因为在职场我们更需要用直接考试来评估语言能力，而不是用间接考试来推断语言能力。举例来讲，我们想了解的是一个人能用不同的建筑材料建成什么样的房子，而不是看他的仓库里有什么材料。没有材料就没有房子，但有材料却不一定就有房子，这就是直接考试和间接考试的区别。职场汉语口语能力测试体系要求考生在测试中完成职场常见的语言任务，全卷都是直接考试的题型，直接对应试者的口语产出进行评估，并根据评核标准判断其口语能力，而不是通过应试者对语言知识的理解来推断其口语能力。必要性的另一方面，源于职场言语行为对具体语境的要求。一个人在实际工作中的语言能力，特别是言语行为的得体性，最终只能在具体的语境中体现。语用为纲教学模式最重要的理念之一，就是交际中的口语产出离不开语境，把这一理念用于测试，意味着语境因素在试卷构成和评核机制中都必须有一席之地，而这恰恰是目前所有大型测试所欠缺的。为了与时俱进，我们在研发面向语言教育测试产品的基础上，有必要尽快研发面向市场的国际中文教育资源（赵杨，万众2021）。

这种做法是否科学呢？我们可以结合具体的题型回答这一问题。测试中，常用的题型源于我们的日常生活，是我们每天都可能碰到的语言任务。例1 中的问题对职场中的每一个人来说都不陌生：

例1

（1）你为什么对这个工作感兴趣？

（2）跟其他申请人相比，你有什么优势？

（3）假如你成功应聘，你会如何开展工作？

在实际生活中，例1 的每一个问题都有与之相关的语境。回答任何一个问题，都是在特定的语境中完成特定的语言任务。测试的科学性可以从语言任务本身的真实程度和完成程度两个方面讨论。

先看真实程度。测试中的一切语境虽然都在求真，但世界上一切“真实”都是相对而言。实际上，在所有的测试中，任何人能做到的最多只能是“仿真”，而不是绝对的“真实”（Wu & Stansfield 2001）。假如我们考虑心理因素，则所有仿真模拟口语考试中的语境都是假的。最明显的就是考试中为了“仿真”而生造出来的“角色扮演”。考试中，几十分钟内让考生又当游客（抱怨某种现象），又当导游（介绍某个景点），又当经理（处理某个投诉）；上一刻还对老板恳求，下一刻就对下属做指示；才当了市民给市长提建议，转眼就成了市长给市民描述城市规划远景。在按照语境要求做这一切的同时，考生心里其实很清楚自己就是一个考生，除非是专业演员，几乎没有考生能在几秒钟内真正进入状态，按照测试要求演好自己的角色。在角色转换如此频繁，心理负担如此沉重的情形下，考生所提供的语料有多“真实”，的确很难说。说到底，我们通过考试所得到的也只是一个参照系数，我们所做的一切努力，包括在口语测试中带入语境，只不过是想缩小这个参照系数与现实的距离而已。用于测试的语言任务的真实程度与测试本身的科学性成正比，必须指出的是，假如连模拟语境都没有，那就回到了“裸考”年代（吴伟平2014），测试的评核标准也就无法包容语境因素。

再看完成程度。怎样才算“完成任务”涉及人的主观判断，对主观判断的质疑往往带来对科学性的怀疑。职场口语能力测试由源于生活和工作中的语言任务组成，评核员必须做出的第一个判断就是该考生“是否完成任务”。每个考生都有自己说话的风格和习惯，有人说话深而窄，有人浅而宽，可以说千人千面，各有千秋。实际上这是一个点与面的问题，在评核中不能简单粗暴地用一个“正确答案”排除其他可能。以旅游行业的测试为例，一个讲香港旅游景点的题目，有的考生只讲一点，但力求讲深讲透；也有考生喜欢包罗万象，但点到即止或一句带过。这两种不同的风格会给不少评核者带来困扰，使其难以进行判断。其实，题目的设计目的，是提供一个说话的平台让学习者充分表现自己的语言才能，只要考生言之有物，不管走的是“窄道”还是“宽道”，都可以殊途同归。充分理解测试的设计目的，不要把完成任务变成非此即彼的“对错”选择，是理解和接受测试体系科学性的关键。

三、国际职场汉语口语能力测试体系的题目系统和题库建设

职场汉语口语能力的试题侧重语言在实际场景中的应用，其题目跟普通的语言考试有所不同。测试题目是完成测试目标的手段之一，所有不同的题型，从测试学的角度可以粗分为侧重能力的直接考试（比如厨艺考试中让厨师直接做菜）和侧重知识的间接考试（比如让厨师写出菜谱）。在语言能力测试中，前者以开放性问答题和演讲题为代表，最能考出学生的实际说话能力，是直接考试的典型题型；后者的典型题型是多项选择题。从实用的角度看，考试的方法无所谓好坏，能达到目的就是好方法。口语测试中的开放型题目留给考生自由发挥的空间，要求考生根据实际（或模拟）语境回答问题或完成语言任务，是评估考生语言交际能力的高效度题型（吴伟平2008）。所有开放性题目从语言功能的难度、语境的分类和内容深广度这3 方面可以自成体系，研发团队根据这一共识，把这种聚焦产出的题型（类似于书面测试的作文题）作为职场汉语口语能力测试体系的题库基础。

职场汉语口语能力测试体系的题库建设，按设计蓝图，在职场通用部分把所有题目分成3 个级别，结合语用为纲的原则和职场的特点，用三维理念（语境、功能、内容）把每个题目打造成类似于生活中常见的语言任务。在语境和功能相对稳定的前提下，通过内容的变化，创建了涵盖职场语言运用代表性场景的职场通用大题库。跟特定专业有比较密切联系的题目，则按照职场本身的分类分别构建职场专用小题库。每一个题目其实就是生活中可能出现的语言任务，或者说，题库就是职场中的“语言任务库”。现阶段职场汉语口语能力测试体系题库包括试用中的通用题库和建设中的专用题库，简单介绍如下。

（一）职场通用大题库

低端的中级题目：本级题目包括图片题和非图片题，后者即文字题。图片题有3 个相对简单的语言功能，30 个与职场相关的语言任务和图片；文字题有7 个常见的语言功能，70 个职场通用、相对简单的语言任务。两部分题目的共同点是语境属于非正式场合。

高端的优级题目：本级题目包括10 个高端语言使用者常见的语言功能，由这些功能衍生而来的100 个职场相关的语言任务，包括正式场合的会议发言、业绩报告、远景规划、介绍或致谢。其内容在不同的职场中可以有所不同，考生在回答这一类问题时往往会用到一些常见的、科普性的专门词语。

居中的高级题目：这一部分的题目在难度上处于低端和高端之间，是功能最多、数量最大、日常生活中最常用的语言任务。在正常情况下，这是职场语言使用者最经常碰到的任务（整个题库呈中间大、两头小的橄榄型分布），包括15 个常见的语言功能和由这些功能衍生而来的300 个职场相关的语言任务。这些语言功能与不同的内容和语境相结合，产生了职场中常见的语言任务，其场景相对正式，多见于工作或商业来往之中，见例2。

例2

中文题目介绍（在语别化测试模式中，这一部分只供研发人员和评核人员参考，考生看不到）：网络直播卖货是当下流行的市场销售手段，你们公司决定采用这种新方式推广销售产品。今天公司领导层召开部门领导会议，讨论如何进行网络直播卖货，会议上大家围绕着“请网红做直播好还是公司高层领导亲自直播好”这一问题展开了讨论。作为市场部的负责人，请你谈谈这两种做法的利弊。

测试中考生听到和看到的题目（以英语背景学生为例）：Selling goods via live webcast is a popular marketing method at the moment, and your company has decided to use this new method to promote and sell products. Today, the company senior members are having a meeting attended by department heads to discuss how to conduct live webcast sales. At the meeting, the discussion centers around a key question: “Is it better for the Internet celebrities to do the live webcast, or the company’s senior leaders to do it in person?” As the person in charge of the marketing department, please explain to meeting participants the advantages and disadvantages of the two respectively.

（二）职场专用题库

这一部分的题目因行业而异，按设计蓝图，每个行业（比如轨道交通）有一个题库，库中的题目按功能分15 小类，每类有10 个不同的任务，每次组卷只随机从这一题库中抽取2 题。为了减少随机抽样时某道题目重复出现的概率，我们按技术部门的建议把每个专用题库中的题目总数保持在150 个左右。在内容上，这些题目与该行业知识和技能的联系较为密切，这是职场语言考试的特点之一，因为许多题目在普通口语考试中一般不会出现。考生在回答时往往需要用到一些常见的、科普性的专门词语和该行业的专用词语。从语言功能和语境这两个维度看，这一部分与通用题库的优级题目类似。

四、国际职场汉语口语能力测试体系的等级系统

关于语言等级的划分，不同的测试有不同的标准和侧重。先说等级的多寡。普通话水平测试有三级六等，香港考试评核局的教师语文能力评核有5 级，美国政府机构语言等级通用的有6 级（0 ～5），美国学术界多用美国外语教学委员会（ACTFL）的4 级划分，《欧洲语言共同参考框架》（CEFR）从A1 到C2，由低到高分6 级。再说侧重点。普通话水平测试和其他类似的水平测试都是知识和能力并重，但以交际为目的，属于直接考试的题型（如开放型问答题），在整个测试中权重较低。相比之下，口语面试（OPI）、模拟口语面试（SOPI），还有在模拟口语面试基础上研发的计算机电脑化口语测试（COPA）（吴伟平2008），这类测试的侧重点都是考生实际运用语言的能力。试卷中，形式上没有多项选择题，内容上也没有专门以语法、语音或特定词汇为“考点”的题目。

必须说明的是，标准参照测试的等级设定或修改必须注重考生的群体特征和所在地区的特点。比如ACTFL 以前的四级九等其实源于美国政府机构通用的6 级，但因为考试的主要对象是美国的大学生，比起政府根据外交和军事需要专门培养的语言人才，这些人的语言水平明显偏低，所以就把政府级别的低等级（0 ～3）拉长细化，分成初、中、高、优4 级，在初级和中级这两级中又分别细分出低、中、高3 等，这样就可再次甄别这一庞大人群的语言水平。

如前文所说，职场汉语能力测试本质上是用于专门用途的测试工具，强调语用为纲，主要的服务对象是在国内外不同的职场中需要用汉语进行沟通的专业人员，所以在制定标准时参考了北美（ACTFL）和欧洲（CEFR）的两个测试框架等级分类背后的基本概念，并结合国内普通话水平测试的等级进行了划分。整个体系一共分为6 级，前3 级为职场通用，每级再分甲、乙两等，后3 级为职场专用，不再细分。表1 对各级能力和语言特征进行了纲领性的描述。其中，N、I、A、S 分别代表北美体系中的4 个能力等级：Novice /初级、Intermediate /中级、Advanced/高级、Superior /优级。2021年开始实施的《国际中文教育中文水平等级标准》（GF 0025—2021）是所有汉语测试包括本测试体系的重要参照，已运作多年的两个大型普通话水平测试（普通话水平测试和汉语水平考试）虽然并非专门用途测试，但其口语能力标准关注的语言特征实际上囊括了汉语口语的特点，也是本测试体系在制定标准时的重要参照。既然本测试是国内学界和业界根据职场人士需要而合作研发，我们在制定标准的时候也参照了这方面的相关教材，比如各种零散的“商务汉语”教材和比较成体系的“国际职场汉语课程体系”（6 + N①这里6 指职场通用的教材1 ～6 册，N 指任意行业的职场，代指旅游、家政、高铁、烹饪或其他任何一个需要职场语言培训的行业（张博2021）。）。目前处于试用阶段的测试体系等级中，用T（通用）代表职场通用等级，用Z（专用）代表职场专用等级。

表1 职场汉语能力测试等级与语言能力描述（口语）

五、国际职场汉语口语能力测试的标准把握与评核员培训

如何根据考生口语产出准确判断其口语能力，关系到国际职场汉语口语能力测试体系的效度和信度，在测试的具体运作中，包括了两个方面的内容。一是该测试体系的评核标准本身；二是如何运用标准进行评核的评核团队素质，评核员培训的主要目标就是提高评核团队的素质，包括个体稳定性和准确性，还有团队成员之间的配合默契程度。在培训手段和方法方面，我们参照题型相同的COPA 的培训经验，制定了如下指引。

首先，评核员培训的最终目的，是让他们把评核标准内化，并根据这些标准对每一位考生的口语水平做出一致和稳定的判断。“一致”指的是任何时候都用同一把尺子（评核标准）来衡量不同考生的语料，而不是像一般科目考试那样，用不同考生的语料互为参照，这也是“标准参照”测试模式的原则；“稳定”的重点是把握不同等级之间的特征，评核员的个人风格或许有“严”“宽”之分，但在同样的标准下务必一严皆严，一宽皆宽，这样才能保证测试的信度。

其次，评核员的资格来自实践。培训只是通过讲解、举例、练习和现场点评让评核员了解操作方法，最后是否真正做到严格把关和客观公正，靠的是他们自己的不断练习和经验积累。在评核员培训过程中，需要强调的是“语言观、测试理念和具体操作”的重要性，培养他们在这3 方面的共识（吴伟平2008）。每个评核员都会碰到自己独特的问题，但在多年的培训实践中我们发现，有一些共性的问题可以提出来给参加培训的学员参考。评核员对重点把握不到位的现象，最突出的表现是有时前后不一、不够一致，有时宽严交替、不够稳定，其具体原因有以下几种。

第一，拘泥个体，忘记整体。参加评核培训的老师，除极个别外，往往都没有参与过类似口语水平测试研发的全过程。因为对全卷中每道题所起的作用并不是十分了解，所以看到有考生明明在个别题目中表现不好，可最后总成绩还是不错时，就会对题目甚至测试本身产生疑问。代表性的问题是：“这个考生这道题答得这么差，怎么还有可能是高级？”其实大部分模拟口语能力测试的理念（包括OPI，SOPI，COPA 和职场汉语口语能力测试体系）是总体大于个体。一个水平再好的人，包括母语者，在说话时也不可能每句话都说得又正确又得体。这也是为什么考生最后得到的能力等级是来自总分统计公式①总分统计公式源于20 世纪80 年代的SOPI 研发，是多年来通过实践总结出来的一套比较严谨的程序，其理念、运作方式和利弊需专文另论。，而不是所有题目成绩的总和。

第二，忽略考生做得好的地方。评核员队伍的主体是一线教师，老师的本能之一是改错，但培训中有人常常会抓住一个错误不放，这是水平测试评核的大忌。看一个人的语言能力，重点是看这个人能做什么，而不是不能做什么，这一点测试界虽早有共识，到了老师这里就因为平时的习惯性做法而难以落实。评核员应该关注的重点不是学生的错误，而是学习者“能做的”事情。深入了解CEFR 的“Can-do list”和相关研究（方绪军，等2011），有助于提醒大家时刻注意这一水平测试的根本理念。

第三，不知道怎样处理语言形式和内容之间的矛盾。负责口语测试评核的老师大部分来自语言教学第一线，对语音语法的准确性把握非常到位。相比之下，对考生回答中的内容和信息量就不够敏感，在聆听的过程中不善于主动、积极、准确地判断语言形式之外的重要因素。在日常的人际交流中，内容的权重远高于形式，学习者口语产出中内容的多样性，信息量的大小，篇章结构是否与该题的语言功能相匹配（比如同是语段，描述与劝说显然有不同的篇章结构，包括开头、中间和结尾），所用语言是否得体（按照人物之间的关系、场合的正式程度和内容的特点，以及这三者之间的相互制约，使用恰当的词语和语体表达意思），等等，都是评核员应该注意的问题。

最后必须提到的，是来自评核员自身习惯和理念的干扰。多年的能力测试评核员培训经验证明，不少教师仍然坚信当面对话是测试考生口语能力的唯一法宝，对人机对话或其他测试模式的信度、效度和可行性所知甚少或知而不信。多年来，测试界判断测试好坏的3 个标准之一就是“可行性”（practicality）（Harrison 1983），任何一对一、二对一，甚至三对一的口语测试模式恐怕都比较难达到这一标准。为了探索口语测试的不同模式，不少学者一直在从不同的方面做不同的研究和尝试。其实在测试领域早已有了专门比较面试和人机对话模式的模拟面试之间关系的研究，其中也论及单向取样与对话之间的区别，研究结果都说明这两种测试模式有着极高的相关系数（Clark 1988；Ke 1994；Kuo & Jiang 1997；熊敦礼，等2002），评核员在认识上如果更开放一些，来自内心的干扰就会少一些，培训的效果也就会好一些。

六、国际职场汉语口语能力测试的语别化版本

语别化有时候也称国别化，指专门为某一个特定的语言文化群体（或国家）设计的测试体系。每种语言都有自己的特点，针对特定群体而设计的测试必须有的放矢，考虑到其母语的特点和使用语言的习惯。对学习者和应试者来说，这种测试因为针对来自母语的正负迁移，少了来自“通用测试”常见的困扰，往往会起到事半功倍的效果。语别化测试的特点之一是考试的双语模式，以人机对话模式的汉语口语测试为例，为考生解释考试要求的工作语言是考生的母语（比如英美地区的考生用英语，泰国的考生用泰语），要求考生根据测试要求用汉语回答。这种双语模式的应用有以下几个理由。

其一，测试领域本身的发展和变化。不同学者对语言测试的发展有不同的分类法，20 世纪80 年代开始逐渐形成的共识，是测试本身的理念和重点已经产生了明显的变化（李筱菊2001）。以前人们认为语言考试就是考知识（语音、语法、词汇等语言结构），后来认为是考技能（听说读写），现在则越来越倾向于是考能力（语言在不同语境中的综合运用）。比起结构为纲的考题，语用为纲的题目和任务往往必须提供语境（人物和场合）、语言功能（从简单到复杂）和内容（从具体到抽象）3 个维度的信息。考生必须充分理解测试的要求，按要求完成语言任务是测试效度的保证。由于题目本身的要求无法用几个简单的词组或一两句简单的话表达清楚，只能用考生的母语作为测试的工作语言。

其二，语言水平测试所覆盖的水平等级。假如用同一试卷涵盖从初级到高级的所有考生，以不同国别学生的母语为工作语言才能有效地避免初级学生听不懂题目、看不懂题意的情形。在不考虑资源和研发成本等因素的情况下，也可以针对不同水平的考生开发不同的试卷，比如用3 个（初级、中级和高级）或更多的水平测试取代一个涵盖全部水平等级的试卷。在这种情形下，高级的试卷不用学生的母语很自然，初级的试卷用学生的母语也很合理。

其三，汉字本身的难度。为了让考生充分理解题目要求，听说方面的水平测试除了语音指令还有书面指引。大部分汉语二语学习者的读写水平，一般来说远低于其听说水平。以听力测试为例，假如题目要求不用学生的母语，初级考生出错的原因可能并不是题目本身，而是听不懂题目要求。口语也一样，考生说不好的原因可能是口语水平低，也可能是听不懂或看不懂题目，不知道自己要做什么，如何做。为了保证测试效度，不用考生母语解释题意时，设计者只能尽量使用简单的词语和语法。这种做法在结构为纲、特别是多项选择题的标准化测试时代或许还问题不大，但显然无法满足能力测试的要求。

下面举例说明职场汉语能力测试语别化版本中的具体操作和相关问题，见例3。

例3

不同语别化版本中的同一题目

P4C /粤语版本

你有一个厦门来的朋友很爱看书。他想知道你的喜好，请告诉他你喜欢看哪类书，有哪些书是你觉得值得看的。请你想一想，听完普通话提示后才开始回答。

P4E /英语版本

You have a friend from Xiamen who likes reading a lot. He is curious about what you like to read in general. Please tell him what types of book you like and what books are worth reading. Please think about it and answer after listening to the prompt in Mandarin.

P4J /日語版本

あなたのアモイから来た友人は読書がとても好きです。彼はあなたの好みを知りたいと思っています。あなたの好きな本のタイプ、おすすめの本について彼に話してください。北京語のヒントを聞き終えてから回答を始めてください。

P4K /韓語版本

중국 하문에서 온 친구는 독서를 즐겨 합니다. 그가 당신의 취향을 알고 싶어합니다.그에게 당신은 어떤 책들을 즐겨보며，권하고 싶은 책은 무엇인지 소개해 봅니다. 다음의중국어 제시를 잘 듣고 대답을 시작하시기 바랍니다.

普通话提示（所有版本通用）：

你呢？你喜欢看些什么书呢？

这一类题目在不同的语别化版本中，其内容和语境因素方面并没有什么不同，在不同的题库中也拥有类似的代码，只不过不同语种的考生看到和听到的都是用自己的母语呈现的题目。不管用的是什么版本，每次测试都由随机组卷程序，按照题目的代码和测试要求为每一位考生生成试卷，所以不同母语背景的考生所面对的试卷在形式和难度上完全一致。必须注意的是，这种语言不同、形式和内容一致的题目只是语别化版本的一种题型，另一种题型是保持语境和功能的一致性，又允许内容上有所不同。也就是说，3 个因素中有两个定量一个变量，既保证了内容这个变量的多样性，又避免因为变量太多而失控。

七、结语

语言生活研究“是中国社会语言学的特色”（郭熙，祝晓宏2016），语用为纲的测试理念，就是社会语言学在测试领域的应用。语用为纲职场汉语口语能力测试体系的研发，其初心是关注生活中的语言问题，其焦点是在职场得体使用中文的相关问题。语言生活的3 个维度中，第一个就是“运用”（李宇明2016）。不管是学习还是研究，主要目的之一还是为了在生活中更好地运用语言。当今世界上使用中文的庞大人群中，除了母语者，还有大量汉语二语学习者，他们也需要在不同的领域用中文解决工作上和生活上的问题，包括职场中的人际交流问题。这些人在中文运用中所面对的很多问题，都是我们必须关注的问题（胡建刚，贾益民2022）。

在测试体系的构建和研发过程中，我们发现汉语二语学习者面对的很多问题尚未进入研究者的视野，比如语言运用本身作为一个“语用体系”该如何分类，这一体系有几个层次；什么是可以用于教学和测试的基本单位，职场的口语能力和一般的汉语口语能力有什么异同；得体性的关键因素是语体，但语体本身如何分类分级；等等。我们相信，在中国经济引领世界经济的时代，汉语的语言产业也将蓄势待发。面对“人工语言智能+语言产业”的时代（陈鹏2017），我们需要更多为语言产业护航的应用研究，但在上述很多基础研究没有到位的情况下，任何应用研究都将步履蹒跚。从这个角度看，笔者认同我们的语言研究还“远远跟不上时代和科技发展的需要”（陆俭明2021）。职场汉语口语能力评估是测试领域关于语言能力测试研究的一部分，虽然这一研究的关注点已经从“被试者对语言本体结构知识的掌握”转移到“对在特定场景中实际交际能力的强调”（杨旸，赵守辉2016），但如何把这种“强调”变成可操作的测试手段，我们仍在探索之中。现在要做的，是告别“强调”，认认真真地尝试把关注点变成可操作的“落地”产品。

“职场汉语口语能力测试体系”是学界和业界携手开发的成果，在合作中，我们发现双方必须在不断磨合中增进彼此的了解，在合作中找出彼此的底线，才能顺利前行。学界的长处是关心原理和原则、追求严谨体系和对科研本身的执着，业界的特点是关注成本和效益、注重时间效应和对立竿见影成果的期待，这两者之间的矛盾常常成为合作过程中的道道沟坎。我们知道从阶段性成果到整个体系的落地和运作还有相当长的一段路，但坚信学界和业界携手同行，将为国际中文教育的研究走出一条新路。