义务教育阶段免试就近入学分配策略研究
——基于中文分词技术和贝叶斯概率模型*

2022-04-20 12:02吴郑红金薇婕

教育传播与技术 2022年1期

陈群吴郑红许哲金薇婕

上海市电化教育馆

一、引言

教育公平是社会公平的基石。近年来，“择校热”引发的“学区房”问题越演越烈，滋生了入学难、天价房、权力寻租等一系列社会性问题［1］。义务教育阶段免试就近入学是遏制择校热，保障适龄儿童、少年入学权益，促进义务教育公平，推动义务教育均衡发展的重要举措。《中华人民共和国义务教育法》第十二条规定，适龄儿童、少年免试入学。地方各级人民政府应当保障适龄儿童、少年在户籍所在地学校就近入学。父母或者其他法定监护人在非户籍所在地工作或者居住的适龄儿童、少年，在其父母或者其他法定监护人工作或者居住地接受义务教育的，当地人民政府应当为其提供平等接受义务教育的条件。《中共中央国务院关于深化教育教学改革全面提高义务教育质量的意见》提出要完善招生考试制度，要推进义务教育学校免试就近入学全覆盖。

自1980年前后“就近入学”一词诞生以来，如何在教育未实现优质均衡的背景下真正落实免试就近入学，一直是教育管理的重点和难点。一是就近入学分配工作的效率和准确率难以保证，二是通过人工分配易滋生寻租现象。随着信息技术的发展，这一难题有望得到有效解决，教育管理部门可依托信息化手段从空间分布上着手落实免试就近入学政策。本文依托数据采集技术、中文分词技术和贝叶斯概率模型，构建一套基于科学技术和方法的免试就近入学分配策略，尽量减少人为干预，既可以提高入学分配的效率和准确率，又能有效遏制寻租现象。

二、关键技术概述

根据政策规定，免试就近入学是指适龄儿童、少年在户籍所在地，或其父母或者其他法定监护人工作或者居住地学校入学。户籍所在地或其父母或者其他法定监护人工作或者居住地所指范围较广，较大可指所在区，最小可指所在室/户。因此，在实践中，根据教育资源紧缺程度，“就近”的执行标准略有浮动，由所在室/户向所在区逐步放大，学校根据对周边适龄儿童、少年人口摸排情况划分“就近”的范围，也称为“对口范围”或“对口地段”。

当学生入学地址属于某校“对口范围”范围内，则被分配入该校就读，称为“对口入学”。因此，就近入学分配本质上是中文地址的匹配，即将学生入学地址与学校的对口范围地址进行匹配。中文地址匹配包含地址标准化、地址分词和地址匹配环节。地址标准化和分词的核心技术是中文分词技术，地址匹配需要使用概率计算模型。

（一）中文分词技术

中文地址不同于英文地址，前者是一连串的字符，没有明显的词的界限，后者有符号作为分隔。为便于机器进行匹配，需要将中文地址按照机器语言进行文本处理。中文分词是文本处理的基础任务，它属于自然语言处理技术范畴，应用于快递、打车、入学、水电煤等和基础空间相关的行业或领域，可快速定位到服务对象［2］。中文分词技术就是将连续的字序列按照一定的规范重新组合成词序列的过程，这个规范可以是人工建立的词典库、语义分析或统计算法。因此，中文分词技术可分为基于词典规则的分析算法、基于理解的分析方法、基于统计的机器学习算法。本文将用到第一种和第三种。

中文地址信息繁多，通常包含行政区划、居民地、门牌、楼址、室号、社会场馆、专门称呼等多级多类，因而词典库的设计可分段开展，涵盖以上类别。例如，北京市朝阳区XX弄XX 小区XX楼，其中市、区分别指市级和区级行政区划，弄指门牌号，小区指居民地，楼指楼址。中文地址是由字组成的，当相邻的字在语料库中出现的次数越多，就越可能是一个词，基于统计的机器学习算法，通过计算相邻字出现的次数进行分词处理［3］。

（二）贝叶斯概率模型

贝叶斯概率模型的基础是贝叶斯定理，该定理用于描述两个条件概率之间的关系。贝叶斯公式表示如下：

P（B | A）是根据A特征参数值判断其属于类别B的概率，称为后验概率，P（B）是直接判断某个样本属于B的概率，称为先验概率，P（A | B）是在类别B中观测到A的概率，P（A）是在数据库中观测到A的概率。

例如，当已知某个学生信息登记地址特征为A（省市、区县、街道、居委、路号、小区名称），判断该学生是否对口某小学B（对口，不对口）。首先要有较大的数据样本进行训练，在训练中观察P（A）和P（B）的值，计算出P（A | B），最后得出P（B | A），P（B | A）最大被认为该学生对口某小学，反之则认为不对口某小学。

三、技术支持的就近入学分配策略设计

基于中文分词技术与贝叶斯概率模型的就近入学分配策略需依托大数据实施。实施步骤分为两步：第一步是准备阶段，先要借助历史入学数据建立义务教育入学地址库，再要借助基于统计的机器学习算法中文分词技术建立义务教育入学地址词典库。第二步是实施阶段，先要获取待匹配地址，并对待匹配地址进行数据预处理，再将待匹配地址与入学地址库进行精准匹配，若能精准匹配则直接输出结果，否则进入贝叶斯概率计算环节。就近入学分配地址匹配业务流程如图1所示。

图1 就近入学分配地址匹配业务流程图

贝叶斯概率计算分为三个阶段，分别为准备阶段、训练阶段与应用阶段。贝叶斯概率模型技术路线图如图2所示。本文中特征确定即地址要素确定，训练样本即对口范围地址。

图2 贝叶斯概率模型技术路线图

（一）准备阶段

1. 建立义务教育阶段学生入学地址库

入学地址库是指以国家标准地名为依据，按照一定规律分层、分级、分类形成的入学地址数据库，它包含行政区划、居民地、门牌、楼址、室号、社会场馆、专门称呼等。由于中文地址标准长期不统一，农村与城镇地址称呼的差异等原因，不同区域地址格式各异。可依托历史入学数据建立区域义务教育阶段学生入学地址库。

2. 建立义务教育阶段学生入学地址词典库

中文地址是自然语言的字符串，属于非结构化语言。为了进行匹配，需要将非结构化地址转换成机器可以识别的结构化数据，这就是地址标准化的过程。地址标准化需要先将地址要素分离出来，并明确各地址要素的含义。通过统计分词方法对入学地址库进行分词处理，获取区域义务教育阶段学生入学地址词典库。

（二）实施阶段

1. 获取待匹配地址并进行预处理

学生使用户籍地址或居住地址作为入学地址，该地址即为待匹配地址。对待匹配数据进行半角全角转换、去除无意义符号等预处理。

2. 进行基于入学地址词典库的中文分词

基于前期建立的入学地址词典库，对义务教育阶段学生入学地址进行分词，可分为省市、区县、街道、居委、路、弄、支弄等若干级若干类。

3. 进行地址精准匹配

将分词处理后的待匹配地址与入学地址库进行精准匹配。若能精准匹配，则输出结果为“对口入学”。否则，则进入下一环节，即贝叶斯概率计算环节。

4. 对未能实现精准匹配的学生进行贝叶斯概率计算

未能实现精准匹配的学生进入贝叶斯概率计算环节，根据P（B | A）的值，判断该特征的地址属于对口范围的概率。

四、技术支持的就近入学分配策略应用场景

一名适龄儿童的入学地址为“上海市浦东新区花木街道牡丹四居委牡丹路×弄牡丹小区×号楼×室”，判断该儿童的对口学校是否为花木×小学。

假设上海市已有义务教育阶段学生入学地址库与入学地址词典库，则，

第一阶段：获取待匹配地址。

上海市浦东新区花木街道牡丹四居委牡丹路×弄牡丹小区×号楼×室，该地址较规范，不需进行预处理。

第二阶段：进行基于词典库的中文分词。

该适龄儿童入学地址可分离出以下地址要素，如表1所示。

表1 地址要素表

第三阶段：进行地址精准匹配。

结果地址未能精准匹配。

第四阶段：进行贝叶斯概率计算。

B的集合为（对口，不对口），A的集合为（花木、牡丹四居委、牡丹路、×弄、牡丹小区、×号楼、×室），计算并比较P（匹配|花木、牡丹四居委、牡丹路、×弄、牡丹小区、×号楼、×室）与P（不匹配|花木、牡丹四居委、牡丹路、×弄、牡丹小区、×号楼、×室）的概率，概率大的即为结果，若P（匹配|花木、牡丹四居委、牡丹路、×弄、牡丹小区、×号楼、×室）概率大，该儿童对口学校为花木×小学，否则该儿童对口学校非花木×小学。

五、展望

为验证文本策略的有效性，笔者应用测试数据进行了就近入学分配，测试结果显示中文分词技术与贝叶斯概率计算方法的应用在较大程度上缓解了因填写错误、不规范等原因造成的就近入学匹配工作效率低下和精准度不高的问题。另外，信息化技术的应用最大程度地规避了人为干扰，有效防止了权力寻租现象的发生。在实践中，该策略或许可为落实义务教育阶段学生免试就近入学政策提供一种思路。

当然，教育无小事，事事皆民生。应用到义务教育招生入学业务中的策略需要综合考虑各种因素，尽量做到精准、有效、公平。文本中用到的朴素的贝叶斯概率计算还存在一定的局限性，需保证特征要素之间的独立性，否则结果将受影响，而中文地址各层级之间存在相关性，当确定了上一级，下一级的概率即可计算出来，因此，计算结果精准度需进一步提高。后续笔者将继续优化模型，通过多种概率统计策略的叠加，进一步提高模型有效性。

义务教育阶段免试就近入学分配策略研究——基于中文分词技术和贝叶斯概率模型*

一、 引言

二、 关键技术概述

（一） 中文分词技术

（二） 贝叶斯概率模型

三、 技术支持的就近入学分配策略设计

（一） 准备阶段

（二） 实施阶段

四、 技术支持的就近入学分配策略应用场景

五、 展望