基于高考录取成绩的院校竞争网络实证研究

2022-05-28 06:16王辰曦张智成蔡世民
电子科技大学学报 2022年3期
关键词:度数社团志愿

王辰曦,张智成,袁 晨,蔡世民*

(1. 电子科技大学数学科学学院 成都 611731;2. 电子科技大学大数据研究中心 成都 611731;3. 电子科技大学格拉斯哥学院 成都 611731)

高考招生录取制度采取平行志愿录取规则[1-2],优质生源的稀缺性加剧了不同院校对同一批次生源的争夺,形成院校竞争关系(简称竞争关系)。同时,考生在填报志愿时,通常会依据“C9”“985”“211”“双一流”“省部共建”等高校建设项目来区分院校的教育水平和实力差距,使竞争关系存在层次性。然而,在志愿填报策略分析中,竞争关系的定量化研究普遍未考虑这些因素[3-6]。因此,采用适当的定量分析方法研究竞争关系,有助于正确理解其内在结构特征与形成机制,对指导考生进行合理、分梯度地志愿填报起到重要启示作用[7]。

针对竞争关系这一问题,有学者分析了院校竞争力的影响因素,提出提升院校竞争力的方法[8-14]。如文献[11]基于波特五力模型提出的“竞争三力和影响二力”模型。文献[13]基于博弈论构建生源竞争的博弈模型,提出了正当提升竞争关系的方法;文献[14]基于元胞自动机进行建模仿真,得到了院校核心竞争力及附加条件对优质生源竞争力的影响。

网络科学是研究复杂网络系统规律的交叉科学[15-16]。从网络科学视角,院校及其竞争关系可以抽象地表示为院校竞争网络(简称竞争网络)。本文基于复杂网络度量方法,对竞争网络进行实证研究,定量分析拓扑结构特征,挖掘一般的网络统计特征与中尺度的社团结构特征。并利用2019 年山西省高考录取成绩,基于改进的Jaccard 相似度计算方法,计算院校之间录取成绩的相似性,定量表示竞争关系强度。

1 基于院校录取数据的竞争网络构建

1.1 院校录取数据描述

本文使用2019 年山西省高考理科录取成绩,所选数据覆盖了山西省1A、1B、2A 和2B 批次的院校,总计877 个数据项。1A、1B 对应本科第一批次,2A、2B 对应本科第二批次,两个批次的分数线分别为507 分与432 分。

每个数据项中除了院校名称外,还包含该院校在当前批次的(录取)最高分和最低分,以及院校标签,如“C9”“985”“211”“省部共建”“省属”与“其他”。具体而言,“C9”包括9 所院校及单独招生的医学院,共13 个数据项。“985”共34 个数据项。“211”共82 个数据项。“省部共建”共260 个数据项。“省属”共485 个数据项。其余少部分、较特殊的院校将其标签设为“其他”,共3 个数据项。值得注意的是,部分院校存在多重院校标签,本文按照院校标签表示的教育水平层次等级,一般优先考虑高等级。同时,部分省部共建或省属院校会分专业在不同批次进行招生,本文将其视作两个不同的数据项进行分析。

1.2 基于改进Jaccard 相似度的竞争关系度量

竞争关系可以通过计算院校之间录取成绩的相似性度量。本文选择改进的Jaccard 相似度实现相似性计算。Jaccard 相似度[17]用于比较有限样本集A、B之间的相似性与差异性,Jaccard 系数值越大,样本相似度越高,即:

J(A,B) 度 量竞争关系强度,令J(A,B) =wij=wji。通过遍历每对院校,利用改进Jaccard 相似度度量方法,得到表示竞争关系的相似度矩阵W。

1.3 竞争网络构建及度量方法

通过将竞争关系的相似度矩阵转换成邻接矩阵,实现竞争网络的构建。通过统计分析,81.6%的相似度矩阵元素是0。图1 给出非0 相似度矩阵元素的概率分布,呈现中间高两端低的分布,与瑞利(Rayleigh)拟合的函数曲线相符,说明其偏离正态分布。

图1 非0 相似度矩阵元素的概率分布

由此可见,竞争关系的相似度矩阵具有稀疏性。设定划分阈值为0,将相似度矩阵转换成表示竞争网络的邻接矩阵。邻接矩阵中的一个元素为1 表示竞争网络中两个节点之间有连边。显然,竞争网络是一个简化的无向、无权网络。表1 给出了竞争网络的基本统计量。

表1 竞争网络的基本统计量

如表1 所示,竞争网络的平均度相对较高,主要原因是录取分数较低的院校(简称底部院校)数量较多,而且它们的专业差异性较大。这些底部院校的分数区间较大,使得它们之间的相似度较高,连接较为紧密。如最大度节点是齐齐哈尔医学院,度数达到了465。该院校的特点是录取专业差异性较大,应用心理学专业录取分数高达496 分,健康服务与管理专业录取分数却只有430 分。它的分数区间几乎涵盖了本科第二批次招生院校的最大分数区间(即是本科第一批次线与第二批次线的差值)。这些度数大的节点导致竞争网络的平均度较大。因此,考生在填报志愿时,在服从专业调剂条件下可以选择这些度数大的节点作为备选,增加录取概率。同时,院校之间的紧密连接使得竞争网络的平均聚类系数很高,达到0.79。这一结果表明院校之间倾向于构成社团,即竞争网络可能存在显著的社团结构[18-19]。

式中,Nk是度数为k的节点个数。在竞争网络中,底部院校的部分节点拥有大量的边,这些节点称为富节点(rich nodes)。它们倾向于相互连接,构成富人俱乐部。该统计特征可通过富人俱乐部连通性Φ(r/N)刻 画。 Φ(r/N)表 示竞争网络中前r个度最大的节点之间,实际存在的边数L与 这r个节点之间总的可能存在的边数r(r−1)/2的比值[20-21]:

2 实证结果与讨论

2.1 竞争网络的统计特征

竞争网络的累计度分布如图2 所示,其中,虚线指示节点度数为100,内嵌子图是基于一分一段表的累计人数变化,其中的虚线指示本科第一批次的分数线,右边表示高分段,左边表示低分段。竞争网络中度数超过100 的节点数量开始变多,度数小于100 的节点数量很少。实证结果表明竞争网络具有一定的异质性特征,反映底部院校的高聚集性及它们之间激烈的竞争关系。竞争网络的异质性特征主要由不同高考成绩的考生数量分布异质性决定。如图2 中内嵌子图所示,基于一分一段表[22]的累计人数变化表明,最高分与本科第一批次之间(简称高分段,虚线右边部分)的考生数量(约3.2 万)要远少于本科第一批次与本科第二批次之间(简称低分段,虚线左边部分)的考生数量(约5.4 万),且其分布也具有明显的异质性特征。

图2 竞争网络的累积度分布

累计度分布的异质性表明大量低分段的考生在填报志愿时选择底部院校,在院校招生人数限定的条件下,他们考虑专业差异性,使得对院校具有偏好选择。他们的偏好选择容易加大底部院校的分数区间,形成较强的连接紧密性(即形成高的相似度),加剧它们之间的竞争关系,引起院校最低录取分的剧烈波动。同时,少量高分段的考生填报志愿时,基于一分一段表排名选择顶部院校(如C9、985、211 院校),使得它们的分数区间较小,形成较弱的连接紧密性。由于底部院校最低录取分波动幅度大,导致低分段考生更容易由于目标院校的最低录取分大幅上升而掉档,同时也更有机会被最低录取分大幅下降的院校录取,所以建议低分段考生增加填报少数往年录取分高于自身分数的院校。

竞争网络的簇度相关性如图3 所示。竞争网络中节点度数越大,聚类系数呈现逐渐减小的趋势。簇度负相关性表明竞争网络存在层次结构。相对而言,大部分度数小的节点(如度数小于100)能够更好地聚类,一般是录取成绩较高的优秀院校,如985、211 院校等;度数较大的节点(如度数大于400)之间连接并不紧密,往往聚类效果相对偏弱。然而,竞争网络的高聚类性与层次结构,表明院校倾向于构成层次社团结构,本文将着重对竞争网络的社团结构进行分析。

图3 竞争网络的簇度相关性

竞争网络的富人俱乐部连通性如图4 所示。具体而言,当r/N=7.3%时 , Φ(r/N)非常接近于1,表明竞争网络存在富人俱乐部特征。特别是,当r/N≤2.8%时 , Φ(r/N)=1表示度数在前2.8%的富节点形成的子图可以构成一个完全联通图。这个度数阈值为375,即度数大于375 的节点均为竞争网络的富节点。表2 列出竞争网络中富节点对应的院校,其平均度406.8。值得注意的是,富节点之间相互连接紧密,但是其连接的其余节点之间没有连边(即是富节点与其余节点没有形成闭环),使得富节点的聚类系数相对不高。它们聚类系数波动在0.4~0.5 之间。

图4 竞争网络的富人俱乐部连通性

表2 全联通的富节点对应的院校

由表2 可知,富节点中超过50%是医科类院校。它们的分数区间较大,区间长度均超过40,且均处于440~500 分数区间(低分段)附近。由于属于低分段,这些医科类院校在招生时,它们的专业相似度高、专业之间分差跨度大。这一特征导致报考其中某一院校的学生分数差距较大,且这些同类型院校的分数区间重叠较大,使得它们的竞争关系变得更加剧烈,容易演变成富节点,形成竞争网络的富人俱乐部特征。因此,考生填报平行志愿时,应该适当回避这类院校,避免在平行志愿中重叠填报。

2.2 竞争网络的社团结构

竞争网络的中尺度如社团结构分析,能够帮助考生深入地理解在不同层级院校招生时的竞争关系。本文基于节点元数据(如院校标签),利用文献[23]提出的网络社团结构推断方法,对竞争网络进行社区划分。假定一个具有N个节点与M个社团的竞争网络,节点的标记u∈{1,2,···,N}, 社团的标记su∈{1,2,···,M} 。 院校标签类别数量是K=6的离散值,分别表示“C9”“985”“211”“省部共建”“省属”与“其他”,使得节点u的元数据标记 χu∈{1,2,···,K}。 定义具有元数据 χi的 节点i划分到社团si的 概率为 γsx,社团之间存在连边的概率

由表3 可知,社团1、2、6 具有较小的GI值,表明构成社团的大部分院校具有相近的教育水平。如图5 所示,社团1 由清华大学与北京大学构成,社团2 由部分C9 院校(含医学院)与985 院校中国人民大学构成。这些社团内院校具有相近的教育水平(即同质性),它们在招生时存在较为激烈的竞争关系。而且,由社团2 可知,同属于C9 院校的哈尔滨工业大学与西安交通大学,由于地理位置影响,它们与其他C9 院校的竞争关系相对较弱。社团6 由大部分地方性的省属院校构成,它们教育水平相对较弱。这些院校的分数区间靠近本科第二批次线,具有较强的同质性导致激烈的竞争关系。

表3 基于节点元数据和网络结构的竞争网络社团划分

图5 竞争网络社团划分

同时,社团4、5 具有适中的GI 值。它们主要由省部共建与省属院校混杂构成,具有适当的教育水平,一般在本省范围内具有一定的知名度。特别值得注意是,社团3 具有最高的GI 值,且社团规模最大、混杂度最高。它包括部分985 院校、211 院校、省部共建、具有优势专业(特指在本科第一批次招生专业)的省属院校,以及其他特殊院校。虽然这些院校存在一定的同质性,但是分数区间跨度较大,其内部依然存在较为明显的层次化结构。Louvain 算法是基于模块度的经典社团划分算法,能够快速划分网络社团[26]。同时,考虑到再次使用网络社团结构推断方法可能无法细化社团3 的子结构,本文从模块度视角通过Louvain 算法进一步分析该社团的层次化结构。社团3 划分的子结构GI 值、规模,如表4 所示。

表4 基于Louvain 算法的社团3 划分

由表4 可知,所有子结构都具有相对适中的GI 值,每一个子结构包含两个大类院校,且院校教育水平逐次降低以体现一定的层次结构。如子结构1 主要由有教育水平较好的985 与211 院校构成(如图6 所示),子结构2 主要是排名适中的211 院校与具有特色学科的省部共建院校构成。因此,本文通过子结构中院校标签类别分布,能够清晰地、科学地得到社团3 内同质化院校的不同层次分布,从而对合理、分梯度地志愿填报进行有效指导。

图6 社团3 划分的子结构1 网络

基于上述社团结构分析,同一社团中同质化院校的竞争关系较为剧烈。这样会导致院校在招生政策上采取一些有利于考生的政策,以此来吸引考生填报。但同样,在对同质化院校进行填报时,应充分考虑到社团内院校仍然可能存在分数区间的层次性。因此,考生在进行志愿填报时,应当依据社团结构划分的结果,在异质化的社团之间进行初步的筛选,并基于社团内部的层次结构,利用高度同质化院校的竞争关系进行合理、分梯度地填报,从而进入更优质的院校。

3 结 束 语

本文应用复杂网络理论实证研究高考志愿填报过程中院校之间的竞争关系,分析其存在的异质度分布特征、层次结构特征、富人俱乐部以及社团结构特征。依据竞争网络结构(院校竞争关系)与节点(院校)的标签信息进行社团划分,其结果表明同一社团内院校在招生时存在较激烈的竞争关系,这种潜在的竞争关系将会影响院校的招生政策。进一步,本文通过Louvain 算法发掘社团内竞争关系的层次结构特征,衡量社团内院校之间的竞争关系层次差异性,细化院校之间的竞争关系。

这些实证结果有助于从网络科学角度理解院校的竞争关系。在此基础上,本文归纳了一些志愿填报策略和建议:

1) 考生按照高考成绩,对应到社团划分得到的院校组群(即社团或社团子结构)。按照院校组群的层次化差异,可以合理、分梯度地填报平行志愿,且每个梯度对应某一个层级的院校组群。如社团3 分解成5 个层级的子结构,它们具有明显的梯度,考生可以适当选择2~3 个梯度的院校组群,分别填报合适的目标院校。

2) 填报平行志愿时,要适当减少分数区间波动较大的院校,降低平行志愿滑档的风险。如医科类院校的分数区间每年波动较大,填报此类院校的考生也较容易滑档。

3) 如果考生的高考成绩处于本科第二批次的分数线附近,需要平衡目标院校的类型、地理位置等多种因素,结合“冲稳保”策略合理地填报平行志愿。

最后,考虑到不同院校专业录取规则与设置专业的差异性,本文不直接考虑(不同学校)同专业之间的竞争关系。但是,本文对院校竞争关系是基于院校分数区间进行度量的,分数区间的下限表示院校的录取成绩,分数区间的上限表示院校最优专业的录取成绩,分数区间一定程度上反映出同学校不同专业之间的竞争关系。因此,仅有上述最后一项建议中的“冲稳保”策略可适用于填报同院校专业,且建议勾选“服从专业调剂”。

猜你喜欢
度数社团志愿
以志愿,致青春
《平行四边形》拓展精练
友谊
“被志愿”
“多彩”书法社团展示
四川省高考志愿填报流程简图
缤纷社团,绽放精彩
社团少年
文学社团简介
探索一道题的多解与变形