复杂系数在虚拟变量回归分析中的应用

2014-05-30 03:56陶相荣
关键词:偏远地区普通话成人

陶相荣

(陕西学前师范学院 图书馆,陕西 西安 710061)

1 问题的提出

经常用SPSS回归分析时发现,回归模型事先不可预知,主观或客观原因造成的不可预测的随机变量对回归方程影响很大,虚拟变量的应用一定程度上解决了拟合问题,但拟合结果的量化程度仍不理想。笔者对原数据回朔再研究后发现,标准化后的数据可消除其它因素对常数项和偏相关系数的干扰,利用贝塔绝对值或wald卡方的均值为复杂系数,判断相关因素对拟合方程的影响程度,在各种统计学意义的前提下,拟合的方程更有现实意义。

2 含有虚拟变量的回归分析应用

2.1 含有虚拟变量线性回归分析时的复杂系数

随机选取普通话测试站某年陕西不同地区中小学教师普通话水平测试数据,回归分析中含有虚拟变量(测试员、普通话等级)、普通话成绩、第一至第四题中错误、缺陷和失分项共15个因素。利用逐步回归法,逐步检验进入模型的虚拟变量对拟合方程产生的不同影响,当变量大于0.100概率时移出模型,小于0.050概率时进入模型,表1是经过共线性等统计学检验条件下最终进入模型的相关因素。

表1 陕西某年中小学教师普通话水平测试拟合结果及各项统计检验表

从表1得到标准化后的量化模型:

成绩=-0.207×单音节失分-0.232×双音节失分-0.332朗读失分-0.418×说话失分+0.010×语音标准失分。

普通话水平测试成绩的复杂系数为0.236,从贝塔值看,主要影响程度依次是:说话失分、朗读失分、双音节失分、单音节失分和语音标准失分。

方程的意义:测试者的普通话水平测试成绩影响最大的是第四题说话失分,其次是第三题朗读失分,说明部分陕西中小学教师使用普通话的规范程度和熟练程度较低,语言素质偏低,特别是部分教师用方言授课严重影响了授课效果和学生的普通话水平。

2.2 聚类-回归分析时的复杂系数

对我院某年电子阅览室上机者8个相关因素的原始数据快速聚类得到了两类读者类型。再进行逐步回归分析,由表2得出量化方程:

读者结构特征=0.199×届级-0.447×专业-0.547×教育程度+0.088×性别+0.087×生源地+0.036×上机时段-0.044×上机时间。

电子阅览室读者结构特征的复杂系数为0.207,主要影响因素依次是:教育程度、专业、年级、性别、生源地、上机时间、上机时段。

表2 电子阅览室读者聚类-逐步回归拟合结果及各项统计检验表

方程的意义:一类读者群是文科专业的、西安周边地区的、下午上机时间较短的、女性成人本科新学员;另一类是理科专业的、西安中部地区的、上午上机时间较长的、男性普专老学员。

2.3 Logistic回归分析的复杂系数

回朔某年我院图书馆现刊阅览室的原始数据,拟用Logistic回归分析寻求在校生两个学期内,对所有在架期刊杂志利用的需求规律,整体拟合优势检验值为1035.115,显著性概率值为0.000,贝塔值不明显,选用Wald卡方判断相关因素对拟合方程的影响程度。

(1)社科类期刊的分析与讨论

表3 社科类期刊Logistic回归分析和检验结果

社科类期刊的复杂系数为13.412,主要影响因素依次是:每年8-10月份、男性、偏远地区、大一至大三和成人本科学员。

量化方程的实际含义:每年8-10月份,来自偏远地区的大一至大三或成人本科男学员,对社科类的期刊有较高需求。

(2)文教类期刊的分析与讨论

表4 文教类期刊Logistic回归分析和检验结果

表5 文学类期刊Logistic回归分析和检验结果

由表5得出:这类期刊的复杂系数为14.227,主要影响因素依次是:普专、男性、偏远地区、2-6月、成人本科、大四学员。

文学类期刊量化方程的实际含义:每年2-6月份、来自偏远地区的成人本科生或普专大四男学员对文学类刊物有较高需求。

(4)艺术类期刊的分析与讨论

表6 艺术类期刊的Logistic回归分析和检验结果

艺术类期刊的复杂系数为16.961,影响因素依次是:每年的8-10月份、普专、偏远地区、成人本科。量化方程的意义:艺术类期刊的需求规律是每年的8-10月份,偏远地区的普专或成人本科生对这类刊物感光趣。

(5)自然科学类期刊的分析与讨论

表7 自然科学类期刊的Logistic回归分析和检验结果

自然科学期刊的复杂系数为15.555,主要影响因素依次是:男性、普专、文科、偏远地区、20岁以上、大一学员。

量化方程反映了这类期刊的读者结构特征及需求特征是:男性、普专、文科专业的来自偏远地区的,年龄在20岁以上的新学员,偏爱自然科学期刊。

(6)生物类期刊的分析与讨论

表8 生物类期刊Logistic回归分析和检验结果

生物类期刊的复杂系数为10.771,主要影响因素依次是:文科、普专、每年8-10月份、偏远地区、大二、大三、年龄在21-22岁、大一。

量化方程的实际含义:每年的8-10月份,来自偏远地区的大一至大三的文科普专学员对生物类期刊非常感兴趣。

(7)计算机类期刊的分析与讨论

计算机类的复杂系数为30.853,主要影响因素依次是:男性、普专、文科、成人本科、8-10月份、20岁以下、大一。

量化方程反映了这样一条信息:每年的8-10月份,有文科类的、成人本科或普专、男性、20岁以下的新学员对计算机类的期刊有较高需求。

(8)综合类期刊的分析与讨论

表9 计算机类期刊Logistic回归分析和检验结果

表10 综合类期刊Logistic回归分析和检验结果

综合类期刊的复杂系数为10.506,主要影响因素依次是:男性、偏远地区、每年2-10月份、普专、大二、大三、年龄在21-22岁之间、大一。

量化方程的实际含义:每年2-10月份,来自偏远地区的普专男学员(大一至大三)对综合类期刊有较高需求。

纵向对比以上期刊的复杂系数,笔者得出每年在校生的需求规律排序是:计算机类、文教类、艺术类、自然科学类、文学类、社科类、生物类、综合类。即计算机类是学员的第一需求,其次是专业需求。它真实反映了图书馆现刊阅览室的现状,也是几年来对读者需求规律认识的一次升华。

3 结论

综上所述,在统计学检验条件下,将贝塔绝对值或wald卡方的均值做为复杂系数,能真实反映拟合方程的相关影响因素及其影响程度,且拟合方程的描述与现实吻合、真实有效。

猜你喜欢
偏远地区普通话成人
偏远地区初中英语课堂教学之有效性研究
吉林省偏远地区企事业单位人才开发困境问题研究
成人不自在
“考虑偏远地区211大学比较好”
我教爸爸说普通话
Un rite de passage
17
成人正畸治疗新进展
成人:道德教育的使命
偏远地区使用太阳能驱动的平交道口