多元线性回归模型在警力资源配置中的应用

2013-01-04 10:47王二院
关键词:共线性警力回归系数

王二院

(中国人民公安大学,北京 100038)

1 警力资源配置的研究背景

以“警力资源配置”为关键词,以“网页”为对象,“百度一下”后找到相关结果约244 000个。第一篇为中国人民公安大学姜博,任亚丁的《警力资源配置问题浅析》,北京人民警察学院学报,2004年5月第3期。

谷歌搜索的结果为“所有结果找到约77 000条”结果。第一篇为谢子传的《论警力资源优化配置的若干问题》,发表日期:2007-12-7 2:25:12。来源:中思网。

笔者曾经公开发表过3篇警力资源配置方面的论文,参考文献[1]、[2]为其中两篇。

当前关于警力资源配置的文献多数认为中国警力资源不足,主张增加的措施可以分为两个方面,一是增加民警的绝对数量,二是提高民警的内在素质。本文研究的目的在于组织内部警力资源的二次配置,即民警的绝对数量和内在素质不变的前提下进行二级组织之间的定量调整。

2 多元线性回归模型的理论描述

多元线性回归模型的理论内容包括4个方面:多元线性回归方程;参数估计;显著性检验;估计标准误差。

2.1 多元线性回归方程

2.1.1 多元线性回归模型的一般形式

设因变量Y由k个自变量 Xj(j=1,2,…,k)共同决定,则:

2.1.2 多元线性回归模型的基本假设[3]106-107

①解释变量Xj是确定性变量,不是随机变量。②解释变量之间互不相关,即无多重共线性,否则无法估计回归模型。③随机误差项服从均值为0、同方差的正态分布。④随机误差项不存在序列相关关系。⑤随机误差项与解释变量之间不相关。

2.2 多元线性回归模型的参数估计

利用与一元回归类似的最小二乘法可以得到总体参数的估计量和估计值。虽然计算过程要复杂一些,但用计算机很容易得到计算结果。在多元回归中对回归系数的解释有所不同。例如变量X1的回归系数 b1应解释为:当 X2,X3,…,Xk不变时,X1每变动一个单位因变量Y的平均变动量。

设:

2.3 多元线性回归模型的显著性检验

2.3.1 拟合优度

拟合优度R2在多元回归中也称为多重决定系数(multiple coefficient of determination),它反映回归直线的拟合程度,取值范围在[0,1]之间。R2→1,说明回归方程拟合得越好;R2→0,说明回归方程拟合得越差。

可以证明式(8)成立。

在多元回归中,比较自变量个数不同的方程的拟合效果时多使用修正的判定系数(adjusted multiple coefficient of determination):

若dU<DW<4-dU(dU为DW的上临界值),则误差项 μ1,μ2,…,μk之间无自相关。

2.3.5 多重共线性诊断

记R2为自变量xj对其余k-1个自变量的复决定系数,定义方差扩大因子VIF如下:

一般情况下,若VIF<10,则检验通过。

2.4 多元线性回归模型的估计标准误差

多元线性回归中的估计标准误差是对误差项ε的标准差σ的一个估计值。

式中k为模型中自变量的个数。

3 应用多元线性回归模型进行警力资源配置的设想

3.1 确定问题

某市公安局下辖16个分局,由于各分局忙闲不均,市局党委决定对全局警力进行重新配置。假设条件有二:(1)总警力不变;(2)单个民警无差异。

3.2 准备数据

表1的主要数据是某年各分局实有警力资源数和影响分局警力资源数量的4个因素。它们分别是:(1)各分局现有警力(y);(2)110报警数(次);(3)常住人口 (万人);(4)刑事案件发案数(起);(5)勤务工作(人次)。根据表1的数据,建立某市公安局警力资源配置模型,要求以(2)110报警数;(3)常住人口;(4)刑事案件发案数;(5)勤务工作为自变量,建立多元线性回归模型。

3.3 选择模型

根据问题要求,选择多元线性回归模型。

利用“IBM SPSS Statistics V19.0”[4]140-144生成表2和表3。

表1 某市公安局警力资源配置基础数据表

表2 皮尔逊相关系数表

表2显示刑事案件发案数与常住人口之间的皮尔逊相关系数为0.942,勤务工作与110报警数之间的皮尔逊相关系数为0.861,刑事案件发案数与110报警数之间的皮尔逊相关系数为0.771。

表2和表3都说明影响分局警力资源数量的4个自变量之间存在多重共线性,必须对变量进行筛选。

3.4 求解参数

打开“IBM SPSS Statistics V19.0”,依次单击菜单栏中的【Analyze(分析)】→【Regression(回归)】→【Linear(线性)】命令,弹出【Linear Regression(线性回归)】对话框。将y变量选入“Dependent”栏后,需要将变量 x1,x2,x3,x4,同时选入“Independent(s)”栏。在【Method(方法)】选项组中选择自变量的进入方式【Stepwise(逐步)】。详细选项如图1,最后点击“确定”。

表3 多重共线性诊断表

图1 回归分析选项图

以下表4至表8共5张表均由SPSS生成。

表4显示模型1只包含一个自变量“110报警数”,模型2只包含两个自变量:“110报警数”和“勤务工作”。表4还显示了设定引入和删除变量的条件。

表5显示了各个模型的拟合情况。模型2的复相关系数 R=0.962,判定系数 R Square=0.926,修正的判定系数Adjusted R Square=0.915,估计值的标准误差Std.Error of the Estimate=507.963。表5最后一列显示的是随机误差项序列自相关检验情况。

表4 自变量进入方式

表5 模型汇总表

表6显示了各个模型的方差分析结果。模型2的 SSR=42 204 011.580,SSE=3 354 338.420,F=81.782,P=0.000。线性回归方程显著[5]。

表7显示了各个模型的回归系数。模型2的常数项(Constant)=420.268,“110 报警数”的回归系数=0.035,回归系数的标准误差(Std.Error)=0.010 ,t检验值 =3.393 ,P=0.005;“勤务工作”的回归系数=0.042,回归系数的标准误差(Std.Error)=0.010 ,t检验值 =3.357,P=0.005。按照α=0.05的水平,可以认为两个偏回归系数都显著有意义[3]93-135。模型2的回归方程为

表6 方差分析表

3.5 检验模型

根据求解参数过程中得到的计算结果可知,多元线性回归模型的如下检验均获通过:1)拟合优度R2检验(表5);2)F检验(表6);3)t检验(表7);4)D-W检验(表5);5)多重共线性检验(表7)。

表7 回归系数表

式(17)中变量x1的回归系数为0.035,其统计含义:在“勤务工作”不变的条件下,“110报警数”每上升1个单位(次),分局警力“平均”上升0.035个单位(人);变量x4的回归系数为0.042,说明在“110报警数”不变的条件下,“勤务工作”每上升1个单位(人次),分局警力就会“平均”上升0.042个单位(人)。

3.6 配置警力

利用“IBM SPSSStatistics V19.0”生成表8。

表8显示了非标准化的预测值和残差。第2行数据6672表示B1分局现有警力数,6264表示使用模型2计算得到的B1分局理想警力数,408表示使用模型2计算得到的B1分局应当调出的警力数。表8中第6列数据即市局警力资源配置的主要依据,正数表示调出的警力数,负数表示调入的警力数。其中B6分局应当调出的警力数最多,为719人;B4分局应当调入的警力数最多,为839人。

4 关于应用多元线性回归模型的注意事项

多元线性回归模型是进行警力资源配置非常理想的数学模型,但在应用过程中必须通过5种检验,对多重共线性和序列自相关性给予适当的处理。

表8 非标准化的预测值和残差表

4.1 多重共线性

多重共线性问题是违背解释变量不相关假设所导致的问题。如果违背基本假设,则模型的参数无法估计,必须去掉一个自变量。表2显示刑事案件发案数与常住人口之间,勤务工作与110报警数之间均存在高度多重共线性问题。此时,虽然不违背OLS的基本假设,正规方程仍有唯一解,OLS仍然是BLUE(Best Linear Unbiased Estimate)的,但是 t检验值会减小、系数的显著性下降。多重共线性问题会导致F检验显著,但所有回归系数的t检验却不显著,甚至回归系数的符号与其经济意义相反。

4.2 多元回归中的变量筛选

在多元回归中,预先选定的自变量不一定都对Y有显著的影响。SPSS软件提供了多种筛选自变量的方法[4]161-165:(1)“向前引入法(Forward)”;2)“向后剔除法(Backward)”;3)“逐步引入—剔除法(Stepwise)”。其中第3种方法比较理想,其思路是在每一步中都要对引入变量的显著性作检验,仅当其显著时才引入,而每引入一个新变量后,对前面已引进的变量又要逐一检验,一旦发现某变量变得不显著了,就要将它剔除。这些步骤反复进行,直到引入的变量都是显著的而没有引入的变量都是不显著的时,就结束挑选变量的工作。

如果预先选定的自变量较多,应该利用聚类分析生成数量较少的几个新自变量。

4.3 异方差和序列相关

OLS估计需要随机误差项满足同方差和序列不相关假设,否则就会产生异方差和序列相关的问题。

1)异方差。当回归模型随机误差项μ的方差不为常数时,即为异方差(Heteroscedasticity)现象。异方差问题是违背同方差假设的结果,当异方差出现时,回归模型的估计量不再具有最小方差的性质,因此不再保持有效性;同时,t检验也失效,无法对回归系数的显著性进行检验[6]。

2)序列相关。随机误差项之间的协方差不为零时,即存在序列相关(Serial Correlation),又称自相关。序列相关问题是违背序列不相关假设的后果,此时普通最小二乘估计量仍为无偏估计量,但不再具有最小方差的性质,即不是“最优线性无偏估计量”;回归系数的显著性检验失效。

5 结论

多元线性回归模型是进行警力资源配置非常理想的数学模型,但在应用过程中必须通过5种检验,对多重共线性和序列自相关性给予适当的处理。应用多元线性回归模型进行警力资源配置的程序可以划分为6个步骤:①确定问题;②准备数据;③选择模型;④求解参数;⑤检验模型;⑥配置警力。

[1] 饶俊新,曲京璞,王二院.优化警力配置的四个突破口[J].公安研究,2003(11):45-49.

[2] 饶俊新,曲京璞,王二院.关于运用定量分析方法科学配置警力资源的思考[J].贵州警官职业学院学报,2003,15(6):72-75.

[3] 汪冬华.多元统计分析与SPSS应用[M].上海:华东理工大学出版社,2010:106-107.

[4] 王璐,王沁.SPSS统计分析基础、应用与实战精粹[M].北京:化学工业出版社,2012:140-144.

[5] 贾俊平.统计学[M].清华大学出版社,2006:400-420.

[6] 李子强.概率论与数理统计教程[M].2版.北京:科学出版社,2008:247-248.

猜你喜欢
共线性警力回归系数
南瓜SWEET蛋白家族的全基因组鉴定与进化分析
银行不良贷款额影响因素分析
基于快速凸包的目标车辆动态围堵算法
不完全多重共线性定义存在的问题及其修正建议
面向多单位多任务的警力优化模型
我国寿险需求影响因素的岭回归分析
基于生产函数模型的地区经济发展影响因素分析
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
城镇居民收入差距主要因素回归分析