(天津财经大学中国经济统计研究中心)
【摘要】利用含无回答的经济数据建立线性回归模型,选择PMM多重插补法给出无回答的插补值。模拟结果显示,在任意无回答机制下,随着插补重数增大,系数估计量的偏差和均方误差减小不显著。对于任意无回答率,建议插补重数为5。在完全随机无回答机制下,随着无回答率增加,系数估计量的偏差或均方误差增大往往不显著。然而,在随机无回答机制下或在非随机无回答机制下,随着无回答率增加,系数估计量的偏差和均方误差增大往往显著。
关键词 PMM多重插补法 无回答机制 无回答率 插补重数
中图分类号 F224.0 文献标识码 A
On Estimators of Coefficients of Linear Regression Model
Based on PMM Multiple Imputation
Abstract: To estimate the coefficients of linear regression model by using the economics data containing the non-response, to select PMM multiple imputation to give imputed values of the non-response. The simulation shows that under every non-response mechanism, the bias and mean squared error of the coefficients estimators do not obviously reduce as the multiplicity of imputation increases. The multiplicity of imputation is suggested as 5 for any non-response rate. Under completely random non-response mechanism, the bias and mean squared error of the coefficients estimators do not always obviously increase as non-response rate becomes large. However, under random non-response mechanism or under non-response not at random mechanism, the bias and mean squared error of coefficients estimators often significantly increase as the non-response rate becomes large.
Key words: Predictive Mean Matching Imputation; Non-response Mechanism; Non-response Rate; Imputation Multiplicity
引言
在社会经济领域的调查中,无回答经常出现,而且很难避免。无回答包括单元无回答和项目无回答。单元无回答是被调查者没有回答任何调查问题,项目无回答指被调查者只回答部分而不是全部的调查问题。对于经济问题研究,无回答容易造成样本不具有代表性,降低分析结论的可信度,甚至得到错误的结论。无回答一直是经济统计学研究热点。关于无回答更多细节,请参见Rubin(1987),Lessler和Kalsbeek(1992),Little和Rubin(2002), 金勇进和邵军(2009),Graham(2012)等。
解决无回答主要包括事前预防措施和事后补救办法。事前预防措施主要指经济调查工作尽可能严谨周密,尽量减少无回答的产生。由于实际问题的复杂性,事前预防措施只能显著降低无回答率,不可能杜绝无回答。事后补救办法主要是尽量减少无回答所造成的估计量偏差,提高参数估计的可信度。Okafor和Lee(2000),杨贵军、李小峰和王清[2](2014)等对无回答子总体再调查,获取更多数据。Rubin(1987),Little和Rubin(2002),金勇进和邵军(2009)等讨论了针对无回答的最大似然估计量。无回答插补法也是解决无回答的常用方法,包括单值插补法和多重插补法。单值插补法只赋给无回答单个估计值,容易低估估计量方差。多重插补法给每个无回答赋予多个估计值,得到多组含插补值的数据,以及估计量的精度描述。多重插补法的应用更广泛,更多细节参见Rubin(1987),Allison(2001),王璐和王飞(2006),杨贵军和骆新珍(2014)。
多重插补法包括MCMC的Data Augmentation(DA)多重插补法、预测均值匹配(Predictive Mean Matching,PMM)多重插补法等。杨贵军和骆新珍(2014)对DA多重插补法进行了模拟研究。模拟结果显示,DA多重插补法在不同的无回答机制下,选择更大的插补重数常常会得到较好的回归系数估计值。Little(1988)提出PMM多重插补法,Schenker和Taylor(1996)和Schafer(1997)对PMM多重插补法进行了改进。Allison(2001)详细介绍了该多重插补法及其实际应用。Marco和Guarnera(2009)讨论了半参数PMM多重插补法,并给出了应用案例。还有些文献对PMM多重插补法和其它插补法进行比较,或介绍将PMM多重插补法用于医学的疾病诊断和儿童死亡率估计等问题。PMM多重插补法不同于DA多重插补法,对回归系数估计量的影响不同,对PMM多重插补法的研究有待于深入。
回归模型是经济研究中的一类最常用模型。本文采用PMM多重插补法对无回答进行插补,再估计回归模型系数,模拟分析PMM多重插补法对回归系数估计量的影响。本文只考虑响应变量无回答的PMM多重插补法。选择的插补重数分别为5、15、25、35、45;无回答机制包括完全随机无回答机制、分别依赖于不同解释变量的随机无回答机制、非随机无回答机制;无回答率分别选择5%、15%、25%、35%、45%。基于PMM多重插补法的模拟结果,讨论在不同无回答机制、无回答率、插补重数下的回归系数估计量的性质,为PMM多重插补法在经济问题研究中应用提供参考。