随机效应Logit计量模型的自适应Lasso变量选择方法研究-中国社会科学院数量经济与技术经济研究所

作者：孙燕1、2

2012-12-21 15:42:20 来源:数量经济技术经济研究

（1.上海财经大学经济学院；2.上海财经大学数理经济学重点实验室）

【摘要】不同于常见的模型估计和检验研究，本文重点关注计量模型设定中的变量选择问题，提出了随机效应Logit计量模型的自适应Lasso变量选择方法，同步完成变量选择和参数估计。由于模型中随机效应的存在加大了变量选择难度，本文将随机效应视为缺失数据，采用EM算法结合Gauss-Hermite数值积分法，根据Newton-Raphson迭代法建立了模型参数的自适应Lasso。蒙特卡罗仿真模拟实验结果表明该变量选择方法在有限样本下的表现良好。最后又将该方法运用于个体健康影响因素的分析中。

关键词变量选择自适应Lasso 随机效应 EM算法

中图分类号 F224.0 文献标识码 A

Variable Selection via Adaptive Lasso for

Random Effect Logit Model

Abstract: Different from the usual studies on model estimation and hypothesis tests, the paper focuses on variable selection part of model specification. We are motivated to propose the adaptive Lasso method for random effect Logit model to finish variable selection and parameter estimation simultaneously. The difficulties lies in the existence of random effect, we solve it by treating them as missing data, and use EM algorithm together with Gauss-Hermite quadrature. Then the adaptive Lasso is obtained by Newton-Raphson iterative approach. Monte Carlo simulation results indicate its good performance in finite samples. Furthermore, real application of variable selection shows the important factors such as income inequality would affect individual health status.

Keywords: Variable Selection；Adaptive Lasso；Random Effect；EM Algorithm

引言

目前大部分的计量经济学应用都集中于模型的估计和相关检验，较少关注模型的具体设定问题，而模型设定中的一个重要方面是变量选择问题。由于经济现象的错综复杂性，影响被解释变量的因素往往很多。如影响中国经济增长的可能因素有实物资本、人力资本、技术、制度、贸易、价格、汇率、宏观政策等等。事实上，为了减小可能存在的遗漏变量偏差，在建模初期往往会引入众多解释变量，但模型中加入无关紧要的变量会极大地降低估计和预测精度。另一方面，提高模型的预报能力和选出重要的解释变量往往是后续研究的基础，即建立包含重要解释变量而又能获得必要信息的“经济”模型是我们感兴趣的。

变量选择的研究由来已久，几乎贯穿了计量经济学的整个发展过程。如20世纪60年代以来提出的AIC、BIC等子集选择法（Subset Selection），这种变量选择方法的优点是能够找到“最优”变量集，但其缺点有：第一，是一个离散过程，具有不稳定性，即变量选择的结果会由于数据集合的微小变化而发生大的变化；第二，子集选择与参数估计是分两步进行的，而后续的参数估计和假设检验等都没有考虑模型选择阶段产生的偏误，从而低估了实际方差；第三，当自变量的个数为时，所有可能的变量子集个数为，显见当很大时，计算量惊人，实际操作中不太可行。逐步回归法（Stepwise Regression）是大幅减少子集选择法计算量的替代方法，但同样都是不稳定的，且不能保证能够搜寻到“最优”变量子集（康赞亮，2009；王大荣和张忠占，2010）。

当前研究较多的变量选择方法是系数压缩估计法（Shrinkage Estimation），如Lasso（Tibshirani, 1996）、SCAD（Fan和Li，2001）和自适应Lasso（Zou, 2006）等。这些变量选择方法都属于连续压缩过程，它们将无关变量的回归系数压缩为零，同时得到重要变量的系数估计，同步完成了变量选择和参数估计，克服了上述子集选择法的缺陷。现有文献大多集中于连续因变量模型的变量选择问题（王大荣和张忠占，2010），而二值因变量模型也常见于实际问题分析中，如Logit模型（肖作平，2010等）和Probit模型（罗小峰和秦军，2010等）。本文就将着手研究二值因变量模型的变量选择问题。

[1]本文获得2010年度教育部“新世纪优秀人才支持计划”（NECT-10-0562）的资助。

404 Not Found

nginx