中国城乡居民收入分布的估计：1985-2009-中国社会科学院数量经济与技术经济研究所

中国城乡居民收入分布的估计：1985-2009

作者：王亚峰[1]

2012-06-17 23:30:28 来源:数量经济技术经济研究

（北京大学国家发展研究院中国经济研究中心）

【摘要】本文基于函数形式灵活的最大熵分布估计了我国城乡以及全国总体居民收入分布，其避免了分布函数形式误设可能导致的非一致估计。根据统计局公布的家庭收入调查数据的不同分组方式，我们分别讨论了农村和城镇居民收入分布的广义矩估计方法，同时提出了可行的计算方法。本文对我国城乡以及全国总体居民收入分布的估计结果表明，在1985-2009年间，所有这些收入分布都呈单峰形态且分散化程度日趋提高，但其演变方式却不尽相同。特别地，分布间相近程度的统计指标表明，中国经济发展给城镇居民收入分布带来的影响要比给农村收入分布带来的影响更大。而基于收入分布函数的基尼系数计算结果则表明现有文献普遍高估了中国的基尼系数。

关键词收入分布最大熵密度广义矩方法基尼系数

中图分类号 F244 文献标识码 A

The Estimation of Income Distribution in Urban and Rural China: 1985-2009

Abstract：Based on the functional flexible maximum entropy distribution, this paper estimates the rural, urban and whole income distribution in China, which avoids the inconsistent estimation induced by the misspecification of distribution forms, while the efficient estimation is obtained by using the generalized method of moments. According to the group mode of family income survey data, we discuss the estimation methods for rural and urban income distributions respectively, the feasible computation methods are also proposed. The estimation results show that during 1985-2009, all the rural, urban and whole income distributions shift right persistently, and the right tail of these distributions are growing longer. Specifically, the measure of closeness between distributions shows that the China’s economic development has a larger impact on the urban income distribution comparing with the rural income distribution. The resulting Gini coefficients show that there is an upward bias in the usual estimation of this index.

Key words：Income Distribution; Maximum Entropy Density; Generalized Method of Moments; Gini Coefficient.

一引言

改革开放带来了中国经济的飞速发展，与此伴随的是居民收入分布的显著变化。其典型事实表现为人均收入的不断上升以及收入差距的持续扩大。随着近些年民生问题日益得到重视，如何准确地衡量中国的收入差距水平也成为学术研究的热点问题。一系列致力于估计城乡内部以及全国总体基尼系数的文章涌现出来，程永宏（2006、2007）详细总结了这方面的文献，并指出在计算基尼系数过程中估计收入分布函数的重要性。实际上，收入分布函数不仅对准确计算诸如基尼系数在内的不平等指数至关重要，其还可以提供对居民收入情况更加全面的描述，比如根据其密度函数是单峰还是双峰我们可以判断是否存在收入的两极分化乃至经济是否收敛（Henderson，2010），基于收入的分布函数我们还可以研究收入分布与其他变量（比如消费）乃至其他变量的分布之间的关系（Park，2010；Park和Qian，2010）等等。

然而由于数据以及技术上的原因，当前对中国居民收入分布的研究还存在一些缺陷。首先，收入分布估计的一致性是建立在分布函数正确设定的基础上的，分布函数的任何误设都可能导致估计的非一致性。现有研究中国收入分布的文献大都采用了一些非常特殊的参数分布形式，如王海港和周开国（2006）采用的帕累托分布，程永宏（2006、2007）采用的（改造的）逻辑斯蒂分布，以及段景辉和陈建宝（2010）采用的由帕累托、正态和指数分布构成的混合分布等等，然而这些特定分布的适用性是存在疑问的，我们并没有足够的依据假定任何一个特定的参数分布形式。其次，为避免分布函数误设带来的问题，原则上我们可以采用非参数的方法估计居民收入分布，比如常用的核（kernel）估计。这在个体收入的具体信息（即点数据）可得的情况下是可行的^{^[2]}，然而就目前可以利用的收入调查数据而言，并没有覆盖范围足够广且持续时间足够长的此类数据。正如程永宏（2007）所指出的，数据的可得性制约了连续时间序列的农村、城镇以及全国总体基尼系数的研究。为了获得可用于纵向比较的收入分布以及相关的收入差距指标，比较理想的数据是历年统计年鉴公布的家庭人均收入分组数据，这也是计算基尼系数的文献中应用最多的数据。给定该数据的特征，即其提供的仅仅是一些分组的描述性统计而没有具体的个体数据，应用常见的非参数方法估计分布函数会产生非常大的估计误差，只有当分组的数量趋向于无穷时其估计误差才趋近于常见的非参数密度估计误差，从而其估计不是有效的^{^[3]}。最后，即使我们有足够的理由去假定收入分布服从某个特定的参数分布形式，现有文献普遍采取的最小二乘拟合也是非有效的，在拟合分布函数的过程中，分组数据本身的结构就意味着我们可以构造出相应的矩条件，显然矩条件的数量可能超过未知参数的数量^{^[4]}，此时最小二乘拟合相对于广义矩（GMM）估计量是非有效的，其对应的权重矩阵是单位矩阵而不是矩条件的方差协方差矩阵的逆。

鉴于当前收入分布估计中存在的上述问题，本文基于Wu和Perloff（2007）发展的最大熵分布的广义矩方法估计中国城乡以及全国的居民收入分布^{^[5]}，并在此基础上计算对应的基尼系数以对比现有文献中的结果。鉴于大部分已知的分布都可以由最大熵分布刻画（Ryu，1993），利用最大熵分布可以避免分布函数误设导致的非一致性问题，并且相对于常见的非参数方法，其估计也更加有效。鉴于本文估计分布函数的方法是针对特定的分组数据的，我们首先在第二部分介绍统计年鉴公布的家庭人均收入分组数据的特征，其最明显的特点就是农村和城镇数据的分组方式不同，这也直接导致了估计方法的不同。本文的第三部分将详细介绍如何基于最大熵分布估计农村、城镇以及全国的收入分布，同时鉴于估计方法数值实现中的一些困难，本文指出了两个可以利用的算法。我们将在第四部分给出中国农村、城镇以及全国居民收入分布的估计结果，并分析其演变特征。同时为了对比现有文献中基于同一数据估计的基尼系数，我们给出了对应于这些分布的基尼系数。第五部分简要总结本文的内容。

[1] 王亚峰：男，1983年出生，汉族，江苏省东台市人，研究方向为微观计量经济学和劳动经济学，通讯地址为北京大学理科5号楼535，邮编 100871，电话 18801180629，E-mail: econyfwang@gmail.com。

[2]如章上峰等（2009）基于中国营养和健康调查中的个人收入信息利用非参数方法估计了中国城乡的收入分布。

[3]陈立中（2010）利用这一方法估计了中国城镇的居民收入分布。

[4]如下文所述，矩条件的数量是由收入数据分组的数量决定的。

[5]需要指出的是，虽然Wu和Perloff（2005）同样利用最大熵分布估计了中国1985-2001年的收入分布，其估计是基于最小二乘拟合而非广义矩估计的。