第19章数据来源与变量描述

书签收藏评论目录封面

本章的研究建立在CHNS（中国经济、人口、健康与营养调查）1991-2004年数据的基础上。CHNS是由美国北卡来罗那大学人口中心和中国预防科学研究院营养与食品卫生研究所进行的关于中国居民家庭经济、人口、营养与健康问题的大型综合调查，该调查由福特基金资助，多家国际性机构共同参与。调查始于1989年，以后又分别在1991、1993、1997、2000、2004及2006年各进行一次。调查覆盖了全国8个省的城市和农村地区。

我们根据各年份中国经济、人口、营养与健康调查中家户调查资料，从中选取16-60岁有工资性收入者进行分析，而2004年则采用该年的成人调查数据。为了保证个人教育收益率的估计结果更为准确和一致，笔者对个人样本进行了再整理，剔除了不符合劳动年龄的样本，在校学生和退休人员也不包括在内。

1991年住户调查个人样本数为14778，符合要求的样本数为3424，平均受教育年限为8.79年，其中有6.9%受过大学及以上教育。

1993年住户调查共有个人样本13893个，符合16-60周岁的劳动年龄且有工资性收入的个人样本共3172个，平均受教育年限为8.84年，其中7.8%的人受过大专以上教育。

1997年住户调查共有个人样本15917个，符合16-60周岁的劳动年龄且有工资性收入的个人样本共有3195个，平均受教育年限9.46年，其中9.89%的人受过大专以上教育。

2000年住户调查共有个人样本数为15471个，符合16-60周岁的劳动年龄且有工资性收入的个人样本3420个，平均受教育年限达到9.79年，其中12.1%的人受过大专以上教育。

2004年的住户调查样本数13763个，并将成人调查的情况单独列出，成人调查的样本数为9856个，其中，符合条件的个人样本为1908个，有工资性收入的劳动力的受教育水平大大提高，平均受教育年限达10.55年，大学及以上学历者占到样本的20.85%。

2006年样成人调查样本数为9788个，符合有工作和工资性收入，且在16-60周岁的成人劳动力样本有7546个，平均受教育年限7.96年，平均年龄42岁，受过大学及大学以上教育者占样本总数的7.7%。

在数据处理过程中，我们把不包含奖金后的月工资与平均每月补贴之和作为有工资收入的劳动力的月工资率。而年收入的计算则根据以下公式得到：

年收入=月工资率×全年平均工作月数+年奖金数

而对于工作年限，我们用以下公式进行估计：

工作年限=年龄-学校教育年限-学前年龄

在数据处理中，我们以5岁作为样本的学前年龄。

1990年代初期，虽然大学毕业生的年工资收入要高于高中毕业生，但在一定程度上却呈现出学历越高，工资收入越低的现象，初中、高中、技校教育层次的劳动力，其收入反而比小学和小学以下教育层次的劳动力要低，表现出明显的“脑体倒挂”现象。在以后的年份，这一趋势到1997年才逐渐得到逆转。我们起初以为是人口统计学的差异导致了这一现象，但通过对年龄和性别等变量的分析，发现各年份各受教育组并没有明显的人口统计学上的差异。因此，我们有理由认为，中国在推进劳动力市场化的起始阶段，更高的学历并没有更高的工资，工资制度僵化，论资排辈和“吃大锅饭”的平均主义严重。但更多的高学历者仍然以在一级劳动力市场就业为主，很大部分的原因是大、中专/技校毕业生的就业仍沿袭了政府统招统分的格局。

由于数据资料的限制，我们无法像Psacharopoulos和Ziderman一样，利用丰富的职业等级数据划分主要劳动力市场和次要劳动力市场，但我们利用现有数据中有关职业和工作单位的刻画，同样可以较好地描述劳动力市场分割的特点。

根据我国劳动力市场的特点，我们设计了两个虚拟变量，来反映职业差异和单位差异对劳动者工资收入的影响。我们将城乡户籍虚拟变量作为衡量城乡分割的变量，性别虚拟变量则用来反映劳动力市场上的性别歧视问题，地区虚拟变量则可以反映地区工资差异。

第19章 数据来源与变量描述

第19章数据来源与变量描述