时间:2022年01月08日 分类:推荐论文 次数:
内容提要:我国城镇登记失业率指标稳定在4%左右,难以较为准确反映就业动态;而劳动力调查样本量有限,城镇调查失业率对省以下各级行政区域代表性不足。本文将针对大数据的机器学习算法与针对传统统计数据的核算思想结合起来,基于某四百万人口城市2016—2018年的全样本行政大数据,利用机器学习算法,对每个城镇居民每个月的就业状态进行预测,再利用统计核算方法,估计出该城市的失业率。在个人层面,本文的模型在样本外测试集上的准确率达到96.7%。经过统计核算加总,本文估计的当地失业率在合理区间范围内,并表现出明显的周期性特征,对就业形势动态变化的刻画明显优于当地一年发布一次的登记失业率数据。本文基于个人层面的预测结果,进一步探讨了当地失业人口的性别与文化程度特征,以及再就业的时间规律。本文针对如何使用行政大数据辅助经济决策提出了新的范式,对大数据时代如何理解经济与制定政策具有参考意义。
关键词:行政大数据;机器学习;统计核算;失业率
一、引言和文献综述
充分就业与经济增长、物价稳定和国际收支平衡是宏观经济发展的四大目标。其中,就业是民生之本,是“六稳”“六保”之首。2018年以前,我国政府部门发布的失业率指标中最主要的是城镇登记失业率,其与国际通行的失业率定义相差较大,并且数值长期稳定在4%左右,很难反映我国真实的失业水平(Feng等,2017)。2018年以来,国家统计局按月发布全国城镇调查失业率,是失业统计数据发布的重大进步,弥补了长期以来我国四大宏观经济指标的缺失,数据得到了社会各界的普遍认可。但由于劳动力调查样本量有限,城镇调查失业率对省以下各级行政区域代表性不足①。2021年,全国劳动力调查根据第七次全国人口普查进行新一轮抽样,适当扩大样本量,以满足城镇调查失业率等主要指标数据对国家及分省(区、市)有较好代表性。
许多学者使用其他数据对我国劳动力市场状况进行了估计。Giles等(2005)使用5个主要城市的住户调查数据对我国1996—2002年的失业率进行了估算;Feng等(2017)使用城市住户调查(UrbanHouseholdSurvey,UHS)数据对我国1988—2002年的失业率进行了计算。但由于我国具有代表性的劳动力调查较少,目前仅能回顾性计算部分年份的失业率数据,难以刻画最近若干年尤其是进入新时代以来我国的失业率动态。
近年来,随着大数据时代的到来,一些学者开始使用各种来源的旁证大数据构建指标,度量我国劳动力市场的运行动态。例如,使用互联网招聘数据(中国人民大学中国就业研究所和智联招聘,2019)、社交媒体数据(Bailliu等,2019)、网络搜索数据(任泽平等,2019)等,基于非统计核算的方法构建经济指标,可以实时反映劳动力整体以及细分市场的动态。但这些指标在核算意义上缺乏明确定义,依赖研究者的个人经验,其科学性与可靠性受到质疑。
本文从以上问题出发,将针对大数据的机器学习算法与针对传统统计数据的核算思想结合起来,使用某四百万人口城市2016—2018年的全样本行政大数据,构建基于行政大数据的高维个人特征,再使用机器学习算法,对每个城镇居民每个月的就业、失业状态进行预测,然后基于统计核算方法,估计出该城市的失业率。在已有的研究中,基于大数据的宏观经济研究主要使用旁证数据,如对GDP的分析(Giannone等,2008;徐康宁等,2015;Kapetanios和Papailias,2018;Yang等,2019)、对物价的分析(Cavallo和Rigobon,2016;姜婷凤等,2020;Yang等,2020)、对劳动力市场的分析(Toole等,2015;D’Amuri和Marcucci,2017;Simonescu和Zimmermann,2017;Cajner等,2018;Moriwaki,2020);行政大数据作为最常用的旁证大数据之一,已有文献展望了将其融入到政府统计工作和宏观研究中的诸多可能性(程开明和庄燕杰,2014;赵彦云,2015;黄恒君,2019;Cajner等,2019)。
在对失业率的研究中,计算或估计失业率的方法主要有4种:一是基于大量统计调查与核算的官方计算方法(曾湘泉,2018),二是基于小规模调查数据的估算(Feng等,2017),三是使用与就业数据相关的宏观指标构建向量自回归(VAR)等模型估算(Chang等,2021),四是使用旁证大数据进行回归估计(Bailliu等,2019)。本文在已有宏观经济大数据研究方法的基础上,对使用大数据预测、分析、理解宏观经济动态贡献了基于行政大数据与统计方法相结合的新案例,具有一定现实意义。在对失业率的估计中,本文所使用的方法与先前的方法均不相同,本文结合了针对大数据的机器学习算法与针对传统统计数据的核算思想,基于个人样本层面的机器学习模型输出对整体失业率进行核算。
此外,本文对理解我国劳动力市场变化提出了新的视角,并发现我国结构性失业人群中,女性所占的比重明显高于男性,这背后可能体现了劳动力市场中的性别歧视(迟巍,2008;Zhang等,2008;Kuhn和Shen,2013),对相关政策的制定有启发意义。本文的结构如下:第二部分将介绍文章所使用的数据,如何基于这些数据构建个人层面的基本特征,以及如何构建模型响应变量标签(失业/就业);第三部分对模型构建的过程进行详细介绍,包括模型算法、平衡样本构建和特征工程;第四部分介绍个人层面的模型结果,以及加总到城市层面的失业率估计结果,并对结果背后的机制进行分析;最后总结全文并提出未来的研究方向。
二、数据与描述性统计
(一)个人层面的全样本行政数据
本文为了对个人层面每个月的状态进行预测分析,使用了某四百万人口城市全部户籍人口和大部分外来常住人口在2016—2018年间的行政大数据。这一数据包括该市户籍和常住人口的身份信息,户籍住址信息,父母、子女、婚姻、出生死亡信息;全部的劳动合同备案①,社保的缴纳、报销、消费信息,入学信息,学生家庭学籍档案信息。
另外,本文还使用该市包含个体户在内的全部企业基本信息、组织职工信息以及企业为职工缴纳社保的信息。该市户籍与常住人口约400万,其中城镇常住居民约有240万人,筛选出符合劳动力年龄、非重度残疾、非在校学生的样本,在结合劳动意愿②对样本进行调整后,得到每月约142万城镇常住经济活动人口,后续的建模分析将基于这142万样本进行。
(二)数据的预处理
1.响应变量的构造。
使用企业匹配到个人的劳动合同备案,工作单位为员工缴纳五险一金记录以及个体户法人记录,在当月有这些记录中至少一条的样本被标记为当月就业;使用失业保险领取记录和教育局学籍档案中的父母失业信息标记失业样本,对于失业保险领取记录,当月、下月或下下月有则标记为失业,学籍档案的父母失业信息则只在该信息的登记时间标记为失业(一般为每年9月)。通过以上方法,得到了该城市部分样本的就业/失业标签,其中就业标签每月约为40万条,失业标签每月约为7000条。显然,这是一个非常不平衡的样本。在后续建模的训练集构造中,本文根据样本的就业失业分布调整了样本的平衡度,详见第三部分第二节。
2.协变量的构造。
本人相关人口特征。本人相关特征包括性别、年龄、宗教信仰、文化程度、政治面貌、居住区划、残疾等级、是否问题少年、是否有犯罪记录、是否涉毒、车辆总数、驾驶证扣分数、最近一次结婚距今时长③、最近一次离婚距今时长、当前婚姻状态、首次结婚年龄、初次结婚距今时长、首次离婚距今时长、首次离婚时年龄、首次劳动合同登记距今时长、最近一次劳动合同失效距今时长等。亲属相关特征。
亲属相关特征包括子女个数、最年长子女年龄、最年长子女性别、最年长子女文化程度、最年轻子女年龄、最年轻子女性别、最年轻子女文化程度、父亲年龄、父亲文化程度、父亲婚姻状况、母亲年龄、母亲文化程度、母亲婚姻状况、配偶年龄、配偶车辆总数、配偶工作状态、配偶最后一次统筹账户支付金额、配偶最后一次个人医保支付金额等。
本人社保相关特征。社保五险一金相关原始特征包括公积金缴纳总额、公积金最后缴纳月份、公积金最后缴纳次数、公积金支出总额、养老保险缴纳总额、医疗保险缴纳总额、失业保险缴纳总额、工伤保险缴纳总额、生育保险缴纳总额、居民医保保险缴纳总额、养老保险最后缴纳月份、医疗保险最后缴纳月份、失业保险最后缴纳月份、工伤保险最后缴纳月份、生育保险最后缴纳月份、居民医保最后缴纳月份、养老保险最后缴纳次数、医疗保险最后缴纳次数、失业保险最后缴纳次数、工伤保险最后缴纳次数、生育保险最后缴纳次数、居民医保最后缴纳次数等。基于这些原始特征,本文进一步使用特征工程构造新特征,以挖掘社保缴纳的状态和历史变化信息。
三、模型构建
(一)模型算法
在对就业/失业样本进行建模时,本文使用了随机森林、支持向量机、Lasso-Logit、KNN等多种方法(Hastie等,2009)。在各类方法中,随机森林算法在交叉验证中的表现最好,所以最终选择随机森林方法进行建模。随机森林是Bagging的一个扩展算法(Breiman,2001)。
随机森林算法使用决策树作为基学习器,构建了Bagging集成,并进一步在决策树的训练过程中引入了随机属性选择。在随机森林中,对基学习器决策树的每一个节点,先从该结点的特征集合中随机选择一部分特征子集,然后在特征子集中选择一个最优属性进行划分,从而完成基学习器的构建。在使用随机森林建模过程中,如果用同一个模型对所有样本进行预测,基于五险一金缴费记录构造的特征对模型的预测结果最为重要。然而在本文的数据中,有相当一部分样本在五险一金缴费记录方面特征缺失非常严重,导致这部分样本使用整体模型的预测结果一直不变,预测准确率也较低。因此,本文将这部分样本单独分开进行建模。
具体来说,将全部样本按照五险一金的历史缴纳种数拆分,将五险一金历史缴纳种数大于2的视为缴纳较全,将小于等于2的视为缴纳不全。对样本进行分类后,使用随机森林算法对两类样本分别进行建模和预测,再将两部分结果合并,即得到了全部样本的建模结果。针对五险一金缴纳较全和缴纳不全样本构建随机森林模型,模型参数如下。对于两个模型,决策树的个数均选择300,损失函数使用Gini不纯度,因为训练集中就业样本远多于失业样本,存在类别不平衡问题,所以本文在损失函数的计算中设置17∶1为就业样本比失业样本的权重,该权重是通过4折交叉验证选择的使得验证集precision和recall最平衡的参数。
对于基学习器决策树的最大深度,未设直接限制,而是使用节点分裂时的样本最小值作为正则方法:对于决策树节点分裂时节点中的样本数最小值,设定为10,即只有决策树节点中的样本数量大于10,决策树才会继续分裂;对于每颗决策树,使用Bootstrap方法从全部训练样本中选取1-1/e≈63.2%的样本作为该基学习器决策树的训练数据;在决策树每次分裂时。
在实际建模中,使用随机森林算法构建模型,并输出每个样本每个月处于就业状态的概率,其中缴纳较全样本的概率阈值为0.5,即高于或等于0.5判定为就业,低于0.5判定为失业;缴纳不全模型所使用样本受训练集的就业和失业样本比例影响较大,有标签的就业样本数量远多于失业样本数量,造成严重的类别不平衡问题,所以对于缴纳不全样本,本文设置概率阈值为0.8,即样本就业概率高于或等于0.8判定为就业,低于0.8判定为失业。
(二)样本构建
由于本文有标签的样本存在明显的样本不平衡问题,即样本中的就业标签远多于失业标签,为处理这一问题,在训练集的构造上调整了就业样本和失业样本比例。此外,本文在建模时增大了失业样本的权重,从而减轻了数据不平衡对算法精度的影响。在具体建模过程中,针对缴纳较全的样本,使用2017年1—12月与2016年9月缴纳较全的有标签样本数据,随机选取25%就业样本与全部失业样本作为训练集。对于缴纳不全的样本,使用2017年1—12月与2016年9月全部有标签样本数据,并随机选取25%就业样本与全部失业样本,作为训练集。因为缴纳不全样本的五险一金相关特征十分稀疏,所以在建模时没有使用五险一金特征。
四、模型结果与分析
(一)个人就业状态预测结果
本文使用基于随机森林算法的模型对该市全部样本预测了其就业/失业状态,展示了针对缴纳较全样本的模型和针对缴纳不全样本的模型在验证集上的混淆矩阵(ConfusionMatrix)。混淆矩阵由TruePositive(TP)、FalseNegative(FN)、FalsePositive(FP)、TrueNegative(TN)组成,在个人层面就业状态的预测建模中,分别代表预测为就业且实际为就业、预测为失业但实际为就业、预测为就业但实际为失业、预测为失业且实际为失业。
五、结论
本文将机器学习算法与统计核算思想结合起来,使用某四百万人口城市2016—2018年的全样本行政大数据,先利用机器学习算法,对每个城镇居民每个月的就业状态进行预测,再基于统计核算方法,估计出该城市的失业率,并对劳动力市场变化背后的原因进行了分析。
在个人层面,本文的模型在样本外测试集上的准确率达到96.7%,平均F1值达到0.885。经过统计核算加总,估算的当地2016—2018年月度失业率始终处于与国际上正常的失业率水平一致的区间范围内,并表现出明显的周期性波动,对就业动态的刻画明显优于当地一年发布一次的登记失业率数据。除了进行加总分析之外,也从个体样本的预测结果出发,理解劳动力市场变化背后的经济学因素。
从对失业人口的动态追踪来看,该城市大多数新增失业人口会在失业后两个月内找到新工作,说明劳动力市场整体比较健康;从对失业人群的结构性特征分析来看,女性、中年劳动力以及初中及以下学历人口的失业问题值得有关部门进行针对性的关注。总之,本文的研究对如何使用行政大数据辅助经济决策提出了新的范式,对大数据时代如何理解经济与制定政策具有参考意义。
参考文献
[1]程开明,庄燕杰.大数据背景下的统计:第十七次全国统计科学讨论会综述[J].统计研究,2014,31(1):106-112.[2]迟巍.中国城市性别收入差距研究[J].统计研究,2008,25(8):54-58.
[3]黄恒君.政府统计生产体系中的大数据融入探讨:基于数据源与数据质量的分析[J].统计研究,2019,36(7):3-12.
[4]姜婷凤,汤珂,刘涛雄.基于在线大数据的中国商品价格粘性研究[J].经济研究,2020(6):56-72.
[5]任泽平,熊柴,周哲.中国就业形势报告[R/OL].
[6]徐康宁,陈丰龙,刘修岩.中国经济增长的真实性:基于全球夜间灯光数据的检验[J].经济研究,2015,50(9):17-29.
[7]曾湘泉.调查失业率统计是促进更高质量和更充分就业的科学举措[EB/OL].