时间:2022年01月07日 分类:经济论文 次数:
摘要:文章从微博情感分析视角出发,通过网络爬虫抓取新浪微博评论数据,研究公众对中国经济高质量发展的社会评价。结果表明:从微博数据的情感值来看,公众对经济高质量发展持积极态度,对产业结构的评价最高,对空气质量的评价最低,对GDP和创业持理性态度,而对社保和房价的满意度有待提高;从词云图分析来看,高质量发展、GDP增速、结构调整、房价上涨、社保基金、空气质量指数、创业平台等是公众关注的热门议题。据此,通过把互联网的社情民意与政府的施政努力相结合,有针对性地改进和提升社会公众的满意度,对政府制定相应的政策具有重要作用。
关键词:情感分析;经济高质量发展;社会评价;词云图
0引言
我国经济已由高速增长阶段转向高质量发展阶段,探寻经济高质量发展的实现路径成为当前重要的议题。从理论上来看,研究经济高质量发展应当遵循两条思路,第一条思路是通过经济发展的宏观数据来考察经济发展质量,第二条思路是通过微观个体对于经济发展质量的反馈评价来考察经济发展质量。从实践上来看,经济高质量发展归根结底要落实到社会公众中去,那么社会公众对经济高质量发展的评价如何?微博作为公众发表观点、表达情绪、阐明态度的重要舆论场,经济发展质量的诸多问题均在微博评论中得以反映。
因此,本文从微博情感分析视角出发,通过网络爬虫抓取新浪微博评论数据并进行情感分析和词云图分析,以探寻当前公众对经济高质量发展的社会评价,这对于建立公众反馈机制、提高经济发展质量具有重要的理论价值与现实意义。对于经济高质量发展的研究,现有文献主要从经济高质量发展的内涵[1—8]和测度[9—15]两个方面展开。本文在此基础上从三个方面进行拓展和完善:
第一,从研究内容来看,已有文献多是针对经济高质量发展内涵和测度的研究,较少涉及经济高质量发展的社会评价;第二,从研究视角来看,已有文献多是利用统计年鉴的客观经济指标来考察经济发展质量,缺少站在公众立场上利用微博评论数据对经济高质量发展的社会评价;第三,从研究方法来看,已有研究多采用熵权法、层次分析法、模糊数学法、主成分分析法或计量经济学方法等,少有运用大数据爬取和Python语言将微博舆情文本分析用于经济高质量发展的有益实践。
鉴于社会公众对经济发展质量有着切肤体验并深刻影响着经济高质量发展,本文利用新浪微博评论数据,采用情感分析和词云图分析方法归纳公众对经济高质量发展的社会评价,这有助于丰富经济发展质量的微观研究,为探寻我国经济高质量发展的实现路径提供理论借鉴与实践参考。
1研究设计
本文以新浪微博平台数据为基础,借鉴任保平等(2019)[14]的研究,从经济效率、经济结构、经济稳定性、福利变化与成果分配、资源利用与生态环境和国民经济素质六个维度来考察经济高质量发展的评价指标体系,研究社会公众对经济高质量发展分维度的情感态度。
1.1数据搜集
数据搜集分为关键词选取和数据爬取,具体步骤如下:
第一,关键词选取。本文数据来源于新浪微博用户发表的微文,首先要确定微文话题,即关键词。关键词的选择应确保其准确反映经济增长质量不同维度的特点,与每个维度相关的可选取关键词。
发现部分关键词存在学术门槛,如“劳动效率”“城乡二元结构”等,导致话题讨论度不高、发言用户群体分布不均匀,不能保证样本的充足性;部分关键词囊括的范围过广,如搜索“环境”一词会出现“园区环境”或“小区环境”等景点或住宅的广告,搜索“雾霾”一词会出现“雾霾蓝”等淘宝商品的广告,导致样本纯度不高,不具有针对性;还有部分关键词囊括的范围过窄,如“第三产业”“环保”等词不能全面反映对应的评价维度,不具有代表性。综合来看,关于“GDP”“产业结构”“房价”“社保”“空气质量”和“创业”的微文相对于其他关键词的质量和切题度更高,故选取其作为六个评价维度的关键词,选取“经济质量”作为经济高质量发展整体评价的关键词。
第二,数据的爬取。本文利用后羿采集器对微博网页数据进行爬取,具体爬取方法如下:在新浪微博上进行高级搜索,输入关键词,时间定为2019年1月1日,复制网址到后羿采集器,按日期批量生成网址,得到2019年1月1日至2019年12月31日的所有网址,添加爬取字段并设置采集范围。采集的字段包含用户名、用户链接、微文、发表时间、转发量、评论量和点赞量。
1.2数据预处理
数据预处理具体步骤如下:第一,将爬取的数据从网页采集器导入Excel表格;第二,数据清洗,包括删除重复项和删除无效微文,删除重复项是指只保留同一用户在同一天多次发表或转发同一微文的唯一样本,删除无效微文是指删除广告等无关内容;第三,依照停用词表对停用词进行删除;第四,中文分词,由于中文没有空格分隔的特征,因此当前自然语言库中针对中文分词的较少,本文使用的是以Character-BasedGenerativeModel算法进行中文分词的SnowNLP文本分析库;第五,删除多余字段,最后统一保留150个字段。
1.3情感分类
情感分类是针对非结构化的网络评论,判断评论内容为正面态度或负面态度,进而得到整体的情感倾向。本文采用基于统计自然语言处理的方法,将文本信息表示成向量后通过机器学习来判断情感类型,具体步骤包括特征选取、特征权重计算和文本情感分类。第一,特征选取。即选取语义单位作为特征项,用以反映文本信息。特征选取直接影响文本分类结果,所以要选取既能真实反映文本信息,又能区分不同文本特征的语义单位。第二步,特征权重计算。特征权重代表对应特征对文本类型的影响程度,常用的计算方法有布尔权重、TF-IDF等。
第三步,文本情感分类。将以向量形式表示的文本信息,利用机器学习的方法按照不同的情感类别进行分类。本文采用Python中的一个自然语言处理库——SnowNLP库,它可以快速且高效地处理中文文本内容,并且自带训练语料,可以直接使用SnowNLP库预测文本情感分类。SnowNLP库通过朴素贝叶斯分类器将文本分为积极和消极两类,返回值越接近于1则表示文本内容越积极,而越接近于0则表示文本内容越消极。
1.4词云图分析
词云图是数据可视化的表达方式,是在分词基础上设计并实现的将文本数据中的高频词汇提取并以有趣、高效、新颖的方式呈现给阅读者的一种数据可视化工具。词云图中文字的大小反映该词组的词频,间接说明公众所关注的热点和主题,是数据展示的重要方式。
2结果分析
本文利用后羿采集器爬取新浪微博用户的微文数据,数据预处理后得到关于“经济质量”话题的微文28623条、关于“GDP”话题的微文30089条、关于“产业结构”话题的微文30865条、关于“房价”话题的微文32154条、关于“社保”话题的微文33991条、关于“空气质量”话题的微文34080条、关于“创业”话题的微文32274条,共计222076条。为了从情感值上更直观地展示出正负情感类型,本文将SnowNLP算法计算出来的情感值减去0.5,这样处理后的情感值就落在[-0.5,0.5]的对称区间内。
(1)经济质量,公众对于中国经济质量的社会评价情感均值为0.4645,是非常积极的,中位数高达0.4787,说明一半以上的发言用户对经济质量都持积极的态度,同时方差仅为0.0017,说明整体变化幅度不大。
(2)GDP,公众对GDP的情感均值为0.2748,表现为积极的态度,中位数为0.2873,说明一半以上的发言用户都是积极的态度,最小值为-0.1817,说明仍存在消极情感倾向,方差为0.0081,表明情感倾向波动较大。
(3)产业结构,公众对于产业结构的情感均值为0.4108,是非常积极的,中位数为0.4182,说明一半以上的发言用户持非常积极的态度,方差为0.0016,说明公众对产业结构的情感倾向变化较小。
(4)房价,公众对于房价的情感均值为0.1884,持积极态度,最大值为0.4089,最小值为-0.1831,方差为0.0052,说明情感值波动幅度较大。(5)社保,公众对于社保的情感均值为0.0364,属于中性的情感类型,最大值为0.2632,最小值为-0.2731,25%分位数处的情感值为-0.0166,说明超过25%的用户对于社保的评价是消极的。
(6)空气质量,公众对空气质量的情感均值是-0.1331,表现为消极情绪,是所有维度中最低的,最小值为-0.4572,最大值仅为0.2166,而中位数为-0.1000,说明有一半以上的用户的评论是消极的。空气质量情感值的方差为0.0258,是所有关键词中最大的,主要是受季节变化和地区差异的影响。
(7)创业,公众对于创业的情感均值为0.3591,属于积极的情感类型,方差为0.0025,最小值为0.1577,说明公众对创业不存在消极的评论。总体来看,微博用户对于产业结构的评价最高,而对于空气质量的评价最低,对GDP和创业持理性态度,而对社保和房价的满意度有待提高。且六个经济维度的评价差异十分明显,存在着很大的进步空间。为了更直观地显示情感值的变化趋势,绘制“经济质量”总体及不同维度的日情感均值变化图,并结合代表性微文分析各个关键词的情感趋势及词云图。
公众对“经济质量”的日情感均值一直维持在一个很高的水平,且整体变化幅度不大,说明微博用户对于我国经济质量持积极态度。当然,也存在一定数量的负面评价,但是日情感均值都属于积极评价。具体来看,公众对于我国经济质量的积极评价集中表现在对经济迅猛增长的喜悦以及对经济转向高质量发展的支持,消极评价集中表现在对我国经济现存问题的担忧。情感均值在10月的变化相对剧烈,在10月中旬和11月初的两次短暂骤跌均是受健康猫“庞式诈骗”事件的影响,除了几次剧烈波动以外,情感值还是相对稳定的。
具体来看,持积极情绪的微博用户表达了对GDP快速增长的赞叹,对国家繁荣的自豪。持消极情绪的微博用户表达了以下几个方面的观点:一是对用GDP总值反映区域经济增长表示怀疑,认为人均GDP能更好地说明真实国民收入水平;二是对城乡差异和地区差异的不满;三是对地方政府一味地追求经济增长率而忽视增长质量的不满,呼吁在追求经济增长的同时,也要关注经济与社会、城市与农村、发展与资源、投资与消费的平衡。
3结论与启示
随着中国特色社会主义进入新时代,社会公众对于经济高质量发展的诉求和愿望与日俱增,为了让人民群众拥有更多的获得感,就要搜集好人民群众对经济高质量发展的需求和反馈,更好地了解社会公众对经济高质量发展的所想、所需及困惑,从而有利于发现经济高质量发展存在的问题和不足,有针对性地改进和提升社会公众的满意度。因此,本文从微博情感分析视角出发,从经济效率、经济结构、经济稳定性、福利变化与成果分配、资源利用与生态环境、国民经济素质六个方面通过网络爬虫抓取新浪微博评论数据并进行情感分析和词云图分析,归纳当前社会公众对经济高质量发展的情感倾向与话题关注度,主要结论如下:
(1)从微博数据的情感值来看,整体上微博用户对我国经济高质量发展持积极态度,且波动幅度不大;从六个评价维度来看,微博用户对产业结构的评价最高,对空气质量的评价最低,对GDP和创业持理性态度,而对社保和房价的满意度有待提高;空气质量受季节变化和地区差异的影响,情感值波动最大,而产业结构的情感值波动最小。
(2)从微博数据的微文分析来看,微博用户类型主要分为个人用户、政府用户和媒体用户,其中关于“产业结构”话题的政府用户和媒体用户发言较多,而关于“创业话题”的个人用户发言较多;从词云图分析来看,高质量发展、GDP增速、结构调整、房价上涨、社保基金、空气质量指数、创业平台等都是微博关注的热门议题;从微文内容来看,正面情绪的微文主要是新闻报道、公众对政策的回应及积极情绪的个人经历或感悟,负面情绪的微文主要是对现存问题的反映,如城乡差异、买房难、社保体系不完善、空气污染和创业艰辛等。
以上研究结论对于我国经济高质量发展具有如下政策启示:
(1)对于社会公众的正面评价,要积极主动地推进政务公开,净化网络环境,传播正能量;对于社会公众的负面评价,特别是涉及群众切身利益和实际困难的事情,坚持第一时间、公开透明、尊重事实、正面应对、积极处置的原则,有针对性地改进和提升社会公众的满意度,使广大群众切实感受到社会的公平正义。
具体来说,在经济效率方面,要通过改革和创新不断挖掘增长潜力,实现经济数量增长和质量提升的统一;在经济结构方面,进一步积极推动供给侧改革,促进产业结构优化升级,培育战略性新兴产业,统筹城乡协调发展;在经济稳定性方面,要整治房地产市场秩序,建立促进房地产市场平稳健康发展的长效机制,保证物价总水平处于合理区间;在福利变化与成果分配方面,要加大对教育医疗卫生事业的投入,稳步提高社会保障统筹层次和水平;在资源利用与生态环境方面,要鼓励采用无污染能源,加大绿化建设和环境治理力度,改善群众居住环境和生态环境质量;在国民经济素质方面,要深入实施创新驱动发展战略,协同推进管理创新、模式创新、制度创新等各领域的全面创新。
(2)重视对网络平台热点词的监控预警,深入分析热点议题的发展趋势、舆论倾向和情感态度,利用传播中的首因效应、关联效应和共振效应,抓住改变舆情意见流向和正负态势的良好时机,从而避免刻板效应和晕轮效应。同时,政府部门要倾听民声、关注民情,适当以舆情研判数据为依据、以公众需求为导向提高执政能力,将互联网上的社情民意与政府的施政努力相结合,把百姓的关切作为实现经济高质量发展的工作重点,科学利用舆情数据为政府深入了解民情、制定顺应民意的政策作铺垫,不断提升人民群众的获得感、幸福感和安全感。
参考文献:
[1]DeakinM,ReidA.SustainableUrbanDevelopment:UseoftheEnvi⁃ronmentalAssessmentMethods[J].SustainableCitiesandSociety,2014,(10).
[2]FritzM,KochM.EconomicDevelopmentandProsperityPatternsAroundtheWorld:StructuralChallengesforaGlobalSteady-stateEconomy[J].GlobalEnvironmentalChange,2016,(38).
[3]任保平,文丰安.新时代中国高质量发展的判断标准、决定因素与实现途径[J].改革,2018,(4).
[4]金碚.关于“高质量发展”的经济学研究[J].中国工业经济,2018(4).
[5]张永恒,郝寿义.高质量发展阶段新旧动力转换的产业优化升级路径[J].改革,2018,(11).
[6]任保平,李禹墨.新时代我国高质量发展评判体系的构建及其转型路径[J].陕西师范大学学报(哲学社会科学版),2018,47(3).
[7]赵剑波,史丹,邓洲.高质量发展的内涵研究[J].经济与管理研究,2019,40(11).
[8]马茹,罗晖,王宏伟,等.中国区域经济高质量发展评价指标体系及测度研究[J].中国软科学,2019(7).
[9]JeffersonG,HuAGZ.Ownership,PerformanceandInnovationinChina’sLargeandMedium-sizeIndustrialEnterpriseSector[J].Chi⁃naEconomicReview,2003,14(1).
作者:师荣蓉a,b,张教萌