学术咨询

让论文发表更省时、省事、省心

基于数字远读技术的社会画像构建方法研究

时间:2022年07月02日 分类:推荐论文 次数:

摘 要: [目的/意义] 数字远读视角下分析历史典籍,将特定时期社会通过可视化等综合技术展现给研究者,以帮助研究者量化史学研究。[方法/过程] 以社会发展过程中产生的文本数据为基础,借鉴用户画像概念,提出社会画像的构建方法。根据各发展分面内在逻辑数据

  摘 要: [目的/意义] 数字远读视角下分析历史典籍,将特定时期社会通过可视化等综合技术展现给研究者,以帮助研究者量化史学研究。[方法/过程] 以社会发展过程中产生的文本数据为基础,借鉴用户画像概念,提出社会画像的构建方法。根据各发展分面内在逻辑数据构建社会画像描述框架,利用多种文本挖掘技术抽取不同维度的特征标签,形成社会画像,并以先秦时期为例进行实证研究。[结果/结论] 借助基于史实的社会画像,能够全景化呈现社会发展状况,可以为研究者快速获得古代社会概貌提供支持,具有一定的实践意义和价值。

  关键词: 社会画像; 数字远读; 用户画像; 文本挖掘; 社会发展

数字信息

  2010 年,莫莱蒂引入远读概念将数字技术应用于人文学科,形成跨学科的数字人文研究[1]。在没有理论假设的前提下,文本内容挖掘及可视化分析利用数据挖掘、文本聚类、分类等方法,可以从海量数据中发现知识,寻找隐藏在数据中的模式、趋势和相关性,揭示事物现象和发展规律,是对数字人文的可视化展示,为数字文本提供全局图景,可以很好地应用于史实的研究[2]。但目前的研究多集中于对大规模历史资料进行单一领域的定量分析,如历史地理信息可视化[3]、领域知识组织[4]、社会网络分析[5]和主题挖掘[6]等。而日益蓬勃发展的用户画像技术,以大量具有时效性的真实用户数据为数据基础,抽取其中的属性、行为等特征形成用户模型,具有全面性、时效性、真实性、动态性以及代表性等特征[7]。

  画像技术有助于在数字远读处理中,进一步细分分析的颗粒度。用户画像技术及数字远读技术的蓬勃发展,为文本进行多维度社会画像分析提供了坚实的技术基础,本文尝试面向典籍,基于文本挖掘视角试图为研究者提供不同历史时期社会的 “放大镜”。借鉴用户画像概念,本文采用 “社会画像”一词,借以描述从文本角度构建的不同历史时期多维度的社会画像描述框架,然后结合历史中的相关人物、事件、物体等数据,建立古代社会画像标签体系,利用定性与定量相结合的方法,从不同角度、不同层面对古代社会进行分析展示,试图形成当时的社会画像。以先秦时期为例进行实证研究,结果表明,本文提出的社会画像构建技术,能够有效形成面向文本的社会概貌描述,对于提升大规模文本的快速有效分析具有一定的实践意义和价值。

  1 相关研究

  1. 1 用户画像

  用户画像研究最初由交互设计之父 Cooper A[8]提出,他认为用户画像是 “基于用户真实数据的虚拟代表”。用户画像根据用户信息来提取典型的用户特征,如用户的基本属性特征、行为特征、社交特征等[9]。在基于 VSM 的用户画像研究中,研究者用加权的 VSM 模型来表示用户画像,VSM 模型主要用于关键词的获取和赋权,通过获取用户行为数据、内容数据、互动数据和情景数据等使用数据[10],从中抽取关键词构成用户画像的标签数据,常使用布尔值、词频或词频—逆文档频率用以赋权值。其核心思想是将文本看作一个词袋模型,用向量集合来表示文档,每个向量由特征词与权值组成,权值反映特征词对表示文本的重要程度。用户被表示为从用户使用数据中抽取的关键词及相应权重组成的向量,通过计算欧几里得距离、曼哈顿距离、闵科夫斯基距离、余弦距离来测量用户间的相似度[11-13]。

  用户画像的标签数据主要有两种来源,一种是通过人工添加标签,因其需要大量的人力物力,较少被使用; 另一种是对大量文本语料进行文本挖掘抽取特征词进行标签表示。文本挖掘技术多用于用户画像的标签数据获取,如图书馆基于知识挖掘的智慧推荐服务[14]。大多数用户画像的标签数据通过对用户使用数据进行关键词抽取,挖掘相关信息的属性特征,如从数字图书馆使用数据中获取学术用户的研究兴趣[15],通过对用户的访问频率、检索习惯、检索内容等和信息行为相关的数据进行分析,实现与用户兴趣相关的文献推荐。

  1. 2 数字远读“远读”的概念

  最早由莫莱蒂于 2000 年提出,利用定量分析的方法聚焦于众多文本单位之间的关联,从 中 发 现 规 律,以获得宏观视野[16]。2005年,他又提出利用表图、地图和树图 3 种抽象模型,收集和解释数据,进行实证化探索研究[17]。实质上,莫莱蒂提出的远读是通过分析数据,利用实证性模型验证人文学者的相关研究,从宏观角度研究人文学的发展。大规模文本集合上的远读,主要分为宏观统计描述和内在结构特征揭示两种,其结果都是文本的宏观抽象表达,需 要 进 一 步 解读[1]。通过宏观的分析,利用计算机技术量化描述文本特征,帮助学者深入解读文本潜在规律,对于历史学者而言,可以获得全新的视角来观察超长历史时间段的文化现象。可视化作为远读的重要呈现手段,在实际研究中多使用标签云、网络图、结构图、热力图、地图、时间线图 6 种可视化方法。

  其中,标签云用以展示高频词汇,网络图可以反映文本内或文本间信息的相互关系,结构图可以展现语料库或单个文档的层级结构,时间线图则可以反映历史数据随时间的演化。因此,可以认为远读是数字文本的可视化形式,用以描述文档集合的全局特征,帮助学者获得整体认知,方便研究人员更快发现文档内部的潜在关联,快速选择研究角度深入分析。综上,本文在数字远读研究的基础上,结合用户画像研究,提出 “社会画像”这一概念。社会画像即社会发展概貌,由特定时期社会发展描述的基本维度汇聚而成。通过抽取每个维度的描述概念构成社会特征标签,使用社会特征标签构建社会画像并进行可视化展示。基于社会特征标签,利用定性与定量相结合的方法,从不同角度、不同层面对社会发展维度进行分析,可快速、清楚地了解该时期社会发展的主要特征。

  社会画像具有以下特征:1) 结构化: 建立社会描述文本分析框架,缩小文本分析的颗粒度。2) 自动化: 利用文本分析技术,抽取社会画像特征标签,自动构建社会画像。3) 可视化: 在文本计算的基础上,帮助研究者形成快速的多维度分析结果。

  2 基于数字远读技术的社会画像构建流程

  基于数字远读技术的社会画像可用于验证或辅助历史学科的相关研究,为研究者快速获得古代社会概貌及各方面发展特征提供支持,同时帮助构建更符合现代人阅读习惯的古汉语数字产品。社会画像的构建主要包括两个部分: 社会画像描述框架和社会画像标签体系。其中,社会画像描述框架是社会画像构建的基础,而社会画像标签体系是社会画像呈现的具体数据来源,可以更细致地反映特定时期社会各分面发展状况,并较为全面地呈现该时期主要发展特征。利用标签体系抽取社会特征标签并进行可视化处理,综合展示社会画像的效果。

  2. 1 社会画像分面描述框架的构建

  在社会评价指标方面,国家发改委和国家统计局联合制( 修) 订的 《社会发展水平综合评价方案》提出四大维度,涉及人口发展、生活水平、公共服务以及社会和谐; 联合国使用人文发展指数,由健康指数、文化指数、生活水平指数复合组成。相关研究方面,王文博等[18]提出社会发展水平评价的6 个板块,分别为人口发展、人民生活质量、经济发展、社会公平与协调、安全与政治进步和生态环境; 代金辉等[19]构建了社会发展水平统计模型,包括经济、人民生活、教育、科技、精神文化、医疗卫生 6 个要素层; 张艳丰等[20]在应用层面提出智慧城市数据画像分析框架,包括智慧治理、智慧民生、智慧经济、智慧环境、创新驱动 5 个维度。综上,社会画像分面描述框架需要涵盖与社会发展相关的政务、生活、经济、教育、环境以及创新等领域。本研究试图通过文本统计方法借以描述特定历史时期内社会发展的总体状况。前期对历史典籍进行了文本聚类[21-22],因此,本文综合考量社会相关评价指标及前期研究文献,拟从政治、经济、文化、社会、军事 5 个层面构建社会画像描述框架 SD。

  2. 2 社会画像候选标签的获取

  社会画像描述框架是构建画像的基础,在此基础上需要从相关文本中获取语义相关的词汇用于描述框架中的每个分面,借以形成以词汇为基础的社会画像。候选标签的获取工作便是从古汉语文本数据中,抽取出社会画像描述框架 SD 中的具体事实信息称为概念实体,如人名、地名、时间、物品及事件等。通常情况下,某一时期社会发展中越有影响力的事件,在这一时期的社会文本中记叙的篇幅越长、内容越多。因此,本文利用社会画像标签体系构建用户词典,在只考虑词频的情况下对语料库进行抽词,通过计算候选标签在数据集中的总词频与该词在数据集中覆盖程度之间的乘积,得到候选标签及其初始权值。

  2. 3 社会画像特征标签加权

  计算为进一步区分候选标签的重要程度、加强特征标签与社会发展分面之间的映射关系,更好地区分抽取出的特征候选词的重要程度。本文利用改进的社会发展向量模型对已抽取社会特征候选词的权重进行修正,修正后的特征候选词权重为该词的初始权重 SEAi 值与该词所属类别的成分得分系数的乘积[23]。本研究针对春秋时期历史典籍语料数据,通过分别统计抽取的候选标签所表征的事件种类和个数,以春秋三传中时间划分为文本组织标准,形成了 255 个观测数据样本。利用主成分分析法进行降维因子分析,并利用 KMO 和 Bartlett 球形度检验定量的检验变量之间是否具有相关性。

  3 社会画像构建实证分析

  为验证本文提出的社会画像构建方法的有效性,本文选取先秦时期进行社会画像构建的实证分析。先秦时期作为中国历史上重要阶段,学者们研究较为深入,相关研究成果能够支撑本文实证效果的验证。《左传》作为先秦时期重要典籍,保留了大量先秦春秋时期政治、经济、文化、军事等各方面的信息。因此,本文以已进行人工分词和词性标注的 《左传》语料[24]为代表,作为春秋时期社会画像的重要文本来源。

  3. 1 以《左传》文本为例的社会画像构建

  首先,本文利用 《春秋左传词典》 《汉语大词典》构建春秋时期社会画像描述框架; 其次,本文抽取 《左传》中与社会发展相关的客观描述性文本,构建春秋时期社会语料库,利用社会画像标签体系构建用户词典进行社会标签抽取。选择计算 SEAi 结果排名前 50%且出现在两篇以上文档中的词作为春秋社会特征,共筛选得到311 个候选标签,因古汉语多使用单字且语义多样,因此,同现代汉语相比,抽取难度较大。使用改进的社会发展向量模型对已抽取候选标签进行加权,并做归一化处理,筛选后得到的春秋社会特征标签及其对应权重。

  大多数特征标签权重较低,仅少数特征标签的权重大于 0. 6。因此,可认为权重高的特征标签是 《左传》描述的春秋社会的主要特征,关注高权重特征标签可以帮助发现春秋社会的显著特点。计算特征标签在春秋社会画像标签体系中的映射距离及关联系数,根据特征标签关联系数及其权重绘制春秋时期的社会画像。总体上春秋时期社会特征标签主要被分为四大类,具体为 “政治” “社会” “文化”“军事”,其中与 “政治” “军事”相关的特征标签最多,“文化”类特征标签次之,“社会”类特征标签最少。在 《左传》中记叙与经济发展相关的事件描述非常少,因此,特征值排名前 50 的词中没有经济相关的特征标签。

  3. 2 以《左传》文本为例的社会画像分析

  3. 2. 1 社会画像维度分析

  根据已构建的社会画像描述框架,对构建的社会画像进行不同维度的描述。其中,基本信息维度通过对文本原始数据进行定量分析来描述,物质文化维度和非物质文化维度通过对春秋时期社会画像的标签数据进行定量分析来描述。

  1) 基本信息维度。用于描述某一时期社会的基本信息的特征标签,如社会中的诸侯国、氏族、部落、主要人物及其相关的地理位置等信息。

  从基本信息维度进行分析。 《左传》所记历史共 254 年( 公元前 722—公元前 468年) ,涉及东周王朝君王共 17 位,包含 8 个主要诸侯国: 齐、宋、晋、秦、楚、吴、越、郑,记载约113 个氏族、47 个部落,以戎、狄、皋落氏为主要代表,整个春秋时期的主要人物包括秦穆公、晋文公、齐桓公、宋襄公、楚庄公等。

  2) 物质文化维度。描述社会物质类的特征标签,包括实体类信息,如具体的器物、建筑、景观、宫殿等,以及对实体起描述作用的描述性信息。《左传》所记叙的春秋社会物质文化维度具体包括器具、建筑类型、宫殿、宗庙和生产材料等方面。其中,器具根据用途分为刑具、农用器具、工业器具、祭祀用具、礼器、兵器和日常用具; 建筑类型专指古建筑类型,包括宗庙、宫殿、门、亭台等; 在经济生产材料方面,工业材料主要为铁、铜等,手工业材料主要为丝、布、麻、毛等。整体来看,春秋时期的物质文化多以祭祀需要和军事防御为主要目的,同时由于 《左传》中经济相关记叙较少,抽取出的经济生产材料相对较少。3) 非物质文化维度。用于描述社会非物质类的特征标签,包括具体的民俗、文化相关人物等实体类信息,以及对应的描述性信息。

  3. 3 结果分析

  现有的数字远读分析主要集中于高频词分析、主题聚类及情感分析等。本文提出的社会画像分析主要针对历史文本,建立社会发展描述分析框架,将词频分析在一定程度上提升为语义类别的分析,通过抽取相关语义类别的概念进行可视化描述。从本质上说是基于统计手段为人文学者文本深度分析提供了一种数字化处理的手段。从定性评价的角度,春秋社会画像将这段历史时期从军事、政治、社会及文化 4 个层面,通过对重要的人物、地点、事件、物件进行分析与统计,较难用量化方法准确衡量每个维度的描述准确性。《春秋大事表》是清代研究 《春秋》经传的一部重要著作,作者顾栋高对春秋及其三传做了分类整理和实证研究[25]。本文将研究结果与 《春秋大事表》进行对比,本文的量化统计结果较为吻合。由于本文语料来源的限制,经济类别未涵盖在统计结果中。部分词类活用的词汇未能准确反映类别特征。总体而言,验证了本文提出的社会画像方法能够在一定程度上实现对文本的结构化和语义化分析。

  4 结 论

  对典籍数据进行社会画像的主要目的是将古代社会发展过程中的描述文本通过可视化技术进行分析展示。本文在相关理论研究的支持下,借鉴用户画像概念,提出社会画像及社会画像描述框架,利用社会画像标签体系抽取特征标签来表示社会特征,并构建该时期的社会画像。为验证本文提出方法的有效性,针对先秦典籍文本,构建了春秋时期社会画像,主要包括政治、军事、文化及社会 4 个发展分面,主要特点为外交类政治事件频繁、战争频发、注重礼乐文化。画像结果与相关历史研究结论相符,表明本文提出的社会画像构建方法可以为研究者快速获得古代社会概貌提供支持,具有一定的实践意义。本文的春秋社会画像构建研究还存在许多不足。首先,需要完善社会画像描述框架,需要更多的数据来丰富框架内容; 其次,在基于社会画像标签体系的特征标签抽取算法中,需要进一步考虑词与词之间丰富的关系,拓展现有的词间关系; 最后,由于分析的社会语料较为单一,没有实现对不同时期的社会画像进行比较和分析,这对深入探索古代社会尤其是先秦时期社会的发展变迁也很重要。以上不足需要在后续研究工作中继续改进和优化。

  参 考 文 献

  [1] 王 军. 从人文计算到可视化———数字人文的发展脉络梳理[J]. 文艺理论与批评,2020,( 2) : 18-23.

  [2] 欧阳剑. 面向数字人文研究的大规模古籍文本可视化分析与挖掘 [J]. 中国图书馆学报,2016,42 ( 2) : 66-80.

  [3] 潘威. “数字人文”背景下历史地理信息化的应对———走进历史地理信息化 2. 0 时代 [J]. 云南大学学报: 社会科学版,2018,17 ( 6) : 80-87.

  [4] 邓君,钟楚依,王阮,等. 清代职官知识组织与关联分析———以《长春县志·长春职官考释表》为例 [J]. 图书情报工作,2020,64 ( 17) : 18-26.

  [5] 宋雪雁,崔浩男,梁颖,等. 数字人文视角下名人日记资源知识发现研究———以王世杰日记为例 [J/OL]. 情报理论与实践: 1-10 [2021-01-20].

  [6] 何琳,乔粤,刘雪琪. 春秋时期社会发展的主题挖掘与演变分析———以 《左传》为例 [J]. 图书情报工作,2020,64 ( 7) :30-38.

  [7] 汪倩,徐勇,张心蕊,等. 用户画像研究进展综述 [J]. 现代计算机,2020,( 24) : 60-63

  选自期刊《现代情报》2022 年 7 月

  作者信息:何 琳 艾毓茜 刘建斌 彭秋茹( 1. 南京农业大学信息管理学院,江苏 南京 210095;2. 南京农业大学人文与社会计算研究中心,江苏 南京 210095)