学术咨询

让论文发表更省时、省事、省心

基于情感分析的图书馆读者画像研究

时间:2021年02月03日 分类:经济论文 次数:

摘要:文章提出了基于情感分析的图书馆读者画像模型,即通过对图书馆读者的评论文本进行情感分析,得出图书馆读者情感极性从而采用本体的形式构建图书馆读者情感画像库,为读者的个性化推荐提供了新的研究思路,实现了读者的情感知识语义检索与共享。 关键词

  摘要:文章提出了基于情感分析的图书馆读者画像模型,即通过对图书馆读者的评论文本进行情感分析,得出图书馆读者情感极性从而采用本体的形式构建图书馆读者情感画像库,为读者的个性化推荐提供了新的研究思路,实现了读者的情感知识语义检索与共享。

  关键词:情感分析用户画像本体

图书馆

  一、情感分析与用户画像

  情感分析是在框架语义理论的基础上对文本提取情感框架知识并对文本进行情感信息采集、数据统计的过程。框架语义理论是美国语言学家菲尔墨于1976年提出的解决词语含义与句法结构意义的理论方法。该理论目前在国内外均有深入的应用,如美国构建了FrameNet语料库,国内也有汉语框架语义知识库CFN。截至目前,框架语义理论广泛应用于各行各业,如图书馆领域和医疗情感分析等。框架语义的研究应用为本研究提供了丰富的可参考语料知识。

  图书馆论文范例:公共图书馆服务平等、开放、共享理念解析

  交互设计之父艾伦·库珀最早提出了画像(Persona)的概念,但随着大数据的发展,目前画像一般是指在真实用户数据上构建的目标用户虚拟模型。画像技术通过对用户文本的分析可对其更深一步地做数据挖掘甚至是构建智能推荐系统;画像技术还可以对服务或者产品进行私人订制或个性化服务。目前国内画像技术在图书馆个性化推荐方面已有相关应用,充分说明用户画像技术与图书馆个性化服务的有效性与可行性。

  国内已有文本分析与用户画像技术的有机结合,两项技术结合的应用也是非常广泛的,单晓红利用酒店文本评论数据对酒店用户进行画像,而任中杰等人利用微博数据构建了一种预测公众情感倾向程度的用户画像模型。然而,国内图书馆个性化服务存在情感缺失、信息获取不足等问题,不能有效满足读者兴趣的个性化读物推荐需求,对读者的深层需求不能有效挖掘。此外,目前情感分析领域存在专业领域词典缺乏、情感语料库建设不充分等问题;画像技术也较少地提及用户情感,更多地用于普遍商业领域。因此,本文提出基于情感分析的图书馆读者画像研究方法,在读者的画像构建方法上提出相关模型,对图书馆读者的情感画像构建方法进行探讨。

  二、图书馆读者情感画像构建方法

  (一)图书馆读者情感画像模型

  图书馆读者情感画像模型可分为四步:爬取在线评论文本、文本预处理、读者语义资源建设和读者情感画像库构建,其中前三步均是情感分析的内容,读者画像库的构建是基于情感分析的。

  (二)图书馆读者文本情感分析方法

  1.在线文本来源。微信公众号、微博和官方网站三个平台是国内图书馆相关服务获取的三个主要社区网络媒体平台。其中,微博平台具备用户实名制、易追踪和数据爬取容易等优势。因此,以微博用户评论数据为基础数据,能够保证画像的全面性与准确性。在线文本可借助如八爪鱼等专业的文本爬取工具直接爬取文本相关信息,如原始文本、用户昵称等。

  2.文本预处理。断句、分词和词性标注以及句法分析是文本预处理的三项主要任务。国内目前已经有相对成熟的文本预处理平台可供使用,如哈工大语言技术平台LTP,借助该平台API接口,可实现录入文本直接输出结果的快捷化批量完成结果的过程,从而提高文本预处理的效率。

  3.读者情感语义资源建设。读者情感语义资源建设包括情感词典的建设与语料知识库的建设。情感词典由情感词和该情感词的极性值共同组成,语料知识库则由情感词典与其对应框架相关元素等共同组成。基于词典的是情感分析的基础,词典的准确性与情感分析的质量密切相关。国内外词典资源广泛,如Hownet词典、BosonNLP情感词典等等,但领域内的情感词典相对匮乏,因此有必要在现有词典的基础上进一步扩展领域内词典。针对图书馆读者的评论文本,对每一个情感词选取20个及以上句子,参考FrameNet和CFN知识库,对情感词完成框架匹配以及情感极性分类。

  情感极性以数值表达,如为负数值则表示该情感词为负面情绪词,如为0则表示该情感词为中性词语,若为正数值则为正面情绪词。情感极性值的范围可定为[-1,1],数值的绝对值越大表示该情感词所表达的情绪越强烈。此外,情感极性值还需考虑修饰词的影响,如为程度词则需要在原有情感极性值的基础上进行计算,如果原有情感词极性值为负数则减去这一程度值,反之则加;如为否定词,则整体情感极性值变为其相反数。如下表所示为[难过]框架的基本内容:如对文本“最近心情失落,总不知道想干些什么,索性便开始读书。”一句中可识别出情感词为“失落”,句中无修饰词,查找词典得到该词情感极性值为“-0.3”,隶属于[难过]框架。

  (三)图书馆读者画像方法

  1.图书馆读者画像标签体系。画像结果一般以标签体系的形式体现。标签体系由画像独立的标签共同组成,图书馆读者的画像标签体系可以划分为读者基础信息和情感分析结果两个维度。

  2.读者情感画像库构建方法。对情感分析之后的情感知识,按照读者进行分类,以个体为基础单元对图书馆进行情感画像。基于本体的用户画像构建方法虽然相对复杂,但是本体的语义理解性高于其他方法,而且借助本体能够对图书馆读者的情感知识实现语义共享与检索。图书馆的读者标签数据以本体的形式进行存储。本体工具protégé是斯坦福大学医学院生物信息研究中心研发的用来存储RDF三元组的软件,该工具具备用户界面友好、支持中文等特点。

  Protégé作为一款本体编辑和知识获取软件,在对图书馆读者进行画像时,标签维度以类的形式新建,标签名称可以作为子类添加,而读者分析数据则可以作为实例。此外,protégé工具支持图表化,读者的画像数据可以直接在该工具中实现。本体本身具备 规范性,因此,存储在本体中的读者画像数据在上传之后即可实现读者的情感知识数据共享。

  (四)图书馆读者情感画像应用价值本文提出了图书馆读者情感画像模型,该模型将情感分析与画像进行有机结合,应用价值有如下几点:其一,图书馆可以根据读者的画像结果提高个性化推荐服务的质量。读者的画像结果中包含了大量情感信息,从情感信息中可以筛出患有心理疾病的读者,通过对读物的匹配可以帮助读者度过情绪困境,提高个性化推荐服务的质量。其二,对图书馆读者的在线文本进行情感分析可以积累完善情感词典与知识库。从微博评论中爬取的读者评论包含很多情感信息,通过对这些情感信息的标注分析,可以进一步完善领域内情感词典缺乏的劣势。

  三、结语

  本文提出了基于情感分析的图书馆读者画像研究模型,为图书馆服务的发展提供了新的研究方向。图书馆可以根据读者的情感画像结果为读者提供个性化图书推荐服务,帮助读者度过情绪低谷;另一方面,基于情感的图书馆读者画像丰富了图书馆个性化推荐的研究方法,为图书馆个性化推荐提供了新的思路。

  参考文献:

  [1]FillmoreCJ.Framesemanticsandthenatureoflanguage[J].AnnalsoftheNYAcademyofSciences,1976

  [2]刘丹,张兴刚,任淑敏.基于用户画像的高校图书馆阅读疗法模式[J].中华医学图书情报杂志,2018(7)

  [3]由丽萍,何玲玲.基于框架语义的在线医疗评论情感分析[J].现代情报,2020(3)

  [4]单晓红,张晓月,刘晓燕.基于在线评论的用户画像研究——以携程酒店为例.情报理论与实践,2018(4)

  [5]柳益君,罗烨,蔡秋茹,吴智勤,何胜.基于机器学习的高校图书馆个性化智能推荐服务方案[J].图书馆研究与工作,2020(3)

  [6]刘开瑛,由丽萍.现代汉语框架语义网[M].科学出版社,2015

  作者:苏菊芳