时间:2021年07月27日 分类:推荐论文 次数:
摘要:目的意义针对当前数字图书馆科技文献现有推荐方法中存在的语义缺失、情境缺失及潜在偏好挖掘不足等问题,提出基于科研人员情境化主题偏好的科技文献协同推荐方法。方法过程首先基于情境感知技术识别科研人员情境信息,其次引入文本语义技术LDA主题模型挖掘科研人员的初始情境化主题偏好,继而根据科研人员情境的相似度与协同过滤思想扩展科研人员的情境化主题偏好,最后基于融合后的科研情境化偏好构建满足科研人员情境化需求的科技文献推荐列表。结果结论实验结果表明,文章提出的基于科研人员情境化主题偏好的用户模型,能够较好地预测科研人员偏好,推荐效果更佳。
关键词:科研情境;情境化偏好;主题模型;科技文献;协同推荐
引言
在互联网时代的今天,每日有海量的科技文献被公开发表,知识库中的资源呈爆炸式激增,科研人员面临日益严重的“文献资源过载”问题。针对这一问题,有学者提出了“以用户为中心”的科技文献推荐服务,根据目标科研人员访问科技文献的历史行为信息,分析其兴趣偏好,从而主动推送其可能感兴趣的科技文献,以解决当前资源激增所引发的文献筛选难的问题。传统的个性化推荐方法,通常基于用户近期和远期的历史行为数据,结合兴趣衰减算法,提取出科研人员的长短期偏好模式。
然而,该方法存在以下不足:过早的行为数据可能成为噪声,生成的推荐结果无法满足科研人员的情境化需求;同时,其中弱相关性的信息会影响科研人员偏好特征提取的质量,导致推荐效果不佳。对此,需要以科研人员所处的情境为中心,通过分析和挖掘其情境化偏好,研究更为智能的科技文献推荐方法,进一步提升数字图书馆知识服务平台的个性化服务水平。
目前,众多国内外学者在情境化推荐方面展开研究,从多个角度提出了融合情境的推荐模型与方法。传统的情境化资源推荐研究模式大多通过构建情境模型,且模型可实现高级推理,利用规则匹配或推理规则对资源进行筛选过滤。基于知识表示和知识建模的情境化资源推荐方法虽然能够利用领域知识特征生成可解释性较高的推荐结果,且几乎不受用户评分的影响,但存在知识获取难度大、模型求解复杂度高、不利于全样本的预测等问题。
对此,机器学习、人工智能等技术的兴起,为情境化资源推荐研究模式的转变提供了新的思路。以机器学习和数据挖掘为基础的情境化资源推荐方法,是一种高效且高质量的资源过滤工具,通过分析和挖掘用户的情境信息、历史行为数据,学习和预测用户的情境化偏好,进而为用户推送满足其情境需求的资源。基于机器学习和数据挖掘方法的情境化资源推荐技术主要分为两类:①基于协同过滤的情境化资源推荐,将情境信息融入到用户相似度计算、资源相似度计算及模型计算过程中,以提高推荐的精准度[710。该方法尽管在电子商务、电影音乐等领域有广泛的应用,且能够挖掘出用户的潜在偏好。
但缺点在于:基于协同过滤的情境化推荐不考虑资源本身的特性,仅利用用户的打分评价等信息生成推荐结果。而数字图书馆科技文献服务中,缺乏用户的评分及评价等反馈信息;同时,科技文献内部蕴含了大量的语义信息,对文本语义的细粒度挖掘和表示在资源推荐中至关重要,不应弃之不顾。②基于内容的情境化资源推荐,通过分析用户在不同情境要素下对资源的偏好程度,找到用户、情境、资源之间的关联概率,然后根据用户所处的情境和资源属性向其推荐相似度较高的资源1115。
与基于协同过滤的情境化资源推荐方法相比,该方法不存在资源冷启动、数据稀疏等问题,并充分考虑到科技文献的特点,能够精准描述用户的情境化偏好,因而受到学者的广泛关注。但是,由于该方法一般只依赖于用户自身以往的情境化偏好进行推荐[11,难以挖掘用户的潜在偏好,导致推荐结果的多样性不足。为此,可以充分利用协同推荐思想,将具有相似情境的其他科研人员访问过的科技文献推荐给相关科研人员,从而进一步丰富推荐列表的多样性,解决由于个人知识局限引起的推荐列表单一性问题,协助科研人员在海量信息资源中获取有针对性的高质量文献。因此,研究融合情境的科技文献协同推荐同样具有重要意义和应用前景。
为此,本文定义了科研情境用以区别科研人员在不同科学研究过程中的个性化特征,在基于内容的情境化资源推荐框架下,采用改进的LDA主题模型挖掘科研人员的初始情境化主题偏好,而后基于科研情境相似度和协同推荐思想扩展科研人员的情境化主题偏好;最终精准定位科研人员的情境化需求,为实现个性化、情境化、多样化的科技文献推荐服务奠定基础。
1一种基于科研人员情境化主题偏好的科技文献协同推荐方法
情境化资源推荐过程主要包括情境信息获取、情境数据建模、情境化用户偏好提取、资源推荐。本文按照该框架,给出一种基于科研人员情境化主题偏好的科技文献协同推荐方法,包括科研人员情境信息识别与表示、科研人员初始情境化主题偏好提取、科研人员情境化主题偏好扩展、情境化推荐列表生成四个阶段。
1)科研人员情境信息识别与建模。首先给出刻画科研人员访问科技文献过程中个性化特征的各个情境要素,以此构建一个通用的科研情境模型;然后依据上述情境模型所确立的维度,从基本信息、任务信息、物理信息三个方面识别感知目标科研人员所处的情境。2)科研人员初始情境化主题偏好生成。以科研人员的情境信息、行为数据和访问过的科技文献内容为基础,利用改进词权重的LDA主题模型挖掘科技文献的内部语义特征,以表征科研人员的情境化主题偏好。
3)科研人员情境化主题偏好扩展。采用基于主情境模型树的评估方法筛选出情境相似度较高的科研人员,作为目标科研人员的近邻用户集,然后基于用户的协同过滤思想扩展目标科研人员的情境化主题偏好,将二者按照一定的规则融合,得到合并后的科研人员情境化主题偏好。4)情境化推荐列表生成。在得到科研人员情境化主题偏好的基础上,采用JensenShannon距离公式进行与候选文献集合的相似度计算,并依据TOP进行科技文献推荐。
1.1科研情境识别与建模
科研人员情境信息的精准识别,是实现情境化资源推荐服务的第一步。本节需要解决的问题有两个:①针对当前推荐服务,确定需要识别的情境类别。②采取有效的识别感知方式获取所需的情境信息。对此,首先给出了刻画科研人员访问科技文献过程中个性化特征的各个情境要素,以此构建了一个通用的科研情境模型;然后依据上述情境模型所确立的四个维度,结合具体的情境要素感知识别方法获取科研人员所处的情境。
1.1.1科研情境分析与建模
1)科研情境分析。
科研情境是指科研人员在访问科技文献过程中,用来刻画其个性化特征的信息17],是包括科研人员具有的知识结构、身份角色等内在因素及科研人员所处的时间、地点、工作任务、社会环境等外部因素的集合。研究发现,科研人员对科技文献的访问需求一般可分为两种情况:第一种是情境及其偏好在一定时间内相对稳定的用户,针对此类用户,结合相关科研人员的历史偏好及多维度科研情境,利用情境化资源推荐方法进行科技文献的推荐;第二种是伴随情境变化,引发偏好发生迁移的用户,这种情况下通常需要考虑科研人员偏好迁移后产生的新特征,建立情境化用户偏好模型动态检测和更新机制,采用系统自适应更新和用户参与更新技术,并利用情境化资源推荐方法进行科技文献推荐。
大多情况下,科研人员的研究方向是不变的,其研究任务和研究内容会保持一段时间相对稳定。因此本文的目的是,基于知识应用情境挖掘出科研人员的情境化主题偏好,在科研人员所处情境及其偏好未发生迁移的情况下,提出一种融合情境的科技文献协同推荐方法。为此,首先需要识别出科研人员特定的历史情境信息,然后找到该情境下关联的文献资源集合。
2)分层多维的科研情境模型构建。
为避免识别获取的科研情境信息存在冗余和格式不统一问题,进一步实现对情境要素的有效组织和存储,给出一个通用的科研人员情境表示模型。在综合权衡用来刻画科研人员文献资源访问过程中个性化特征的各个情境要素及情境信息可识别获取性的基础上,确立了四个科研情境维度:用户基本信息维、任务信息维、物理信息维及操作行为维度。
UB是科研人员基本信息要素的集合,主要包括知识结构、身份角色、科学数据素养能力等。知识结构由科研人员长期从事的研究领域所反映,本文采用王伟等建立的学科主题结构树18进行确定身份角色是指科研人员在进行科学研究过程时所承担的角色,分为重要型角色和普通角色。
本研究主要由科研人员的学历进行确定,一般认为拥有博士学历的科研人员在团队担当重要型角色,硕士及以下学历的人员在团队担当普通角色;科学数据素养能力19是指科研人员在进行科学研究过程中,对数据的收集、处理、评价、利用等能力及其过程中所涉及的思维、知识、技能和伦理规范。主要由数据意识、数据收集与评估、数据组织与管理、数据处理与分析、数据利用与归档、数据伦理六个维度的能力要素决定。
UT描述了科研人员在进行科学研究活动过程中所需解决的问题,主要通过任务类型、任务对象、任务检索词进行表示。任务类型通常包括文档撰写、程序编写、数据分析和文本阅读等;任务对象由当前的研究课题所决定;对任务的检索词进行识别和采集可以客观清晰地获取用户当前的任务意图。
UP是指科研人员访问获取科技文献的时间、地点及其使用的设备类型、网络状况;设备类型分为计算机设备和手机设备;网络状况分为良好和一般。UA是指科研人员访问科技文献时的历史行为集合。包括具体的科技文献操作对象及其操作行为,如浏览、下载、转发、收藏、评论等类型。
1.1.2科研人员情境感知与识别
为提取科研人员的情境化主题偏好,首先必须根据上述科研情境模型中确立的各个要素维度,识别获取科研人员所处的情境信息,然后才能依据科研人员在该情境下偏好的文献集合,构建其情境化主题偏好。因此,本节的重点在于如何识别科研人员的情境信息。
4种不同的要素维度对应于4种不同的情境感知识别方法:
1)科研人员基本信息维度要素识别。通过科研人员在数字图书馆注册信息阶段识别获取科研人员的知识结构、身份角色、科学数据素养能力等。2)科研人员任务维度要素识别。任务类型及任务对象在数字图书馆注册信息阶段识别获取;任务关键词通过分析用户行为事务集进行识别。
3)科研人员物理情境维度要素识别。时间、地点信息通过传感器感知识别获取;设备类型、网络状况通过相关设备接口进行感知识别。4)科研人员的操作行为维度要素识别。对科技文献具体的浏览、下载、收藏等行为通过分析用户行为事务集进行识别。通过以上情境信息识别方法,可以得到科研人员的情境信息及偏好数据,为后续科研人员情境化主题偏好的挖掘奠定基础。
1.2科研人员初始情境化主题偏好生成
1.2.1基于改进LDA的科技文献主题挖掘
基于LDA的文本主题挖掘模型,可以挖掘出资源内部的潜在语义特征,准确得到文献包含的主题及各个主题下的关键词及其权重。然而,由于LDA没有对输入文本的特征进行处理,通常使生成的主题区分度低、语义特征不明显且含有大量无意义的词汇。阮光册等提出的结合词权重的主题模型将词语的局部语义特征考虑在内,有效地改进了主题的语义表现能力。本文将采用阮光册提出的方法,通过科技文献特征提取和科技文献的向量化表示两个部分,完成对科技文献的主题挖掘。
1.2.2生成科研人员情境化主题偏好
在生成科研人员初始情境化主题偏好分布时,科研人员的情境化主题偏好计算取决于其历史行为和科技文献的主题挖掘方法。通过对科研人员历史行为的度量,可以使得到的用户偏好主题更加精确客观。因此,本文借鉴serLDA的思路[2提出一种带有行为权值的科研人员情境化主题偏好挖掘方法。
1.3科研人员情境化主题偏好扩展
由于受到科学数据素养能力的影响,通常科研人员的情境化需求不在其个人历史知识背景下,这意味着科研人员的情境化需求偏好与其历史访问文献不完全符合。因此需要对科研人员情境化主题偏好进行广度上的拓展。利用协同过滤直接向目标人员推荐特征词序列以构建目标科研人员的潜在偏好,是学者们广泛使用的一种方法。
一方面有助于挖掘科研人员的潜在偏好,另一方面可以缓解传统协同过滤推荐方法的冷启动问题。但是该方法未考虑科研人员所面临的真实情境,导致其需求偏好挖掘不足,相似群体度量误差较大。针对这一问题,本文尝试引入科研情境修正用户相似度,并提出一种基于科研情境相似度的用户协同推荐方法,通过分析和挖掘具有相同或相似情境下科研人员的历史偏好,帮助目标科研人员预测其潜在主题需求。
1.3.1基于科研情境的相似群体找寻
为了找到相似群体,首先需要对科研人员所处的情境进行相似度评估。上述内容已经将科研情境要素及其属性表达为树状结构,故而情境相似度的计算便转换为节点间相似度的计算。潘旭伟等提出的基于主模型树的相似性评估方法是当前一种比较经典的计算方法,该算法充分考虑了情境属性类别和模型维度不一致的情况。本文将沿用该方法,完成科研情境相似度的计算。
2实验
2.1实验设计
由于文献资源领域内目前尚未有包含科研情境因素的公开数据集,为验证本文提出的基于科研人员情境化主题偏好的科技文献协同推荐方法的有效性,笔者构建简易的科技文献服务平台以采集科研人员的情境信息及其情境化偏好,并邀请某大学位图书情报及相关专业的科研工作者作为本次实验研究的对象。要求每位科研人员根据自己所面临的任务情境,在开发的简易科技文献学术平台进行至少150次的访问行为,服务器实时监控记录科研人员的情境信息及检索、收藏、下载等行为。
为避免科研情境发生偏移,实验周期设定为一个月,两周内登录有效。实验过程中,首先利用采集到的科研人员情境化偏好信息,并结合本文提出的科技文献向量化表示方法,生成科研人员的情境化主题偏好分布;其次利用本文提出的相似度算法,计算每一位科研人员对每一篇科技文献的偏好值,然后将偏好值最高的TOP30TOP40TOP50TOP60TOP70的科技文献依次推荐给用户,要求每次推荐后科研人员对其感兴趣的文献进行访问。
2.2数据来源及实验环境
本实验的数据集来源于中国知网数据库,爬取图情领域内具有代表性的14种核心期刊(情报学报、情报理论与实践、情报科学、情报杂志、情报资料工作、中国图书馆学报、大学图书馆学报、国家图书馆学刊、图书馆论坛、图书馆杂志、图书情报工作、数据分析与知识发现、图书情报知识、图书与情报)的9874篇科技文献作为实验数据,爬取内容包括:标题、摘要、关键词、作者等信息。随后将其导入科技文献服务平台,用来采集科研人员的情境信息和情境化偏好数据。
2.3实验过程
实验过程包括三部分:改进LDA模型的科技文献主题挖掘;基于科研情境的相似群体找寻;基于改进DA模型的科研人员情境化主题偏好生成。
2.3.1基于改进LDA模型的科技文献主题挖掘
利用改进词权重的LDA模型以及向量化处理后的科技文本,既可以实现对科技文献的主题挖掘,同时也能得到每一位科研人员的情境化主题偏好。本文通过调用Python的sklearn包中的omponents及相关函数实现改进词权重的DA主题建模工作。
2.3.2相似科研群体找寻
首先,将初步采集的科研情境信息根据图进行处理,从而获得所有科研人员的情境取值。为了便于计算,本文对情境要素做了简化处理,并给出相应的案例,括号内的数值代表科研情境要素的权重,由相关领域专家进行赋权。
2.3.3科研人员情境化偏好主题全面展示
由于要计算每一位科研人员在某特定情境下对每一篇待推荐科技文献的感兴趣程度,在得到每一篇科技文献的主题—特征词分布后,还需要得到每一位科研人员的情境化主题偏好分布。
科研图书馆论文投稿刊物:情报科学特别注重追求理论精品,面向行业工作实际,不仅形成了求实创新的学术风格,成为同行之间进行学术研讨和业务交流的理想园地,而且也是国内情报学、图书馆学领域影响较大的学术性期刊之一,在国内组织的图书馆学情报学核心期刊评定中名列前茅。同时,在有关专家、学者进行的引文分析中,《情报科学》在许多评价指标,如学科隶属度、合著规模、平均引文量、引文时间分布、引文半衰期等方面在专业期刊中全文转载率位于第五位。
3结束语
为进一步提升数字图书馆知识服务平台的个性化服务水平,从而为科研人员推荐符合其情境需求的科技文献,本文提出了一种基于科研人员情境化主题偏好的科技文献协同推荐方法。尽管传统的基于协同过滤和内容的混合推荐在文献资源平台具有很强的适应性,但面对海量的科技文献数据,如何对其评分、如何界定科研人员的相似度,如何准确描述科研人员的情境化需求是该推荐方法面临的关键问题。
本文为了弥补该方法在科研人员相似度度量及情境化需求挖掘过程中的不足,特引入科研情境修正用户相似度。同时,本文将提出的基于科研人员情境化主题偏好的科技文献协同推荐和基于科研人员特征词序列偏好的科技文献协同推荐方法在真实数据集上进行对比。实验结果表明,该方法能够准确把握用户偏好,改进用户体验。本文提出的基于科研情境化偏好的科技文献协同推荐方法对数字图书馆知识服务的改善具有一定作用,可以更加精准地挖掘出科研人员的情境化偏好。
本文也存在一些不足之处,①实验过程中,科研人员的行为数据带有较大的主观性,因此上述实验结果存在一定的误差。②科研情境要素的权重赋值,直接影响到相似群体的度量。采用文献系统调研并结合相关专家的建议对情境要素进行赋权存在一定的误差。③数字图书馆环境下,科研人员的情境及其偏好复杂多变。本文聚焦在科研人员情境化偏好保持稳定的情况,提出的一种科技文献协同推荐方法。下一步研究中,笔者欲结合信息论中的熵值改进科研情境要素的赋权方法;并深入研讨科研人员情境化偏好模型更新的流程与方法,从而解决由于情境转移所引发的主题偏好迁移问题。
参考文献
[1]冯永张备,强保华等.MNHDRM:长短兴趣多神经网络混合动态推荐模型J].计算机学报,2019,42(1):1628.
[2]胡芳燚.基于用户兴趣和主题模型的混合推荐算法的研究与实现[D].北京:北京邮电大学,201
[3]王欣,张冬梅.“互联网+”背景下情境知识集成建模研究[J].情报科学,2017,35(6):3943.
[4]侯力铁.基于情景感知的移动图书馆个性化推荐服务研究[D].长春:吉林大学,2019.
[5]汪圳,刘成山,秦春秀.基于科研情境的数字图书馆知识推荐研究[J].情报理论与实践,2018,41(12):139143138.
[6]张亮任亚茹李梦茹等基于团队科研—知识应用情境匹配的数字图书馆知识推荐方法研究[J].情报杂志,2021,40(2):195200.
作者:李亚梅,秦春秀,马续补