学术咨询

让论文发表更省时、省事、省心

基于动态特征的学者推荐研究

时间:2022年04月19日 分类:经济论文 次数:

摘 要: [目的/意义] 在开放的知识交流环境中向学者推荐具有相似研究兴趣的学者有助于学者高效获取到所需的学术资源,更好地开展学术研究和学术交流。[方法/过程] 首先利用 LDA 主题模型提取学者的科研兴趣特征,同时引入时间因子加权兴趣特征,形成学者动态兴趣矩阵,

  摘 要: [目的/意义] 在开放的知识交流环境中向学者推荐具有相似研究兴趣的学者有助于学者高效获取到所需的学术资源,更好地开展学术研究和学术交流。[方法/过程] 首先利用 LDA 主题模型提取学者的科研兴趣特征,同时引入时间因子加权兴趣特征,形成学者动态兴趣矩阵,基于此使用 K-means 对具有相似研究兴趣的学者进行聚类分析,并在类簇内综合学者的科研能力和社交属性两个维度构建学者推荐模型。 [结果/结论] 以 “百度学术”数据集对模型进行验证,实验结果表明该模型能够很好地发现相关学者,满足可操作性和推荐结果有效性。在学者推荐过程中引入更贴近现实的动态兴趣特征对推荐结果具有一定效果。

  关键词: LDA 主题模型; 动态特征提取; 聚类分析; 学者推荐

情报理论与实践

  信息技术的日新月异使得各学科领域的科研成果数量呈指数增长,浩如烟海的科研成果在极大满足学者学术交流和科研合作等需求的同时,也给学者获取其感兴趣的学术资源带来压力,现代科学研究的综合性和复杂性迫使学者逐渐由传统的单兵作战模式转向寻求科研合作。但是如何帮助学者与其科研兴趣相似的学者快速建立联系,促使其高效获取到感兴趣的学术资源,开展学术交流和科研合作成为虚拟学术社区提升服务的关键问题,而学者推荐能够有效地解决这些问题。

  在构建虚拟学术社区推荐系统时,要以学者的科研兴趣特征为基础,融合学者的多维度特征进行挖掘分析,根据相关研究发现,学者的研究兴趣是呈阶段性变化的,近期的研究成果更能代表学者研究兴趣,现有的学者推荐大多是假定学者兴趣恒定不变,难以反映学者兴趣变化。因此本文提出了一种基于动态兴趣特征的学者聚类和个性化推荐模型,该模型以学者科研成果为基础,同时引入时间加权函数以分析学者的动态兴趣特征,在此基础上对学者进行聚类,并融合学者的能力属性和社交属性进行学者的个性化推荐研究。

  1 研究现状

  述评学者推荐首要的任务是学者的兴趣挖掘,而目前国内外关于学者兴趣挖掘的研究主要是围绕基于关键词提取和基于主题挖掘这两个维度展开。在基于关键词的学者兴趣提取方面,Nascimento 等采取经典的词频—逆文档频率( Term Frequency-Inverse Document Frequency,TF-IDF) 来提取学者兴趣特征[1]。赵蓉英等融合多种方法,分析我国开放存取领域的高频关键词,挖掘该领域内学者的研究兴趣[2]。

  除了方法层面,学者们还从用户感兴趣的论文[3]和合著论文[4]等不同关键词来源中深入挖掘学者的研究兴趣特征。然而每篇文献所提供的关键词有限,未能完整体现文献所蕴含的主题,使得所挖掘的学者研究兴趣不够丰富。学者们则从文献摘要及全文着手,不断挖掘文献内容中丰富的主题特征,以表征学者更全面的科研兴趣。在基于主题挖掘的兴趣挖掘方面,一种适用于大量数据文本的主 题 特 征 提 取 的 隐 含 狄 利 克 雷 分 布 模 型 ( LatentDirichlet Allocation,LDA)[5]应运而生,该模型在揭示用户兴趣主题上具有较高准确性,因此,逐渐被运用到学者的研究兴趣挖掘上。Rosen-Zvi 等在 LDA 主题模型中加入带有 “监督”的作者,提出了作者—主题模型 ( AuthorTopicModel,ATM) ,该模型提取每个作者所属的主题分布及每个主题所包含的论文主要关键词内容[6]。

  苗蕊等也在 LDA 模型的基础上提出了社区—作者—主题模型,根据作者间的合著网络和论文的内容来挖掘学者研究兴趣子社区[7]。随后,学者们逐渐发现实际的研究兴趣会随着时间而变化。史庆伟等将时间因素加入作者主题模型,提出了一个作者主题演化 ( AToT) 模型来挖掘科研人员的动态研究兴趣[8]。Jeong 等融合时间因素,提出作者主题流 ( Author Topic-Flow,ATF) 模型,以捕捉学者研究兴趣随时间变化的演化过程[9]。

  可见从动态视角能够更为科学、客观地挖掘学者的研究兴趣,这为本文提供了一定参考。对于学者推荐,现有研究主要从基于社交网络信息的学者推荐和基于标签、主题等语义信息的学者推荐。在学者推荐模型总体框架于社交网络信息的学者推荐方面,Yang 等融合研究人员相关的多类网络信息,提出一种基于多层次特征的研究协作专家推荐方 法[10]。 熊回香等从学术能力和合作关系网络两个维度来构建学者推荐 模 型[11]。李春英等通过划分学者社交网络中的学术社区,并基于社区内学者影响力来实现社区内的权威学者推荐服务[12]。

  虽然这些成果能够较好地完成学者推荐任务,但未能充分挖掘有关学者兴趣的文本语义信息。因此,通过挖掘语义信息以进行学者推荐也逐渐成为研究热点。在基于语义信息的学者推荐方面,Yang 等根据标签和社区问答网站中答案的投票分数来学习用户的专业知识,构建用户—标签专家知识矩阵,通过分解知识矩阵来预测专家的知识得分从而进行学者推荐[13]。李春英等先用改进的 H 指数量化学者的论文成果从而获取专家列表,使用概率主题模型从论文中提取作者主题向量,再用矩阵奇异值分解法获得用户的查询扩展向量,根据两个向量的相似度进行专家推荐[14]。

  与本文相似,Chakraborty 等采用主题模型对在科研学术网站上收集到的学者信息进行主题分类,然后采用K-means 和层次聚类算法确定相似学者推荐列表[15],但未考虑学者研究兴趣随时间变化的实际情况。综上所述,目前在国内外的学者推荐中,大部分研究都是以学者的静态科研兴趣为基础展开个性化推荐,然而现实中学者的科研兴趣可能会随着时间的变化而由一个主题向另一个主题慢慢迁移,因此在挖掘学者的兴趣特征时考虑时间因素很有必要,将时间因子引入学者的兴趣特征提取,可以为学者个性化推荐模型提供新视角。

  2 推荐模型框架本文提出的推荐模型

  该模型主要分为学者的动态兴趣特征提取、基于动态兴趣特征的学者聚类、学者的能力属性和社交属性提取以及学者推荐 4 个步骤。首先对学者成果数据集进行 LDA 主题模型训练,得到论文—主题概率矩阵,并根据论文发表时间计算时间因子,加权得到学者动态兴趣特征向量; 其次在学者动态兴趣模型的基础上,利用 K-means 聚类算法对学者进行聚类,得到相似研究兴趣学者类簇; 然后取任意一类簇,根据学者的学术成果和学术影响力综合计算学者的科研属性,根据学者的合作频次计算学者的社交属性; 最后利用 CombMNZ 方法对学者两种属性的评分进行整合,得到候选推荐学者的最终推荐值,并输出 Top-N 位学者作为最终的学者推荐列表。

  2. 1 学者的动态兴趣特征提取

  由于现实生活中学者的科研兴趣是动态变化的,所以在进行学者兴趣特征提取时要充分考虑学者的兴趣变化,不然可能会影响推荐精准度。因此本文先对学者的成果进行主题提取,在学者静态兴趣特征的基础上引入时间因子,充分考虑学者研究兴趣的动态变化,构建学者的动态兴趣特征表示模型。

  1) 论文主题特征提取。学者的论文成果能够很好地展示学者的研究兴趣,而论文的摘要又能很好地表征论文的研究内容,因此对学者论文的摘要进行特征提取,可以挖掘学者的研究兴趣主题。本研究采用经典的 LDA 主题模型来对学者的研究成果进行主题特征挖掘。LDA 主题模型是一个三层贝叶斯主题概率模型,通过无监督的学习方法发现文本中隐含的主题信息,该模型认为语料库中每篇文档都是按照 “先以某种概率选择其中一个主题,然后在该主题中以某种概率选择一个特征词”的方式生成的[16]。

  2. 2 基于动态特征的学者聚类

  基于动态兴趣特征的学者聚类方法是根据学者论文成果主题特征构建论文主题特征向量,同时引入时间遗忘因子,计算学者的兴趣偏好权重,提取学者的动态兴趣构建学者动态兴趣特征向量,得到基于学者动态兴趣特征的学者—主题特征矩阵。由于基于划分的典型聚类算法 Kmeans聚类[20]是将数据集中的数据对象按照一定的划分规则划分成互不重叠的簇,其思想比较简单,且时间和空间复杂度低,处理大规模数据简单高效,并在文本聚类领域得到了广泛应用。

  因此,再采用 K-means 聚类算法对学者—主题兴趣特征矩阵进行聚类,具体可分为两步:首先,学者—动态兴趣矩阵构建。根据 2. 1 节的学者动态兴趣模型,可以得到学者当前的研究兴趣偏好主题集合 R's,根据学者当前的研究兴趣偏好向量便可以得到学者—动态主题矩阵。其次,基于动态兴趣特征的学者聚类。以得到的学者—动态主题矩阵作为输入,采用 K-means 聚类算法对其进行聚类,并输出主题标识聚类的结果。

  2. 3 学者的能力属性和社交属性提取

  本节在基于动态兴趣特征的学者聚类效果的基础上,选取任意类簇,对该类簇中学者的能力属性和社交属性进行测量评估; 关于学者能力属性,从学者的科研成果和学术影响力这两个方面来衡量,而学者的社交属性主要是基于学者的学术关系网络来进行测量。

  1) 学者能力属性评估。学者的能力属性是融合了学者知识水平、专业技能、科研成果和学术影响力等多个维度,本研究主要采用论文发表数量、期刊级别以及学术影响力这三个方面来衡量学者的学术能力。论文发表的数量和质量是科研项目申请和学者学术能力评估的重要指标,可以被认为是代表学者的科研能力的核心指标[11]。

  2. 4 学者推荐

  本节采用 Comb MNZ[23]的方法对 2. 3 节得到的学者能力属性和学者社交属性测量结果进行整合,得到学者的最终推荐值,并选取 Top-N 位学者进行推荐。

  3 实证研究及结果分析

  3. 1 数据获取与预处理基础数据

  来源于 “百度学术”,在百度学术的 “期刊频道”按期刊检索,选取 10 种情报学核心期刊 ( 分别为《情报学报》《图书情报工作》 《图书情报知识》 《现代图书情报技术》( 现更名为 《数据分析与知识发现》) 《情报资料工作》《情报理论与实践》 《情报科学》 《情报杂志》《现代情报》《图书与情报》) ,爬取其 2011—2020 年刊载的成果,包括论文标题、关键词、摘要、发表期刊和发表时间等。在获取数据后发现,许多期刊的数据字段空缺,为了保证数据的完善和准确,从中国知网、维普等数据库抓取相关数据,弥补字段空缺。最后删除序论、专题、会议通知等不符合要求的文献,去除重复和无效数据,获得27582 条论文数据,共 22630 位学者。

  根据普赖斯定律来筛选资深学者,学者朱庆华发文量最多,10 年内发文 166篇,所以 ηmax 为166,N 为9. 65,筛选10 年内发文量大于9 篇的学者为资深学者,再对同名作者进行消歧处理,删除发文量小于等于 9 篇的学者,最终得到 1067 位资深学者,共发表论文 14958 篇。本文采用 Python 的 jieba 分词工具对论文摘要进行分词处理,并使用停用词表过滤掉无实际意义的词,之后再统计词频,将词频为 1 的语词删除掉,以便更好地开展后续工作。

  在基于学者动态特征的学者聚类基础上,融合学者的科研能力属性和社交属性,最后为目标学者 “熊回香”推荐排名 Top-10 的学者为 { 李纲、苏新宁、章成志、唐晓波、张智雄、王昊、夏立新、祝忠明、陆伟、王东波} 。对目标学者 “熊回香”所发表的论文进行阅读和分析,并对其研究兴趣和科研能力等档案进行了解和剖析后,发现学者 “熊回香”所在的科研机构为华中师范大学信息管理学院,其科研兴趣集中在语义挖掘、信息组织和个性化推荐等方面,而经过对李纲、苏新宁、章成志、唐晓波等学者近年来的科研成果进行分析和研究后,发现所推荐学者的研究兴趣不仅涵盖了信息检索、语义挖掘、信息组织和个性化推荐等主题,还包括知识组织、情报分析和竞争情报等。

  由此可以看出,本研究提出的推荐模型为目标学者所推荐的学者们在科研主题上符合其科研兴趣主题。此外,李纲、苏新宁、章成志、夏立新等学者还是国内情报学领域的权威学者,其学术造诣和学术涵养能够满足目标学者对学术交流和知识获取的需要,并且夏立新学者不仅和目标学者在同一机构共事,更是与目标学者有师承关系,其与目标学者进行学术交流和科研合作的可能性更高。由此可知,本研究所构建的学者推荐模型不仅能够满足学者获取学术资源,获取知识,进行学术交流等科研需要,还能满足学者寻求相似研究兴趣的学者进行科研合作,促进学科的发展需求。

  4 结束语

  本研究提出以一种基于学者动态兴趣特征聚类的推荐模型,对学者的研究兴趣特征进行提取,并引入时间加权函数,挖掘学者的动态兴趣,基于动态兴趣特征模型进行学者聚类; 最后在动态研究兴趣的学者聚类基础上,再融合学者的能力属性和社交属性提供一种学者推荐模型。并以 “百度学术”的真实数据为例,对学者推荐模型的可行性和有效性进行了实证,通过与基于静态兴趣特征的推荐结果比较分析,本文提出的模型能够更为精准地考虑学者动态研究兴趣对推荐效果的优化。由于 “百度学术”上的学者数据存在一定缺失,且数据更新也不及时,这些问题都会导致学者推荐模型的准确性,从而影响最终的推荐结果的精准度。因此,在数据量更加充分完善的情况下,本研究所提出来的推荐模型效果会更好。

  参考文献

  [1] NASCIMENTO C,LAENDER A H F,SILVA A S D,et al. Asource independent framework for research paper recommendation[C] / /Proceedings of the 2011 Joint International Conferenceon Digital Libraries ( JCDL) ,Ottawa,Canada,2011:297-306.

  [2] 赵蓉英,吴胜男 . 我国开放存取研究主题和作者影响力分析———战略坐标与社会网络分析相融合视角 [J]. 情报理论与实践,2013,36 ( 11) : 57-62.

  [3] NART D D,TASSO C. A personalized concept-driven recommendersystem for scientific libraries [J]. Procedia ComputerScience,2014,38 ( 10) : 84-91.

  [4] 徐健,毛进,叶光辉,等 . 基于核心作者研究兴趣相似性网络的社群隶属研究———以国内情报学领域为例 [J]. 图书情报工作,2018,62 ( 12) : 57-64.

  [5] BLEI D M,NG A Y,JORDAN M I,et al. Latent dirichlet allocation[J]. Journal of Machine Learning Research,2003,3 ( 1) : 993-1022.

  作者:杨梦婷,熊回香,肖 兵,叶佳鑫 ( 华中师范大学信息管理学院,湖北 武汉 430079)