时间:2022年03月17日 分类:经济论文 次数:
摘要【目:的/意义】主题发展等级划分是信息组织研究的基础性问题,也是科研人员和科研管理部门进行研究选题和学科服务的重要工作,对学科研究主题进行高效的发展等级划分与趋势预测,能够帮助相关科研人员和机构把握学科领域研究态势,准确做出科研决策。【方法/过程】本文结合主题模型、Sen’s斜率估计法、Mann-Kendall法、指数平滑法,提出一种学科研究主题发展等级划分与趋势预测方法。首先,在主题识别的基础上,形成主题发文度和主题引文度两个指标,并参考波士顿矩阵对学科研究主题发展等级进行划分;然后,融合研究主题发文量、被引量和下载量,形成主题热力度指标,采用指数平滑法对研究主题未来发展态势进行预测。【结果/结论】以我国“智慧图书馆”研究的实验表明,本文所提方法能够对学科领域研究主题进行全方位、细粒度地发展等级划分和趋势预测。【创新/局限】本文所提方法对其他学科研究主题的分析具有普适性,为实现动态情报分析提供了新的视角,局限在于需要提高主题建模的可解读性,并进一步优化趋势预测方法。
关键词:主题模型;发展等级;趋势预测;智慧图书馆;科研决策
1引言
信息科技不断发展,带动了Web技术在学术数据库中的创新应用,也进一步推动了科技文献呈爆炸式增长态势。当科研人员针对某个学科研究主题进行文献检索时,往往能够获取期刊论文、科技专利、新闻报告等多元化海量信息。而面对海量文献资源,如何快速准确地把握学科研究主题的发展等级,为科学研究寻找切入点,成为科研工作者面临的巨大挑战。为了应对此问题,部分学者以文献作为分析单元,通过挖掘学科领域的热点文献、权威作者,为学术检索和科研实践提供有力支持。但随着学科研究范式复杂度的提高和学科研究边界的不断拓展,已有研究和方法并不能有效满足科研人员对结果呈现的精深性需求。
由此,本研究提出一种学科研究主题发展等级划分和趋势预测方法,通过对文献内容进行深入挖掘,从更高细粒度、更深层次方面对学科研究主题进行分析,帮助科研人员和科研管理部门有效把握学科领域研究态势,快速做出科研决策。本文的研究目标是:①以Sen’s斜率估计法计算主题发文度,以Mann-Kendall法计算主题引文度,将两个指标映射到二维空间,参考波士顿矩阵的命名方式,对学科研究主题发展等级进行划分。②构建主题热力度计算公式,采用指数平滑法对学科研究主题未来发展态势进行预测。③应用提出的学科研究主题发展等级划分和趋势预测方法对我国“智慧图书馆”研究进行探析,为科研人员和机构制定科研规划、开展科研选题提供决策参考。
2相关研究
2.1基于文献计量学的学科研究主题识别
通常使用的方法有词频分析法、共词聚类法等,其实质是将文献中的高频关键词作为重点分析对象,探索学科领域重点研究内容。关键词可以视为对研究内容及研究方法的高度凝练和概括,而高频关键词在一定程度上可以体现学科领域的研究热点和前沿主题【1】。因此,通过对论文中的关键词进行统计分析,能够探析一个学科领域的热点和趋势。当前,文献计量学技术方法完善,分析工具多样,从而被广泛应用于学科领域的计量分析中。Song等采用共词聚类算法,对DBLP会议中生物信息学研究的主题进行了识别【2】。
Jung等将研究者兴趣引入到主题识别研究中,探讨了虚拟现实领域的主题演进情况【3】。廖远丽等结合文献计量学方法与可视化方法,剖析了我国图书馆空间研究的主题分布【4】。张琬笛等依托VOSviewer的关键词聚类分析,对纳米技术领域的研究主题进行了分析【5】。但该方法的不足之处是高频关键词地阈值设置及关键词选取依赖科研人员地主观判断,导致遗漏低频但表征新兴研究主题的关键词,此外,关键词之间缺少语义关联,造成采用此种方法存在一定局限性【6】。
2.2基于机器学习的学科研究主题挖掘
于机器学习的学科研究主题挖掘1975年,Salton等提出向量空间模型(VectorSpaceModel,VSM),开启了基于机器学习的主题挖掘研究方向【7】。
1990年,Deerwester首次将文本语义信息引入文本主题挖掘过程中,提出潜在语义分析模型LSA(LatentSemanticAnaly⁃sis,LSA)【8】。1999年,Hofmann将期望最大化算法引入文本主题提取过程中,提出了基于概率统计的PLSA模型(Proba⁃bilisticLatentSemanticAnalysis)【9】。2003年,Blei对PLSA进行了完善,将先验概率引入,提出潜在狄利克雷分配的LDA模型(LatentDirichletAllocation)【10】。相比基于文献计量分析的学科研究主题识别,基于机器学习的主题挖掘通过严谨的数理统计推演过程,具有挖掘内容全面、内容描述清晰、主题语义紧密等优势,对语义关系模糊、语义结构粗糙的文本语料,主题识别更为准确。
此外,LDA模型的性能优于LSA和PLSA,因此,LDA模型被广泛应用于学科研究主题挖掘处理任务中。如Kang等采用主题模型,对智能家居护理研究领域进行了主题识别【11】。Balili等构建了一个主题识别和追踪框架—TermBall,并以PubMed上的学术文献进行了验证【12】。李牧南等基于文本挖掘技术,对人工智能领域的科学主题进行了探索【13】。李秀霞等基于LDA主题模型,对国内外教育大数据研究进行了主题识别【14】。
2.3基于机器学习的学科研究主题发展等级划分
于机器学习的学科研究主题发展等级划分基于机器学习的学科研究主题发展等级划分,是在主题识别的基础上,通过构建分析模型对主题发展状况进行划分。目前存在基于前沿性计算对研究主题进行分析的研究,在主题挖掘的基础上,识别出前瞻价值更高的研究前沿:如郑彦宁等提出了基于关键词共现的研究前沿识别方法【15】;王效岳等提出了基于基金项目数据的研究前沿主题探测方法【16】;王曰芬等从领域全局演化研究视角,对人工智能进行了研究前沿识别与分析【17】;吴一平等利用文本挖掘方法,分析了高校论文前沿主题和发展趋势【18】。
此外,也存在基于研究热度计算对研究主题开展探索的研究,通过总结学科研究热点主题,揭示学科研究态势:如李跃艳等以SIGIR年会2008-2019年的录用论文作为数据源,探索了近十年信息检索领域的研究热点【19】;翟姗姗等以2010-2019年间与数据有关的国家社会科学基金立项项目为研究对象,划分出了重点长线主题和次要热点主题【20】;李伟超等基于iConference会议,总结了国内外图书情报学研究热点【21】;徐小莹等对近四年图书情报学科的热度持续、热度增加和热度减退主题进行了挖掘【22】。
分析发现,根据前沿性和研究热度对学科研究主题发展等级进行分析,能够有效帮助科研人员和科研管理部门把握学科研究态势,对定位科研方向、做出科研决策具有重要的推动作用。但已有研究多数是在文本挖掘的基础上,从研究内容层面,根据主题词频次或关联性划分学科研究主题发展等级,考虑维度较为单一,等级划分的细粒度不够,导致给出的结果信息不够充分。为此,本文在继承前人研究的基础上,结合基于机器学习的主题挖掘方法,从研究主题发展等级划分和发展趋势预测两个视角出发展开探索,以期为科研机构和科研人员制定科研规划提供实践方案和决策支持。
3学科研究主题发展等级划分及趋势预测方法
学科研究主题发展等级划分及趋势预测方法共涵盖三个分析流程:主题提取与文本聚类、学科研究主题发展等级划分、学科研究主题发展趋势预测。
3.1流程一:主题提取与文本聚类
主题提取即获取学科研究领域涵盖的多个研究主题,如前所述,LDA模型具有良好的文本潜在主题挖掘能力,能够高效识别大规模文本语料集中的隐含主题,已被应用于热点挖掘、文本分类、用户推荐等领域,本文也将选择使用LDA模型进行学科研究领域的主题识别。
此外,在学科研究领域相关文献中,摘要能够体现研究方法、研究目标等内容,是对论文研究内容的高度凝练,因此,对学科研究领域进行主题提取的过程中,将重点以摘要作为实验数据。通常采用LDA模型较难直接分析不同主题之间的关联关系,本文在LDA识别结果的基础上,采用多维尺度分析,将高维空间中的主题相似性降维到二维空间进行展示,从而可视化LDA提取主题的相互关系。
本文采用R语言中的LDAvis工具包绘制动态交互性的LDA主题可视化图谱。在pyLDAvis生成的图谱中,每个圆圈表示一个主题,主题之间的相似程度可以用圆圈之间的距离表示,各个主题之间互不交叉表明各个主题之间相似较小;此外,pyLDAvis还可以通过调节参数λ(≤λ≤1)来控制主题和词语之间的关联度,λ=0,显示主题下特有的、相对独立的词项,λ=1显示分布范围更广泛的词项,通过调节λ值,结合相关词项,对主题内容进行凝练。
在具体分析过程中,对检索到的学科研究领域相关文献进行整合形成实验数据集,然后按照以下步骤进行实验:①使用SATI抽取关键词字段,形成学科研究领域词典;进而,应用R语言的jiebaR包对抽取的文献摘要进行自然语言处理形成实验数据集。②利用R语言中的lda包对实验数据集进行主题建模,采用LDAvis模型确定最优主题数目。③主题提取完成后,需要确定每篇文献所属的研究主题,以备后续实验流程的顺利开展,所以,本文采用LDA模型和Kmeans算法融合的方式实现文本聚类【23】。
3.2流程二:学科研究主题发展等级划分
学科研究主题发展等级划分的过程共包含三个模块:首先,基于研究主题文献发表量计算主题发文度;然后,基于研究主题被引量计算主题引文度;最后,将主题的发文度和引文度在二维空间进行可视化映射,并参考波士顿矩阵进行研究主题发展等级划分。
(1)主题发文度计算研究主题的逐年发文量,在一定程度上能够反映该主题的研究趋势,从研究人员视角来体现研究主题的活跃程度。本文选择采用Sen’s斜率估计法对研究主题的发文量斜率进行计算。Sen’s斜率估计法是描述时间序列趋势性的定性方法,抗噪性强,相关研究已将此方法引入到学科领域研究前沿的识别中【24】,验证了该方法在研究主题发文趋势分析中的适应性和科学性。
3.3流程三:学科研究主题发展趋势预测
在对学科研究主题发展等级划分的基础上,进一步对学科研究主题发展趋势进行预测,帮助科研人员既能明晰当前学科研究主题的发展现状,又能清晰把握主题未来发展态势。其中,研究主题发文量体现了研究人员对主题的关注度,而主题被引量和下载量体现了科研用户对主题的关注度,将这三个指标融合,形成主题热力度指标,用于预测研究主题的未来发展态势。
4实验结果
4.1数据来源
本文数据来源于CNKI数据库,将“智慧图书馆”作为学科研究领域进行文献检索。将主题词限定为“智慧图书馆”,时间不限,即标题、关键词、摘要中出现“智慧图书馆”,则认为该文献与“智慧图书馆”相关。检索发现,2011年之前与“智慧图书馆”相关的文献较少,因此,获取2011-2020年的数据进行重点研究,共获得文献数据2176条。
4.2主题提取与文本聚类
题提取与文本聚类根据研究主题的识别流程,当主题数目设置为10个,α=5,β=0.1时,基于LDAvis模型呈现的主题可视化结果,各个主题之间相互独立,表明主题数目最优。依据最优模型的输出结果,首先应用“文献-主题”概率分布矩阵进行文本聚类,进而结合研究主题下的相关词对主题进行凝练。
4.3学科研究主题发展等级划分
依据给出的学科研究主题发展等级划分流程,计算每个研究主题的主题发文度(公式(1))与主题引文度(公式(2)—(3))。分析发现,“智慧图书馆”领域涵盖的10个研究主题,其主题发文度和主题引文度均大于0,表明“智慧图书馆”领域各个研究主题的发文量和引文量均成上升趋势,体现了国内学术界对“智慧图书馆”领域的持续关注。由于10个研究主题的主题发文度和主题引文度均大于0,为了能够清晰界定研究主题之间的等级界限,分别获取主题引文度和主题发文度的中位数为(2.764,5.536),作为发展等级界限划分的阈值。参考波士顿矩阵的命名方式,依据设置的阈值进行发展等级划分:
(1)第一维度→“明星类”主题,Z>2.764,β>5.536,特指研究主题引文度和发文度“双高”的主题群,说明科研用户对该研究主题的知识需求量快速增加时,研究人员的成果供应量也在高速递增,表明研究主题处于快速成长期,需要科研人员重点关注。
(2)第二维度→“金牛类”主题,Z<2.764>5.536,特指研究主题发文度高,但主题引文度较低的主题群,说明研究人员的成果供应量大于科研用户的知识需求量,表明研究主题处于成熟期,科研人员可保持适当的关注。(3)第三维度→“瘦狗类”主题,Z<2.764,β<5.5364z>2.764,β<5.536,特指主题引文度高,但主题发文度较低的主题群,说明科研用户的知识需求量大于研究人员的成果供应量,表明研究主题正处于缓慢成长期,创新潜力强,科研人员应该增加对研究主题的关注度。通过上述方式,实现了对学科研究主题发展等级地划分,为科研人员和科研管理部门明晰“智慧图书馆”领域发展现状,把握研究主题发展动向,确定研究切入点提供了参考指引。
4.4学科研究主题发展趋势预测
科研究主题发展趋势预测通过以上学科研究主题发展等级的划分,得到我国“智慧图书馆”领域的4个“明星类”主题、1个“金牛类”主题、4个“瘦狗类”技术主题、1个“问题类”主题。由于“明星类”主题是当前学科研究的热点和前沿,处于快速成长阶段,科研人员应考虑将其作为重点研究方向,因此,本文依据学科研究主题发展趋势预测流程,重点对“明星类”主题进行趋势预测的结果展示,使用公式(4)—(9)计算每个研究主题的逐年热力度,并使用三次指数平滑法对各个研究主题未来三年(2021-2023年)的发展态势进行预测。
在预测效果评估方面,选择均方根误差(RMSE)和平均绝对误差(MAE)作为判断预测效果优劣的指标,其中RMSE和MAE集中在0.2左右,表明研究主题发展趋势预测效果良好。“主题1→图书馆智慧服务”在2011-2014年的主题热力度呈下降趋势,在2017-2020年呈上升趋势,未来三年的热力度预测仍为上升态势。随着信息化的高速发展,传统图书馆很难满足用户多元化的资源需求,这也推动了传统图书馆向智慧图书馆的过渡和转型。
智慧图书馆是智能技术、智慧图书馆员、图书馆业务管理相互融合的结果,而智慧服务是智慧图书馆的核心,具有空间虚拟化、流程智能化、内容知识化等特点。如陆婷婷对人工智能时代的智能图书馆服务内容、实现途径与发展瓶颈进行了研究【27】;陈丹等提出了基于用户画像的图书馆个性化智慧服务模型框架【28】;陈小平提出区块链技术能够助力图书馆智慧服务在管理体制、机构库建设、知识交易服务模式上的转变【29】;董同强等从大数据与人工智能双驱动的视角设计了高校图书馆智慧型学科服务平台【30】。在物联网和人工智能等智能技术的驱动下,智慧服务将成为未来图书馆发展的新方向,而宏观层面的功能定位及微观层面的业务重组为科研人员的持续探索提供了广阔空间。
“主题4→图书馆转型”在2012-2015年的主题热力度呈上升趋势,在2016-2020年呈平稳发展趋势,未来三年的热力度预测仍为上升态势。图书馆转型既是当代图书馆事业发展的关键特征,也是图书馆学理论研究的关注焦点。在信息时代数据意识全面增强的背景下,图书馆作为科研活动和文化事业发展的重要支撑,其服务和管理也应向数据化和智能化转向。相关研究也从空间、资源、服务、管理等要素出发,探讨了图书馆转型的实践路径。
如邵波等提出以数据智能计算为中心,将数据服务作为新时代图书馆服务的主要能力【31】;柯平等对后知识服务时代的图书馆转型理念、关键要素与路径问题进行了剖析【32】;初景利等提出要加快从资源能力到新型服务能力的转变,构建图书馆新型服务能力【33】;饶权提出建设“全国智慧图书馆体系”,推动图书馆由数字化向智慧化发展【34】。在新一轮科技和产业革命引领下,为图书馆的转型发展带来了新的机遇,推动图书馆向智慧化转型将引发科研人员的持续关注。“主题7→智慧图书馆前沿技术”在2011-2020年的主题热力度持续呈波浪式的上升,未来三年的热力度预测仍为上升态势。
以人工智能、大数据、云计算、区块链为代表的新兴技术不断成熟,如何将新兴技术与图书馆服务场景相结合,提升图书馆智慧化服务水平,引发了科研人员的广泛研究。如洪亮等以图书馆的业务流程为支撑和导向,构建了大数据驱动的图书馆智慧信息服务体系【35】;傅云霞对人工智能在智慧图书馆的应用领域进行了研究【36】;周耀研究设计了4个基于区块链技术的智慧图书馆应用系统【37】;任萍萍构建了5G技术驱动下的智慧图书馆应用场景与智慧平台模型【38】。
因此,将新兴技术与图书馆业务深度融合,创新智慧图书馆业务生态,将成为科研人员持续探索的重点。“主题8→智慧图书馆系统架构”在2011-2020年的主题热力度呈上升趋势,未来三年的热力度预测仍为上升态势。在国家深入推进创新驱动发展和“云数智”赋能时代背景下,新兴信息技术与智慧图书馆的深度融合推动了图书馆基础设施层、数据资源层和服务应用层的系统架构变革。
相关研究也从理论走向实践,优秀实践案例不断涌现,为后继者提供范例参考。如李靖等探讨了上海交通大学图书馆自助服务的转型实践【39】;曹畋分析了南京晓庄学院图书馆采用智能化技术提升学科服务的新思路、新模式【40】;秦中云等以北京联合大学图书馆为例,阐述了云计算环境下多校区图书馆智慧服务平台构建的平台架构【41】;林珍梅设计了基于Ha⁃doop的高校图书馆阅读书目智慧推荐系统【42】。因此,以图书馆的业务流程为支撑和导向,重构图书馆系统架构的业务流程,仍存在广泛的探索空间。
图书馆专业论文:新时期地方公共图书馆管理服务创新思考研究
5结语
本文结合主题模型、Sen’s斜率估计法、Mann-Kendall法、指数平滑法,提出了一种学科研究主题发展等级划分与趋势预测方法。本方法共涵盖三个流程:首先是采用主题模型对学科领域进行主题提取和文本聚类;进一步,从研究人员和科研用户两个视角出发,应用Sen’s斜率估计法计算主题发文度,应用Mann-Kendall法计算主题引文度,将两个指标映射到二维空间,并参考波士顿矩阵的命名方式,实现对学科研究主题发展等级进行划分;最后,融合研究主题发文量、被引量和下载量,形成主题热力度指标,采用指数平滑法对学科研究主题未来发展态势进行了预测。
本文以CNKI数据库为数据来源,以“智慧图书馆”为例进行了方法实证,并与共词聚类分析方法进行了对比,验证了本文所提方法的准确性和有效性,为科研人员和科研管理部门把握学科研究主题发展现状及未来发展态势、制定研究规划、确定科研方向提供了可靠有效的决策参考。需要说明的是,本文采用LDA模型进行主题提取,但主题内容凝练依赖主观判断,需要探索更加有效的主题识别方法,提高结果的语义信息量,以提高主题的可解读性;此外,在趋势预测中直接应用了三次指数平滑法,没有与其他时间序列预测方法进行比较,选择应用最优方法。这些都会对本文的结论产生影响,我们将在后续的研究中加以改进。
参考文献:
1谭春辉,熊梦媛.基于LDA模型的国内外数据挖掘研究热点主题演化对比分析[J].情报科学,2021,39(4):174-185.
2SongM,HeoGE,KimSY.Analyzingtopicevolutioninbioinformatics:InvestigationofdynamicsofthefieldwithconferencedatainDBLP[J].Scientometrics,2014,101(1):397-428.
3JungS,YoonWC.Analternativetopicmodelbasedoncommoninterestauthorsfortopicevolutionanaly⁃sis[J].JournalofInformetrics,2020,14(3):101040.
4廖远丽,罗瑞林.我国图书馆空间研究演进的可视化分析[J].情报科学,2018,36(12):106-110.
5张琬笛,胡志刚,郭佳程,等.基于S曲线的研究主题演进分析与可视化技术[J].信息资源管理学报,2020,10(3):70-77,101.
6巴志超,李纲,朱世伟.共现分析中的关键词选择与语义度量方法研究[J].情报学报,2016,35(2):197-207.
7SaltonG,WongA,YangCS.Avectorspacemodelforautomaticindexing[J].CommunicationsoftheACM,1975,18(11):613-620
作者:宋凯1,冉从敬2