学术咨询

让论文发表更省时、省事、省心

基于复杂网络的图情档学科文献热点挖掘

时间:2022年03月31日 分类:经济论文 次数:

摘 要: [目的/ 意义] 跨学科、 跨领域研究已经成为学术研究的趋势, 针对图情档学科的文献热点分析,有助于研究者快速掌握该领域的热点问题和未来趋势, 也为跨领域融合提供理论参考。 [方法/ 过程] 以 20162021 年图情档学科文献为研究对象, 利用复杂网络技术构建文

  摘 要: [目的/ 意义] 跨学科、 跨领域研究已经成为学术研究的趋势, 针对图情档学科的文献热点分析,有助于研究者快速掌握该领域的热点问题和未来趋势, 也为跨领域融合提供理论参考。 [方法/ 过程] 以 2016—2021 年图情档学科文献为研究对象, 利用复杂网络技术构建文献关键词共现网络, 使用 Gephi 网络分析及可视化工具对图情档学科文献热点进行挖掘。 [结果/ 结论] 挖掘出图书馆学、 情报学和档案学的热点研究主题后, 从图情档一级学科的视角综合分析现有文献热点的特征, 试图提出该学科下一步的学科热点主题和研究方向, 为后续研究者提供指引和参考。

  关键词: 图情档学科; 复杂网络; 文献热点

图情档学科

  当今互联网背景下的信息技术革命颠覆了各行各业, 教育领域尤为突出。 由美国西姆学院提出的“新文科” 概念, 于 2018 年 8 月正式出现在我国中共中央发布的文件中。 2019 年, 为了全面推进“四新” (即新工科、 新医科、 新文科、 新农科)建设, 教育部、 科技部等 13 个部门联合启动了 “六卓越一拔尖” 计划 2. 0[1], 至此 “新文科” 建设开始落地实施。 2020 年, 在山东大学召开的新文科建设会议中发布了 《新文科建设宣言》, 全面部署新文科建设的相关工作[2]。

  “新文科” 建设已成为我国今后高等教育所要着力推进的核心工作, 在此背景下, 图书情报与档案管理(以下简称图情档)学界的不少学者对图书情报学科的发展趋势进行积极的探索。 初景利[3] 认为, 应积极响应新文科建设的战略, 强化图情档学科与其他学科的交叉融合, 致力于实现图情档从 “软学科” 到 “硬学科” 的再造。 马费成等[4] 提出要从关注社会需求、重视交叉融合、 加强理论创新、 坚守人文传统等方面来思考图情档学科未来发展。

  柯平[5] 认为, 图情档学科要迎合新文科建设的相关政策, 努力打造出跨界融合的新文科建设模式。 可见, 图情档学科将在新文科建设征程中大有可为, 提高图情档学科的科研水平, 大力培育与其他学科交叉融合的新兴学科, 是当前图情档学科建设所面临的重要问题。图情档学科要想适应和契合新文科战略部署,必须重新审视本学科现有的定位。

  图情档学科作为一级学科, 在学科门类上隶属于管理学, 管理学既不是纯粹的理科, 也不是纯粹的文科, 本身具有很强的交叉学科性质[3]。 近年来, 图情档学科在人工智能、 数据科学、 公共文化管理、 信息学、 数字人文等新兴领域实现了跨学科的融合发展, 并积累了大量的学术成果。 要想更好地迎接新文科建设下的挑战, 就需要对图情档学科既往的研究成果进行综合分析, 挖掘出图情档学科研究热点, 既可为该领域及跨领域的研究者作出指引, 也可提升图情档学科的学术科研水平。

  笔者分析现有的图情档学科的研究热点文献, 发现研究成果不超过 5 篇, 其中孙艳红[6]、 吴维芳[7]、 柴欢等[8] 都是对该学科领域内科研立项的情况进行统计分析, 且多是通过简单的图表和描述性文字来分析数据, 对关键词的统计和划分也带有很大的主观能动性, 缺乏系统的文本处理方法和科学的关键词提取技术。 因考虑到科研立项情况并非能涵盖所有的图情档学科研究热点, 为更好地帮助研究者快速掌握该领域内全部的研究热点, 故以 2016—2021 年图情档学科文献为研究对象, 利用复杂网络技术构建文献关键词共现网络, 使用 Gephi 网络分析及可视化工具挖掘图情档学科的热点研究主题, 从而揭示图情档学科热点研究领域及各领域热点研究主题。

  1 相关研究

  复杂网络是对存在的网络现象及其复杂性进行解释的学科[9], 因其以图像化的方式再现系统中各大主体及其之间的关系而受到不少学者的关注。该理论已被应用于文献挖掘领域, 其理论模型是由大量的节点和连接两端节点的边组成。 热点挖掘和识别是文献分析研究的重要方法之一, 其是指探析一个学科领域的研究热点及其连接关系[10]。

  分析文献本身就是一个复杂、 多阶段和耗时的过程, 因此 Feng L 等[11]认为, 在系统分析文献时要使用一定的文本挖掘技术和工具。 关键词是文献文本挖掘中不可忽视的重要信息, 是一篇文献表达其主题的重要手段。 通过对某一学科领域内现有文献的关键词进行集合性分析, 可揭示所在学科领域的总体特征、研究热点、 研究主题及发展趋势等特性。国内外学者基于复杂网络挖掘文献热点展开了积极的探索。

  如 Su X 等[12]对数字图书馆文献进行关键词的统计和聚类分析, 基于复杂网络原理将提取到的关键词进行两两不重复的、 无序的组合后,统计出每一对关键词出现的频次, 形成共现矩阵,最终结合复杂网络中社区发现原理来挖掘不同的研究主题及主题之间的关系; Schossboeck J 等[13] 结合期刊内容, 使用文本挖掘、 主题建模、 k-means聚类、 社会网络分析和社区检测等数据挖掘方法,分析某一期刊上发表过的所有论文.

  最后从期刊管理的角度对研究结果进行深入地定性解释; 辛娟娟等[10]也运用复杂网络中社区识别技术对林业领域的文献进行挖掘, 最终总结出八大主题研究领域;蔡婷婷等[14]基于复杂网络理论对关键词进行分析,总结出危险品运输领域公路运输、 道路运输和层次分析法三大研究热点; 徐小莹等[15] 基于网络嵌入进行大规模关键词共词分析, 最终分析出近四年来图情学科热度的持续、 增加和减退的研究主题。 复杂网络的理论和文献热点挖掘技术在图情档学科领域暂处于起步阶段, 研究成果较少, 这也为本文的研究提供了理论和实践上的价值。

  2 研究思路与框架

  本研究首先利用 TF-IDF 方法提取文献语义表征, 然后利用 DBSCAN 聚类算法发现研究主题较为集中的文献簇, 最后利用复杂网络技术构建文献关键词共现网络, 使用 Gephi 网络分析及可视化工具挖掘图情档学科的热点研究主题。

  2.1 文献采集

  笔者以 “图情档” “图书情报档案” “档案”“档案学” “图书情报” “图书馆” “数字人文” “舆情” “用户信息行为” 等关键词, 在知网数据库中以 “主题” 检索方式进行文献检索, 文献检索范围主要覆盖 2016—2021 年上述关键词的相关中文文献。 文献采集的原则力求采集到的数据尽可能全面、 无遗漏, 具体操作时, 这个问题就转换为用于检索的关键词的设定尽可能全面。

  对于关键词的评估主要根据: 一是检索结果中包含图情档学科相关学术期刊的中图分类号 G25、 G35、 G26、 G27、 N99等, 或者包含 《中国图书馆学报》 《信息资源管理学报》 《图书情报知识》 《图书馆论坛》 等 CSSCI、北大核心、 中国科技核心类期刊; 二是因为关键词之间存在共词关系, 收集一定数量关键词之后新增关键词检索, 结果去重之后几乎不再增加, 就认为新增的关键词和已收集关键词存在共词关系, 这一点在最终的分析中也能够印证。 PageRank 排序最高的 “文献计量学” 和 “阅读推广” 并没有被用做关键词去检索文献, 因这两个词和本文所用到的多个关键词都存在共词关系, 所在文献一样被收集到分析数据中。

  此外, 本文的分析方法和结果也可以证明文献采集阶段所使用的关键词是 “完备” 和“收敛” 的, 文献的主题聚类和关键词网络关系分析分别使用的是 TF-IDF 和 PageRank 方法, 这两种主流的文本关键词提取方法, 底层原理不同, 对于本文却可通过共词关系完美地解释分析结果的统一性和合理性。 经过多次检索, 确定关键词后, 采用 Python+Selenium 自动化测试框架编写爬虫代码,从文献检索结果中获取标题、 作者、 关键词、 摘要、 年份等数据, 最终采集到文献42 865篇。

  2.2 数据预处理

  由于采用上述不同关键词分别检索到的文献存在重复, 因此首先对文献集进行去重。 并删除会议通告、 期刊介绍、 选题指南等非研究型文献, 共剩余35 297篇。 最后, 根据中图分类号规则[16], 图情档学科相关学术期刊的中图分类号主要为 G25、G35、 G26、 G27、 N99 等。 此外, 考虑到跨学科研究, 保留 D92、 G40、 G42、 N94 等相关文献进行分析, 最终获得文献25 374篇。

  文献的题目、 摘要和关键词这 3 项内容基本能够代表文献的内容, 将这 3 个部分的文本内容作为一个整体处理。 这样的处理方式主要是考虑到后面用 TF-IDF 方法对文本向量化时, 同一个词如果同时在这 3 个部分中多处出现, 则比单独的关键词更能突显文章主题。 关键词是表达文献语义的重要手段, 但常常也会存在表达偏差和表达不全, 同时用文献的题目、 摘要和关键词这 3 项内容来表示文章语义是更为合适的选择, Google Scholar、 Aminer 等学术搜索引擎同样也是用这种处理方式来代表文章语义。

  2. 3 PCA

  降维虽然通过 TF-IDF 方法得到了在25 374篇文献的空间内以文献为单位的一个表征, 但是这样的表征是高度稀疏的, 直接作为下游机器学习模型的输入效果很差, 因此引入 PCA 方法来解决这个问题。PCA 是常用的提取数据的手段, 其功能为提取主成分(主要信息), 摒弃冗余信息(次要信息),从而得到压缩后的数据, 实现维度的下降。 其设想通过投影矩阵将高维信息转换到另一个坐标系下,并通过平移将数据均值变为零。

  PCA 认为, 在变换过后的数据中, 在某一维度上, 数据分布得更分散, 则认为对数据点分布情况的解释力就更强。 故在 PCA 中, 通过方差来衡量数据样本在各个方向上投影的分布情况, 进而对有效的低维方向进行选择。 KernelPCA 是 PCA 的一个改进版, 它将非线性可分的数据转换到一个适合对齐进行线性分类的新的低维子空间上, 该 PCA 可以通过非线性映射将数据转换到高维空间里, 在高维空间中使用PCA 将其映射到另一个低维空间中, 并通过线性分类器对样本进行划分。

  笔者同时尝试了 PCA 和 KernelPCA 方法将文献表征向量的长度从55 973维压缩到 50 维, 使表征矩阵不再稀疏。

  2. 4 文本聚类

  DBSCAN 是一种基于密度的聚类算法[18]。 使用 DBSCAN 算法对25 374篇文献聚类, 同时使用Cosine 余弦距离作为距离度量, 挖掘热点并过滤掉研究主题不是很集中的文献和噪声数据, 将聚类的最小数量适量放大。 尝试了多组搜索半径和最小样本数的组合, 实验效果较好的是: 使用 PCA 方法降维时, 搜索半径设为 0.05, 最小样本数设为 50。

  通过实验, 共聚得 11 个类簇: 0 类簇包含文献 126 篇, 主题为图书馆学; 1 类簇包含文献 127篇, 主题为目录学, 文献编目; 2 类簇包含文献318 篇, 主题为图书馆服务, 阅读推广; 3 类簇包含文献 114 篇, 主题为数字人文和信息技术与图情档学科的交叉研究; 4 类簇包含文献 407 篇, 主题为文献计量; 5 类簇包含文献 198 篇, 主题为档案管理模式和制度; 6 类簇包含文献 160 篇, 主题为档案服务; 7 类簇包含文献 54 篇, 主题为档案学理论研究; 8 类簇包含文献 52 篇, 主题为图书馆服务体系研究; 9 类簇包含文献 62 篇, 主题为图书馆发展研究; 10 类簇包含文献 95 篇, 主题为新媒体平台和高校舆情; 未聚类23 671篇, 通过深入分析发现, 未聚类的文献存在 3 类情况:

  第一类是研究主题较为笼统宽泛, 方向比较大, 没有立足于一个非常具体的研究点, 比较典型的是综述类文献; 第二类是研究主题虽然明确, 但不具备数量上的集中性, 属于小众研究方向, 比如 “音乐院校图书馆口述历史资源建设路径探索” (《四川戏剧》2021)这样冷门的跨学科的研究方向; 第三类是噪声数据, 经过数据预处理之后, 仍然还会存在一部分噪声数据, 比如 “扎实求进, 推动发展———北京市档案馆传达全国档案局长馆长会议精神” (《北京档案》 2021), 这种新闻简报类数据存在于知网的检索结果中, 但在数据预处理时无法用单一的规则过滤, 这一步借助无法聚类达到过滤的效果, 消除了噪音数据对后续分析的影响。

  需要说明的是,聚类的平衡和效果, 是经过多次实验比较之后得到的, 将聚类的最小样本数设为 50, 从实验效果和数量占比上来讲也是很合理的, 最小样本数设为100时, 聚类结果是 7 类, 而最小样本数设为 40 时, 聚类结果就增加到 23 类.

  另外 50 篇大概占文献数量(25 376篇)的 2%, 一个研究主题虽然具有一定的数量, 但却不超过总数的 2%, 应该也只能算很小众的研究主题, 上述两点证明当前聚类结果是平衡合理的。 此外, 从全景图和局部图可以看出, 紫色的点是未聚类的文献, 散布在各处, 蓝色、绿色、 黄色的点都是聚成类的文献, 而且相当集中,各类之间边界清晰, 说明聚类效果较好。

  3 研究结果与分析

  复杂网络分析中, 节点度、 聚类系数和平均路径长度这 3 个基本概念可以很好地反映一个网络的基本特征。 另外, 衡量网络小世界结构的程度可以用小世界商值, 即将当前网络的聚类系数 C、 平均路径长度 L 与同规模随机网络的聚类系数 C 和平均路径长度 L 进行比较运算。

  4 研究结果

  4.1 图情档学科的热点研究主题

  本文基于复杂网络技术, 通过构建关键词共现网络, 以 2016—2021 年图情档学科文献为研究对象, 使用 Gephi 网络分析及可视化工具挖掘图情档学科的热点研究主题。

  1) 图书馆领域的研究热点最为聚集, 文献核心主题以大数据、 高校和公共图书馆、 知识服务、人工智能、 阅读推广、 数字人文为主。 总体来说,图书馆领域文献热点可分为图书馆实证研究和图书馆学科研究。 图书馆实证研究是指对高校、 公共等特定类型图书馆的实证问题研究; 图书馆学科研究主要是指对图书馆学科的研究热点、 专业建设或人才培养等方面的研究。

  2) 情报学领域主题可分为以文献计量、 学术评价为主的情报学应用和大数据环境下情报学及情报学科建设两类。 前者主要是使用 Citespace、 社会网络分析、 共词分析等方法对各学科进行分析, 数据显示主要应用于医学、 计算机科学、 教育等学科的热点分析及其他相关研究。 后者主要是基于大数据、 数据科学等数据技术对情报学的学科建设、 人才培养、 学科理论等学科发展问题进行研究。

  3) 档案领域文献热点集中在档案数字化、 档案馆业务、 档案学科研究及档案局业务等相关主题上。 档案数字化包括档案信息化、 电子文件、 电子档案、 大数据、 区块链、 单套制、 云计算、 双套制、 数据库、 人工智能等; 档案馆业务包括档案资源、 档案利用、 档案服务、 档案文化、 档案编研、档案展览、 档案库房、 社交媒体、 档案开放、 城市记忆、 公众参与等; 档案学科研究包括知识图谱、文献计量、 数字人文、 档案教育、 档案学研究、 可视化、 Citespace、 人才培养、 高等教育、 研究热点等; 档案局业务包括档案法、 民生档案、 档案安全、 公共服务、 档案工作人员、 十三五、 疫情防控、 档案业务指导、 档案宣传、 县级档案、 乡村振兴、 档案管理队伍等。

  4. 2 热点研究主题的特征

  1) 文献计量学研究成果较多。 文献计量学作为图情档学科的一个重要议题, 经过多年发展已经成为该学科开展自身研究的一个重要方法, 交叉程度不断加深。 图情档文献热点关键词包括文献计量学、 文献计量、 引文分析、 聚类分析、 共词分析等, 现主研人工智能的学者也把人工智能中流行数据可视化研究方法引入到文献计量学研究中。 文献计量学不仅能解决传统的学科问题, 还能为人工智能的研究提供理论知识和参考经验。

  2) 图情档学科与信息技术紧密结合。 人工智能时代的来临, 可视化、 知识图谱、 聚类分析和社会网络分析等许多具有代表性的技术和方法也影响着图情档学科的发展和研究。 可视化分析和 Citespace 等关键词在各种指标排序中都占有重要地位, 图情档学科各领域研究均对可视化技术和工具有巨大的需求, 国内被使用最多的是Citespace。 以 Citespace、 Hist Cite 为代表的可视化工具, 对用户来说存在一定的使用门槛, 未来, 谁可以更好地掌握可视化技术和工具谁就将在图情档学科研究中占得先机。

  开展公共文化服务, 传承传统文化。 公共文化服务一贯是我国图情档研究领域的热点, 公共图书馆、 高校图书馆和档案馆都以向用户开展均等、 高质量的文化活动为己任。 当前受疫情的影响, 图书馆及档案领域的应急管理和突发公共事件相关研究热度较高。 大数据时代, 承担传承社会记忆职能的图书馆和档案馆的载体形式发生较大的改变, 除传统的法治、 企业、 家族等档案, 现档案学的研究模式开始由纸质向电子化转变。 信息技术的发展要求档案学要进行跨学科、 跨领域融合, 档案学与社会记忆的交叉融合的研究值得广大学者关注。 同样, 有关古籍保护学科建设问题也是图情档学科的重要议题。

  5 结 语

  本文基于复杂网络技术, 通过构建关键词共现网络, 以 2016—2021 年图情档学科文献为研究对象, 文本处理上使用 TF-IDF 加权技术来分类文献,并尝试 PCA 和 KernelPCA 方法压缩文献表征向量,最终运用 DBSCAN 算法将文献聚类。 文本处理后使用 Gephi 网络分析及可视化工具挖掘出图书馆学、 情报学和档案学的热点研究主题。 最终, 从图情档一级学科的视角综合分析现有文献热点的特征, 试图提出该学科下一步的文献热点主题和研究方向, 为后续研究者提供指引和参考。 期望本研究可以让该领域研究者在了解研究热点的基础上确定好自己的研究方向, 也能为新研究者或跨领域研究者快速了解图情档学科、 为跨领域融合提供参考。

  参 考 文 献

  [1] 中华人民共和国教育部. “六卓越一拔尖” 计划 2􀆰 0 启动大会召开, 掀起高教质量革命, 助力打造质量中国 [EB/ OL].

  [2] 澎湃新闻. 新文科建设工作会在山东大学召开: 《新文科建设宣言》 发布 [ EB/ OL].

  [3] 初景利. “新文科” 呼唤图情档成为 “硬” 学科 [ J]. 图书与情报, 2020, (6): 1-3.

  [4] 马费成, 李志元. 新文科背景下我国图书情报学科的发展前景[J]. 中国图书馆学报, 2020, 46 (6): 4-15.

  [5] 柯平. 新图情档———新文科建设中的图书情报与档案管理一级学科发展 [J]. 情报资料工作, 2021, 42 (1): 15-20.

  [6] 孙艳红. 国家基金项目视域下图情档学科研究现状、 热点及趋势分析 [J]. 图书馆工作与研究, 2021, (3): 93-101.

  [7] 吴维芳. 基于文本可视化挖掘图情档前沿研究热点———来自国家社科基金 2017—2019 年图情档立项数据 [ J]. 机电兵船档案, 2020, (3): 26-28.

  [8] 柴欢, 阮建海. 基于 2013—2017 年国家基金项目的 “图书馆、情报与档案管理” 学科研究现状分析 [ J]. 情报科学, 2019,37 (8): 163-169.

  [9] 吕莉媛. 基于复杂网络的图书馆数字资源整合 [ J]. 情报科学, 2009, 27 (12): 1811-1815.

  [10] 辛娟娟, 曹佳. 基于复杂网络的文献热点挖掘及可视化 [ J].计算机工程与应用, 2016, 52 (12): 261-264, 270.

  作者:巫芯宇