学术咨询

让论文发表更省时、省事、省心

国内外网页存档理论与实践研究历程与特征分析

时间:2022年03月31日 分类:经济论文 次数:

摘 要: [目的/ 意义] 存档网页具有凭证价值、 情报价值及档案价值。 对国内外网页存档研究历程进行梳理, 以期对我国实践项目的发展及后续研究提供借鉴及参考。 [方法/ 过程] 对 1993 年至今的国内外网页存档文献进行研读, 参照 OAIS 模型, 将国内外网页存档研究整

  摘 要: [目的/ 意义] 存档网页具有凭证价值、 情报价值及档案价值。 对国内外网页存档研究历程进行梳理, 以期对我国实践项目的发展及后续研究提供借鉴及参考。 [方法/ 过程] 对 1993 年至今的国内外网页存档文献进行研读, 参照 OAIS 模型, 将国内外网页存档研究整体划分为 4 个阶段, 分别为初始研究阶段、 纵深发展阶段、 功能全面提升阶段、 智慧型实践项目探索阶段; 将各阶段发展概况及研究历程进行梳理, 归纳阶段性研究热点及特征。 [结果/ 结论] 网页存档实践项目以理论与实践并行的方式发展。 同时, 向智慧型实践项目不断探索。理论模型、 系统框架、 技术革新、 资源采集方式、 归档资源评估、 资源开发利用及人工配置七者交融并互相促进, 共同将存档网页资源推向深层化应用。

  关键词: 网页存档; 网页保管; 存档网页利用; 网页资源长期保存

图书情报文献

  随着互联网的普及、 互联网技术的日趋成熟,互联网中的 “网页信息资源” 已经成为全球最大的信息资源库。 中国互联网信息中心 2021 年 2 月3 日发布的 《中国互联网发展状况统计报告》 中的统计数据显示, 截至 2020 年 12 月, 我国网民规模达到 9􀆰 89 亿, 较 2020 年 3 月增长了8 540万, 互联网普及率达 70. 4%, 我国互联网行业在抵御新冠疫情和疫情常态化防控方面发挥了积极作用, 为我国成为全球唯一实现经济正增长的主要经济体做出了重要贡献[1]。

  网页信息资源是一种动态增长的、易逝的且不可再生的 “原生性” 网络文献[2], 研究表明一个网页的平均寿命只有 44 天[3], 网页中的高价值资源一旦消失便难以复原, 将会给国家和社会文化资源的持久保存和历史传承造成难以挽回的损失。

  为此, 需要学界更多关注并研究网页存档问题, 实现网页信息资源长期保存与持续利用。所谓网页存档( Web Archive, 简称 WA), 又称 “网络存档”, 是指一种在 “原生性” 网络信息资源的整个生命周期内对其进行有目的的评价、 选择、 采集、 描述、 元数据表示、 存储、 发布和维护等一系列工作以确保其当前可用和未来价值增值的管理活动[4]。

  近年来, 国内外相关领域的专家学者投入了大量的精力和时间成本开展网络存档研究工作, 不断完善网络存档的理论研究并积极推进实践探索, 相关研究内容众多, 研究主题庞杂, 研究质量差异, 使得有必要更好地了解国内外网络存档的研究现状, 对国内外网络存档研究进行系统梳理,以期对我国相关研究提供借鉴和参考。

  1 研究方法

  本文采用文献调研法, 国内文献选取中国知网 为国内文献检索平台, 选择高级检索方式, 检索条件的篇名中分别包含“网页存档” “网络存档” “网页保存” “网络信息资源长期保存” “Web Archive” “Web Archiving” 等关键词。 国外文献通过检索 Web of Science、 Scopus等外文文献数据库, 关键词 “Web Archive” “WebArchiving” “Internet Archive” 等, 经过整理最后得到全部文献 637 篇, 其中国内文献 294 篇, 国外文献 343 篇。

  国外最早出现本关键词相关文献是 1993 年,国内是 1999 年。 国外最早的文献是 1993 年 C, SIM⁃MONDS 发 表 的 SEARCHING INTERNET ARCHIVESITES WITH ARCHIE-WHY, WHAT, WHERE, ANDHOW 一文。 国内外在 1993—1999 年共发文 5 篇,2000—2004 年共发文 17 篇, 2005—2012 年共发文159 篇, 2012 至今共发文 456 篇。 由此可见, 与“网页存档” 相关主题地研究是以递增的趋势发展,说明一直以来都是国内外众多学者研究的重点。

  可以发现, 国内文献总量为 294 篇, 其中有25 篇为硕士论文, 没有相关主题的博士论文, 说明国内对网页存档的研究还不够深入。 国内总文献量呈递增趋势, 说明在国内越来越多的专家学者投入精力完善网页存档的研究工作, 随着网络技术研究的深入, 未来会在此领域有大量新的研究文献发表。国外从 2003 年开始文献量大幅递增, 这与各个国家纷纷投入网页存档实践项目有直接联系。 随着实践项目的不断发展及完善, 在采集、 归档保存及长久保存过程中所使用技术的不断更新, 针对网页存档过程中涉及的核心技术进行深入研究的文献将变多, 由此文献总量呈明显递增趋势。

  随着公众认知增加、 获取途径增多, 新的未知问题将会不断涌现, 未来网页存档将仍然是国外学者研究的热点。在前述基础之上, 研读国内外相关主题文献,挑选时区研究重点主题, 并结合现有研究进行阶段划分。 网页归档实践项目的进展影响研究主题的更新, 所以, 本文还采用网站调查法和案例分析法,使用 IIPC(国际互联网保存联盟)官方网站获取最新资料。 通过对国内外网页归档实践项目的具体研究, 从整个网页归档的流程, 其中包括:

  采集方式、 采集频率、 技术方法、 存档内容管理、 系统平台搭建、 开源工具研发、 责任体系构建、 法律及权利等角度作为出发点, 系统归纳并总结阶段性研究热点, 为划分本文网页存档研究的阶段提供了重要依据。虽然网页存档的理论研究始于 1993 年, 但实践研究则始于 1996 年。 本文将网页存档研究历史进程共划分为 4 个阶段: 第一阶段(1996—2005)为网页存档初始项目研究, 第二阶段(2006—2010)为网页 存 档 研 究 纵 深 发 展, 第 三 阶 段 ( 2011—2014)为网页存档系统功能全面提升研究, 第四阶段(2015—至今)为探索智慧型网页存档实践。

  本文在对国内外近年相关研究文献和网络存档项目调研的基础上, 参照 OAIS 模型, 将各阶段归纳为采集、 管理、 保存、 利用 4 个主要阶段[5], 对每个阶段的研究进行细分。 以时间流逝线为主线, 对 1996 年至今的网页存档相关主题研究进行全方位梳理。

  2 网页存档实践项目发展概况

  纵观整个网页存档研究历史进程, 1996 年 In⁃ternet Archive[6]的提出正式意味着网页存档实践项目的兴起。 同年, 澳大利亚建立 Pandora 项目[7],开发了 “PANDAS” 数字信息存档系统, 项目保存澳大利亚境内在线出版物, 包括社会科学和自然科学、 政治、 宗教文化等方面的资源, 建立与各州立图书馆的合作关系, 在系统开发上, 主要在数字对象存储系统、 数字对象管理系统及数字对象存档系统 3 个领域进行主要投入[8]。 同年, 瑞典建立 Kul⁃turarw3 项目[9], 收集瑞典顶级域 “ se” 下的 Web服务器及部分其他服务器的资源。1997 年北欧图书馆在借鉴 Kulturarw3 项目的实践经验后, 启动 NWA 项目[6], 并成立专门的技术小组负责制定长期归档资源的保存、 访问等技术规格, 逐步建立与北欧各国图书馆、 整个欧洲地区的网页存档合作机制。

  同年, 美国国会图书馆建立Minerva Prototype 项目[10], 对长期保存资源的数字化、 元数据、 选择与采集、 可获取等问题进行试验, 通过与 Internet Archive 项目合作, 获取 “Way⁃back Mechine” 及采集技术, 为收集的网页资源进行索引, 同时提供短期的数据存储服务, 用户可以按照网站、 日期或类别获取资源。1999 年新西兰国家图书馆启动网页存档项目,对政府、 历史、 医学、 音乐、 政策等主题进行选择性采集[11], 保存的资源内容支持网址搜索、 关键字搜索、 字母搜索、 主题浏览。 2000 年捷克国家图书馆建立 WebArchiv 项目, 提出基于重大事件的采集方式。

  2001 年挪威国家图书馆启动 Paradigma项目, 通过法定存缴框架对长期保存的资源进行框定, 并提供获取服务[12]。 同年英国国家档案馆开展网页存档项目并采取选择性、 事件、 主题的收集方式对境内网站进行保存。 在此项目中, 部分内容可追溯至 1996 年的英国中央政府网站[13]。

  3 研究历程及代表性观点

  3. 1 资源采集2000 年我国就有学者提出建立网上资源库的设想[19], 认为创建网上信息资源库, 收集和保存网络产生的信息资源能在 “时间、 空间和经济行为” 三者之间进行有效配置。 这一想法启发了杨道玲[20]提出网络资源要及时、 系统的采集, 应建立完善的数字资源呈缴本制度, 以立法形式确保产生的网络资源置于国家控制下。 2003 李春明等[21]在以上研究基础之上提出为保证采集内容的准确性, 应先基于区域进行模糊抽取, 再基于正则表达式进行精确抽取, 两种方法需要同时进行。

  2004 年赵俊玲[22] 在提出在资源采集环节需要采用选择性采集、 全域采集等多种方式混合采集资源, 在对美国国会图书馆开展的 Minerva 项目研究中, 加深自己的研究, 提出基于重大事件的采集方式, 以此, 能够反映事件的全貌。 同年, 我国学者提出, 对重大事件, 如非典、 人民代表大会进行专题的收集[23], 以上观点不谋而合。 难以收集资源所有历史版本及隐藏的或动态资源的难题一直困扰着网络资源采集, Hiiragi W 等[24] 提出一个网络归档的系统模型, 按照提供网络资源的个人或组织确定的资源归档策略来收集资源的, 从技术上解决了此问题。

  2015 年 Gossen G 等[25]通过整合社交网络和聚焦网络抓取来提高网络收藏的新鲜度, 提出通过一个新的集成的爬虫, 将网络和社会媒体无缝地整合在一起, 从而为一个感兴趣的主题收集新鲜的、 相关的网络和社会网络内容。2016 年陈为东等[26] 在社交媒体资源进行网络存档的基础之上, 从采集工具的角度出发, 提出社交媒体采集工具分为捕获形式、 插件技术、 专门针对某一资源或社交媒体、 保存对象、 其他种类共 5类, 从 API 独立性、 采集内容、 适用对象、 是否开源与是否免费 5 个指标比较了捕获形式下以 API获取信息的 7 种工具。

  2017 年张卫东等[27] 通过对欧盟 FP7 框架下发展成熟且具有代表性的社交媒体信息采集与保存项目 ARCOMEM 采用的信息采集机制、 采集标准、 采集策略和采集方法等方面予以深入剖析, 提出了建立多元的组织协作采集机制、 制定科学规范的采集标准、 运用多目标驱动的采集策略、 开发智能化的采集方法, 提出需要资源保存风险评估及控制的技术做出进一步研究。

  3. 2 资源管理关于采集数据管理问题, 2006 年陈清文[28] 提出在管理方面, 软件、 硬件、 人力等因素需要经济费用支撑, 应该重视经济效益, 在长期保存管理策略也提出了提高全民意识、 制定有关网络信息资源长期保存的法律、 建立网络信息长期保存的责任制、 并提出网络信息资源呈缴制。 王志庚等[29] 在2007 年提出各国项目管理数据所采取的措施不同,例如数据交换。

  因此, 需要联合制定存档数据管理的统一标准, 但在当时我国 WICP 的总量较小, 还没有开展系统的数据管理研究和实践。在 2008 年, 作者对网络信息呈缴制的研究继续深化, 提出将网络信息资源纳入呈缴之列, 呈缴制度应该明确呈缴者的权利和义务并建立符合我国国情的呈缴制[30]。 2011 年杨智勇等[31] 提出要从 4个方面进行网页资源长期保存的管理分别是: 更新技术、 数字迁移技术、 仿真技术及自动管理技术。

  4 阶段性研究特征分析

  4. 1 第一阶段(1996—2005)在此阶段, 国内外网页存档发展涉及较为广泛,这是因为实践项目刚兴起, 带来较多可以进行研究的切入点。 国外在对网页归档过程中的采集工具、采集方式、 归档资源组织、 网站评估、 索引网站、保存系统的开发、 升级等问题的研究较为突出。 国内研究则多数以国外较成熟的实践项目为研究对象, 充分论述国内实践项目的同时, 多角度进行分析, 为我国的网页归档实践项目的发展提供建议;整体研究呈现增长的趋势, 维度趋于横向拉宽。由 1996—2005 年每一年的发文数量逐渐变多,研究代表性思想呈现逐渐朝着整个实践项目各阶段进行深入研究的趋势, 研究的范围逐渐变广, 有趋于深入研究的趋势, 随着时代的变迁会带来新技术的革新, 研究的成果将会呈继续增长; 在理论研究方面, 国内的理论研究较多, 技术方面的研究较少。 国外相反, 对技术问题研究较国内更深入也更前沿。

  1) 资源采集: 国内的研究, 对于网络资源采集方式进行较为具体的刻画, 以选择性采集、 全域采集及主题事件采集等多种采集方式并行的方案受到推崇; 首次提出 “呈缴本制度”, 以确保采集到的资源在国家的管控之下。2) 资源保存: 国内从资源自身属性、 保存内容的著作权及信息资源保存框架入手, 对资源保存策略开展试探性研究, 首次出现对于 “归档资源评价” 的相关研究。3) 技术研发: 国内对于技术研发较少; 而国外热度较高, 出现将文本网络挖掘技术、 网络考古、 新算法等技术应用于网页存档实践项目, 从而解决了网页存档过程中文件种类多样化、 脚本语言障碍、 域内链接结构等技术难题。4) 系统框架: 国内外的系统框架聚焦于资源采集部分框架搭建, 是因为此阶段对于网页归档资源的采集研究较多, 出现基于采集方式的系统框架及社会正义与道德框架, 以此指引网页存档实践活动。

  4. 2 第二阶段(2006—2010)第二阶段, 技术相关研究越发深入; 国外此阶段的重点是技术的研发研究, 包括系统架构升级、保存网络分布式体系结构、 存储框架及存档质量等。 国内的研究, 除借鉴国外的实践经验之外, 对我国网页存档项目的个性化建议也出现较多研究成果, 对 “责任体系” 的研究为重点。 在此阶段,国内外对于存档流程研究更为细化, 趋近于完善的网页存档应用型项目。

  1) 资源采集: 我国学者对于国内重大事件进行专题收集, 以此反映事件全貌, 国外研究从技术角度解决了采集过程中, 难以收集资源所有历史版本及隐藏的或动态资源的难题。2) 资源管理: 国内研究开始涉足元数据及元数据管理, 从软件、 硬件、 人力、 资金等方面完善网页存档实践项目, 对于 “呈缴制” 的研究进一步深化, 呈缴制度应该明确呈缴者的权利和义务并建立符合我国国情的呈缴制。 相较于国内, 国外此阶段的研究重点在系统研发及系统框架搭建。

  3) 资源利用: 国外学者研究聚焦于促进工具的利用, 从而促进资源利用。 国内研究有相似之处, 提倡使用 “Wayback Mechine” 并且在法律允许范围内, 尽可能开发系统, 在技术上国内的实践项目需要技术发展。4) 技术研发: 国外对于技术研发实现一次峰值, 在开发元数据、 元数据的应用、 编目归档内容的方法等进行的研究较多, 也出现了一些设想, 例如在面对 Web2􀆰 0 时代的解决方案, 技术革新需要紧随时代发展的步伐。

  5 结 语

  网页存档是人类网络信息资源长期保存的重要任务, 时代的发展带来了众多新技术的革新问世,这也给实践项目带来了巨大挑战。 首先, 网页存档实践项目针对每个国家都带有特色的烙印, 采集工具、 采集内容、 资源管理、 保存方式、 利用侧重点、技术开发方向、 系统平台建设、 法律法规标准迥异,各具特色。 其次, 作为网页存档实践项目责任主体,长期保存体系的构建者, 又要为广大用户提供服务,需要在系统功能方面满足用户需求的同时, 在法律允许的范围内, 遵守知识产权以及隐私权等相关法律约束。 随着各国网页归档实践项目的发展, 项目过程中的各个流程都将会进一步得到深入研究。 系统梳理以往的研究具有重要作用, 对于日后网页存档理论及实践有启示意义。

  对各国家图书馆或档案馆而言, 网页存档实践项目是技术与资源及人工共同结合的一项工程, 网页存档实践项目发展的方向, 始终是指向 “资源深层开发利用” 环节, 提高资源利用率是最终核心问题。 理论模型、 系统框架、 技术革新、 资源采集方式、 归档资源评估、 资源开发利用及人工配置, 七者交融但又相互促进。 后续的相关研究中,可以根据这五方面特点, 开展更为深入的探索。

  参 考 文 献

  [1] 中国互联网络信息中心(CNNIC). 第 47 次中国互联网络发展状况统计报告 [R]. 2021-02-03.

  [2] 阳广元. 国内外 Web Archive 研究综述 [J]. 图书馆杂志, 2014,33 (10): 88-94.

  [3] 杨道玲. Web 资源保存现状与思考 [ J]. 图书馆杂志, 2004,(10): 32-36.

  [4] 阳广元. 国外 Web Archive 研究进展及启示 [ J]. 图书馆工作与研究, 2016, (6): 18-21.

  [5] 黄新平, 王萍. 国内外近年 Web Archive 技术研究与应用进展[J]. 图书馆学研究, 2016, (18): 30-35.

  [6] Developers. Internet Archive [ EB/ OL].

  [7] Pandora [EB/ OL].

  [8] 李华, 吴振新, 郭家义, 等. Web Archive 发展历程与发展趋势研究 [J]. 现代图书情报技术, 2009, 3 (1): 1-10.

  [9] National Library of Sweden. Kulturarw3 [EB / OL].

  [10] Library of Congress. Minerva [ EB / OL].

  作者:初彦伯 王 萍∗ 李依凝 李佳恒