国外WebArchive研究与实践进展

2022-06-09

　　摘要：WebArchive采集并保存Web内容，满足当前和未来的访问和使用，其重要性已得到图书馆、档案馆、政府、企业等机构的广泛认可。本文在文献与网络资源调研的基础上，以Web采集、WebArchive的保存、访问和使用为主线，构建了一个系统化的研究框架，并在此框架下梳理国外的相关研究与实践进展。国外的研究与实践值得国内借鉴，如:多主体参与、广泛的交流与合作、注重标准和规范的建设、构建类型多样的WebArchives、对访问与使用的优化等方面，但该领域仍面临法律与伦理、新Web应用内容的归档、存档内容的长期保存、存档内容的多元化应用等问题和挑战。

　　关键词：WebArchive；Web采集；网络归档；数字存储；网络档案馆

　　1、引言

　　随着网络技术应用的日益深入，互联网已经成为最重要的信息汇聚地与发散地。与此同时，网络信息也成为人类社会历史文化风貌的重要记录形式和宝贵的社会历史文化遗产。然而网络信息具有海量、异构、分布式管理、容易消失等特点，一旦消失将难以复原，会给组织或社会信息资源的长久保存和历史传承造成难以挽回的损失。因此，探索网络信息资源的归档与保存策略，满足当代及未来人们访问和使用的需求，成为信息资源管理研究的迫切任务。目前，世界许多国家的政府、档案馆和图书馆都在积极进行网络信息资源归档保存的理论研究和实践探索，WebArchive是主要研究领域之一。

　　WebArchive(WA)在国内有多种翻译方法，如网络信息资源保存、网页信息存档、网页档案馆、网络信息档案馆等。这些翻译基本可以分为两类:一类侧重于归档保存的活动或行为，一类侧重于归档保存所形成的虚拟实体。相应地，对于WA的理解也可以划分为两类，一类认为WA是指有关主体有选择地对具有长期保存价值的网络信息进行捕获、归档、存储等档案化管理的过程，其基本目标是通过网络信息资源的存档，更全面真实地反映和再现社会活动的本来面貌，并满足相关主体对网络信息的长期利用需求，这一观点是将WA作为归档保存活动或行为的典型代表;另一类则认为WA是建立在现代信息技术基础上，利用网络信息采集、整合、保存、发布等技术对网络信息资源进行管理、并通过网络存取的超大规模、分布式数字信息系统。“Archive”的含义包括存档(动词)、档案或档案馆(名词)，而存档这一过程国外通常采用“Archiving”。因此，笔者更倾向于后一类观点，将WA视为通过对网络信息的采集、归档、保存所形成的虚拟网络实体，并可以通过网络访问和使用，其实质是一个网络空间中的数字资源系统。需要说明的是，所有具有保存价值的网络信息资源均应纳入归档保存的范畴，但目前WA所关注的归档保存对象主要来自Web(万维网，采用HTTP协议)空间，如网站、网页以及从网站或网页中抽取的内容，对于其他网络应用形式(如FTP、Telnet)所承载的信息较少涉及。

　　国外WebArchive的实践已有十多年的历史，涌现出了各类WA项目，如国家层面的PANDORA(澳大利亚国家图书馆)、联盟形式的互联网档案馆(InternetArchive，IA)、项目形式的“处于风险中的网络”(WebatRisk)等，其研究和实践吸引了众多参与者，包括国家级的图书馆、档案馆、大学图书馆和研究机构、商业机构等，此外还创建了诸如国际互联网保存联盟(InternationalInternetPreservationConsortium，IIPC)组织。可以说，国外WA的研究和实践积累了丰富的成果和经验，但是网络环境的飞速发展以及新技术与新应用的不断涌现，也对WA提出了新的挑战。目前我国WA的实践还处于起步阶段，相关研究涉及网络信息的采集、国外项目的介绍评析与分析、WebArchive的一般性理论与策略、特定类型网络信息资源的归档保存等，缺少对WA过程的系统研究，对于Web存档保存过程中存在的各种问题及应对策略缺少全面考察。因此，十分有必要借鉴国外WA的实践经验和理论研究成果。Web内容归档保存过程中所面临的主要问题，发现对这些问题已有的应对方法和可能的应对策略。

　　2、Web采集

　　Web采集(Webharvesting)也称Web收集或Web收割，是依据某种策略，采用特定方法和工具对Web内容进行收集的过程，是构建WebArchive的基础，主要涉及采集范围的确定、内容发现和内容获取等问题。

　　2．1采集的范围

　　采集的范围(scope)，即确定“采集什么”的问题，是WebArchive采集策略的核心。Web信息数量庞大且更新迅速，对其中“重要”内容如不及时采集则有可能永远丢失，而WebArchive受资金、人力、物力等限制无法完成对所有Web内容的采集，因此，确定恰当的采集范围是关键。目前，国外WA在确定采集范围时主要采用批量采集策略和选择性采集策略。

　　(1)批量采集(bulkharvesting)。互联网档案馆(InternetArchive，IA)是1996年由BrewsterKahle建立的美国非营利组织，是批量采集的典型代表。IA对全球范围内的Web内容进行广泛收集，目的是为研究人员、学者、历史学家和普通大众提供互联网上数字格式文献的永久访问与免费使用，目前，已拥有文本(电子图书)、音频、活动影像、软件、网页等各类资源。

　　(2)选择性采集(selectiveharvesting)。面对海量的Web信息，全面的采集并不现实，IA也仅采集表层网(surfaceWeb)，大多数的WebArchive采用了选择性采集策略。选择性采集意味着采集“重要”内容而忽略其他部分，但对特定Web内容现在及未来的重要性进行鉴定并不容易，信息内容、信息形式、归档主体需求、法律、成本等方面的因素均会影响采集信息的选择。目前已采用的选择标准包括域、主题、资源类型等。

　　基于域(domain-centric)的采集是国家层面的WebArchive常用的方法，出于保存本国历史文化遗产的目的，采集国家域名或特定通用顶级域名(如．com，．edu等)下的Web内容。此外，地理信息、服务器位置、目标受众、语言、域名的所有者或出版者等也是基于域的采集中参考的标准。

　　基于主题(thematic/topical)的采集通常由特定研究需求驱动。研究者在研究过程中经常会被Web内容的暂留性(ephemeral)所困扰，Web站点生命周期的特点也无法满足科学验证或提供持久参考的需求。因此，一些研究机构和大学图书馆开始创建基于主题的WebArchive，如德国海德堡大学图书馆的DACS(DigitalArchiveforChineseStudies)和美国哥伦比亚大学图书馆覆盖15个主题的WebArchive。另一类基于主题的采集是由特定事件驱动的，也称为基于事件的(event-centric)的采集，典型的驱动事件如总统选举，法国国家图书馆BnF(BibliothèquenationaledeFrance)的选举WebArchive即属此类。

　　基于资源类型(resource-specific)的采集面向特定类型的资源展开。资源类型的界定可从多个角度进行，如来源、媒体类型、应用模式等，相应的WebArchive也可依此划分。荷兰格罗宁根大学的Archipol(ArchiveofwebsitesofpoliticalpartiesintheNetherlands)和英国的政府WebArchive(theUKgovernmentWebarchive)仅采集政党或政府网站;法国的Ina项目从2009年开始采集与音视频媒体相关的Web站点;2010年，Twitter将其所有tweet数据捐献给美国国会图书馆存档保存，澳大利亚的PANDORA项目采集部分博客站点，等等。Web2．0的应用日益广泛，所汇聚的资源也日益丰富，但对Web2．0内容的存档保存还很不充分，仅有少量WebArchive涉及某些应用。此外，并没有对在很多领域得到广泛应用的Web日志进行采集，这也是未来应引起关注的问题之一。

　　在确定采集范围时还有一些更为细节的问题需要考虑，如是否遵循robots．txt协议，是否排除指向范围外域名上资源的转向地址(redirects)，是否排除离开“域”所在范围的被链资源(如PDF文件、视频文件、html页面)等。国外WA一般都遵循robots．txt协议，认为该协议规定的内容是在采集范围之外的，但是图片、动画、音视频文件等内容除外。对于是否排除指向范围外域名上资源的转向地址，目前并没有标准的最佳实践，而离开“域”所在范围的被链资源可能会被纳入采集范围，也可能被排除，但通常会排除所有的MIME类型。

　　2．2Web内容的发现

　　确定了Web采集的范围，在具体实施时首要的问题是如何发现采集范围内的Web内容。自动化的内容发现方法一般通过网络爬虫追踪超链接来实现，首先要预设网络爬虫的种子列表，在抓取相关页面后抽取其中的超链接，并从中发现新的资源。在基于域的采集中，网络爬虫的种子列表可以由分配域名的公司提供，或由网络提供商提供，或者通过与已经获取了相当数量域名的组织合作获取。在基于主题或资源类型的采集中，通常是由相关专家或专业人员提供不断更新的种子列表。

　　此外，一些WebArchive在其网站上设置站点推荐功能，由用户向其提供URL。对于WebArchive，自动化的内容发现方法是主要途径。网络爬虫最初用于搜索引擎，而最早将网络爬虫技术应用于Web内容保存兴起于1996年的瑞典，之后的WA实践中既有采用现有爬虫工具的项目，也有自行开发工具的项目。爬虫中较为特殊的是主题爬虫(focusedcrawler或topicalcrawler)和特定语言爬虫(languagespecificcrawler)，可分别用于特定主题的Web内容发现和特定语言的Web内容发现。理想的主题爬虫应仅下载与特定主题相关的页面并避免下载其他内容，具体的实现方法有多种，如在实际下载页面前通过超链接的锚文本判断相关性，或通过预先训练好的分类器对下载完毕的页面内容进行相关性分析。Tamura等提出了一种用于特定语言爬虫的方法，该方法可以不借助域名来发现特定语言的网页内容，基本的思路是通过预设的语言识别器来判断已下载的网页是否是目标语言。

　　2．3Web内容的获取

上一篇：基于OpenFlow的SDN技术研究

下一篇：P2P流量识别

首页

学术期刊

期刊百科

论文指导

论文中心

关于我们

国外WebArchive研究与实践进展

延伸阅读：

相关阅读：

论文中心 更多

最新期刊 更多

先发表后付款不成功可退款

缔冠期刊网

国外WebArchive研究与实践进展

延伸阅读：

相关阅读：

先发表后付款 不成功可退款

缔冠期刊网

先发表后付款不成功可退款