网页归档项目对社交媒体文件归档的启示*

2018-12-14黄新荣

图书馆 2018年12期

曾萨黄新荣

（西北大学公共管理学院西安 710127）

互联网时代，社交媒体记录了个人、组织、社会方方面面的活动，是人们社会生活的重要组成部分。社交媒体文件归档，不仅是保存凭证信息，更是构建个人记忆、组织记忆、社会记忆不可或缺的内容。社交媒体作为重要的信息生产平台，其文件归档在美国、英国、加拿大、澳大利亚等国已经引起重视，这些国家均已开展归档项目。我国还未有社交媒体文件归档的实践，具体如何操作尚处于空白状态。相对来看，国外90年代就已经开始网页归档研究，国内近几年也开展了网页归档项目，网页归档项目在管理、技术、方法等方面已经比较成熟。网页归档和社交媒体文件归档，都是网络信息资源长期保存以及电子文件归档的延伸，有一定的相似性。借鉴网页归档的经验，可为社交媒体文件归档提供可操作的方法和建议。

1 国内外网页归档项目概况

1.1 国外网页归档项目概况

早在1996年，美国互联网档案馆、冰岛国家与大学图书馆、澳大利亚国家图书馆、埃及亚历山大图书馆就已经开展网页归档项目，此后瑞典、新西兰、法国、挪威等国家纷纷展开网页归档实践。2003年7月，IIPC[1]（国际互联网保存联盟）在法国国家图书馆正式成立。IIPC的任务是获取、保存互联网上的数据，使后代可以从项目中获取知识和信息，促进全球交流与国际关系。目前IIPC共有54个成员，包括一些著名的图书馆、档案馆、联盟、大学、商业机构等，涵盖全世界绝大多数高水平的网页归档项目研究机构。IIPC在网页归档系统结构、标准规范、元数据等方面建立了一系列技术规范，并资助成员机构开发能够实现网络资源采集、管理、存储、利用等功能的高质量、具有较高易用性的开源性软件工具[2]。

1.2 国内网页归档项目概况

中国国家图书馆是IIPC的成员机构之一。中国目前有两个网页归档项目：Web信息博物馆和网络信息资源采集与保存项目（WIPC）。

1.2.1 Web信息博物馆概况

“中国Web信息博物馆”[3]是在国家973和985项目支持下，北京大学网络实验室开发建设的中国网页历史信息存储与展示系统，包括历史网页存储系统和回放系统两个部分。系统可以收集中国所有静态网页，并提供历史网页的存档和回放。该系统主要功能有：网页回放，输入URL, 浏览永久保存的历史网页；历史事件专题回放；数据分享。该系统以“天网搜索”技术为基础，项目2011年陷入停滞，首页可访问，但无法进行网页回放。

1.2.2 国家图书馆网络信息资源采集与保存项目（WIPC）和网络数据库导航项目（ODBN）

中国国家图书馆网络信息资源采集与保存实验项目，2003年开始，主要任务为发现网页资源采集、存储、著录和开放利用中存在的问题，提出解决方案；确定网页归档采集范围和资源类型，根据其特点确定技术应用和采集策略；实验性收集、整理、保存网页并提供服务等[4]。WICP和ODBN是国家图书馆在进行网络信息的采集和保存时，按照两类不同网页，即表层网页和深层网页，采取不同的整合策略形成的项目[5]。软件运用IIPC的开源软件,WICP项目2015年已停止，ODBN也未有结果展现。

从中国两个项目的情况来看，中国网页归档项目开展得并不成功，无法持续提供利用，但是表层网页、深层网页不同的采集策略的思想仍然具有前瞻性，也为之后中国开展网页归档和社交媒体归档提供经验和教训。

2 国外网页归档项目与社交媒体文件归档项目的对比

网页归档项目数量众多，笔者挑选欧洲、北美洲、澳洲、亚洲等地区，成立时间早、现在可以提供利用、影响力比较大的网页归档项目，运用文献研究、浏览网站等方法，查询项目的采集策略、采集工具等信息，形成典型网页归档项目表（表1）。采用同样的方法，查询社交媒体归档项目的具体信息，形成典型社交媒体归档项目表（表 2）。

表1 典型网页归档项目表

表2 典型社交媒体文件归档项目表

从这些典型的归档项目来看，社交媒体文件归档项目开始时间明显较晚。1996年网页归档项目开展，到2010年网页归档项目已经发展成熟，在采集策略、采集方法、采集标准以及软件设计等方面都已经形成规范，并且能够延续至今提供利用。社交媒体文件归档从2010年开始陆续才有国家开始研究，虽然已经有网页归档作为基础，但是社交媒体信息具有时效性、碎片化、交互性、多媒体性等特征，传统的网页归档项目经验、技术等不能直接应用，现有的项目采集方法、技术研究等方面还比较稚嫩。

表3 网页归档项目与社交媒体文件归档项目的简明比较

将网页归档项目与社交媒体项目作一个简明比较（表3），可以发现社交媒体文件归档虽然也是网络信息资源长期保存，但是很多方面都发生了改变，采集频率、标准、软件等不能照搬网页归档的经验。造成这些差异的最根本的原因为社交媒体是web2.0的集中表现，以用户为主发布信息，其交互性、实时性、碎片化等特点对社交媒体文档归档提出了更高的要求，因此社交媒体文件归档项目的技术水平和管理方式也与网页归档项目有很大的不同。

3 社交媒体文件归档对网页归档项目的借鉴

3.1 管理上的借鉴

3.1.1 制定统一归档元数据标准

元数据是网络信息资源描述、组织、管理和检索的基本解决方案，元数据和开放档案信息系统（OAIS）为数字资源的长期保存提供了技术层面的可行性[15]。元数据在系统互操作和信息聚合方面起关键性作用，规范的元数据标准不仅利于文件的重新整合，也有助于提供多样化的检索方式。国际互联网保存协会定义了网络存档元数据集（IIPC Web Archiving MetadataSet）作为规范的元数据国际标准。IA项目没有制定元数据标准，不能提供多样化的检索方式。除IA 项目外，根据各国国情，各项目都规定有自己的元数据标准，如：日本元数据对象描述框架、韩国都柏林数据集、澳大利亚RDFS。

已经开展的社交媒体归档项目元数据标准还不清晰，如：Twitter存档项目，元数据只是简单的字段规定，对其他项目没有参考价值；OSMA运用的内阁办公室网页标准是为了支持UKGWA项目而制定，只有部分元数据规范。Twitter、YouTube、Ins等社交媒体全世界通用，对于国际性事件或者是影响力较大的事件各国的社交媒体上都有反映，缺乏统一的国际元数据标准，对国际性事件的重构就较为困难。各项目在参考国际标准的前提下规定自己的标准，在检索利用时借鉴图书馆领域元数据收割模式的整合检索，就可以达到对国际性事件多视角、多方面重构，完整、全面了解事件的本来面貌、发展动态。

3.1.2 合作共享

网页归档项目在其发展过程中，展现出良好的合作意识。合作方式包括形成联盟、共享软件、分工协作等。

网页归档项目是一个由独立走向合作，最终形成联盟的过程。1996年网页归档项目独立开展，2003年IIPC成立，开展网页归档项目的机构几乎都是IIPC的成员。IIPC也建立了自己的网站[1]，网站不仅可以查询每个成员有何种项目，也可以查询项目进程；不仅可以了解网页归档项目的概况，也可以了解IIPC最新会议、决策等，将全世界网页归档项目信息汇集、共享。

网页归档项目实现了软件共享。IIPC网站提供网页归档工具的免费下载，软件为开源形式，可以根据实情修改软件源代码适用本国需求，我国WIPC项目、法国国家图书馆网页归档项目等都采用IIPC的工具包。软件共享为各项目提供技术支持，节省了人力、物力。IIPC联盟也资助成员国进行软件开发，成员共享。

网页归档项目注重分工协作。Pandora项目早期由澳大利亚图书馆独立开展，后期为分布式合作模式，各州图书馆以及其他文化机构都参与进来，负责不同类型以及不同地区网页的采集。为了更好的分工协作，澳大利亚、韩国等也制定了《采集指南》，规定各采集机构的职责。此外，在IIPC的推动下，网页归档项目也不定期进行交流，共同探讨网页归档要解决的困难和技术革新。

社交媒体文件归档的合作更为复杂。社交媒体往往是几个大的平台，如Facebook、Twitter等，国内的如新浪微博、微信等，社交媒体文件归档必然要与社交媒体平台取得合作。从法律角度看，平台授权资源收割才具有合法性，如2017年9月15日，新浪微博更新了《微博服务使用协议》，其中的第1.3条宣称：“未经微博平台事先书面许可，用户不得自行授权任何第三方使用微博内容（微博内容即指用户在微博上已发布的信息，例如文字、图片、视频、音频等），包括但不限于自行授权任何第三方发表、复制、转载、更改、引用、链接、下载、同步或以其他方式使用部分或全部微博内容等”[16]。在网络上引起了广泛讨论。从保存社会记忆的角度来说，需要平台积极配合,否则就丧失了记忆的重要来源。社交媒体文件归档技术要求更高，需要软件公司或者科研机构的支持。Twitter存档项目美国国家图书馆将技术外包，ARCOMEM形成了跨国多组织信息采集机制，是合作的典范。随着社交媒体的不断发展，更需要平台服务商、软件公司、政府、第三方组织之间展开密切合作，保存海量的社交媒体信息，进行数据挖掘、相关分析等，用更快、更精准、更丰富的成果服务于社会。

3.2 方法上的借鉴

3.2.1 采集方式

除IA项目外，网页归档项目都是选择性采集，针对特定的网站进行有规律的捕获，或者选定专题进行定时采集。基于选择性采集策略的项目其原则是根据网络信息资源的历史价值、文化价值、研究价值和经济价值的不同，有选择地对 Web 资源进行采集，提高了网络资源的采集质量[17]。澳大利亚Pandora项目的采集方式具有代表性，只采集对未来和现在具有研究价值的资源，如：采集只有网络版的出版物。

社交媒体由于主体多元，产生的信息更为庞杂，采集目标更难确定。ARCOMEM项目采用“全民参与”的采集方法，由群众展开对信息资源的征集与评价，与英国UKWA网页归档项目类似。这种利用者提名所要保存信息资源的方法值得社交媒体归档项目借鉴。但群众容易盲从，采集者应该在争取群众意见的基础上，制定采集策略。

社交媒体具有多媒体性、超链接性，同一信息内容有视频、声频、图片、文字等多种形式，信息量庞大且格式不统一，我们应该对不同类型信息，采用不同的采集方式，以便后续的著录和整理。

3.2.2 去重方法

网页归档在采集过程中不可避免地产生复本，如不同 URL 指向同一文件内容、多次采集的Web 内容没有更新或仅有少量更新[18]。韩国OASIS网页归档项目针对网页复本去除冗余，采用了循环冗余校验（CRC32）的方法，即当系统采集一份资源后，会自动将CRC32值与已有资源进行比对，如遇相同，系统则会通知管理员处理；日本运用的是重复数据删除技术（Deduplication），通过反复制器（Deduplicator）删除重复数据，来提高存储空间的利用率[19]。

除上述以焙烧方式将钼精矿转化为高溶氧化钼工艺技术外，湿法加压氧化分解的方式将钼精矿转化为高溶氧化钼是钼冶炼技术研究的热点之一。依据加压氧化分解加入的物质性质差别，可以将钼精矿加压氧化分解技术分为加压酸浸、加压碱浸两种类型。

社交媒体具有超链接性，针对一个事件有许多的转载和评论，如江歌、刘鑫事件微博有3 000余次转发、1万多条评论，信息大量重复。社交媒体是否需要保存转载和评论，每个项目都要有自己的考量。如果保存转载和评论，必然会出现信息冗余，耗费大量的时间、人力、物力；如果不保存转载和评论，语境信息不完整，会丧失部分重要的背景信息，网友对事件的观点和看法没有被保存，内容信息不完整。在条件匮乏的情况下，点赞数、转载数和评论数作为重要的背景数据，反映事件的重要程度。在技术和资金支持的情况下，评论可以和信息内容一起保存，也可以作为背景数据与元数据一起封装保存。转载可以借鉴网页归档的去冗余技术，避免保存重复消息。

3.2.3 利用方式

IA项目是广泛采集，并未用元数据进行著录，只能通过URL查询网页，检索方式单一。大多数的网页归档项目在成果开放阶段都提供多样化的检索方式，有URL检索、字母检索、主题检索、标题导航、专题检索、地域检索甚至有元数据检索。在可供利用的社交媒体文件归档项目中，检索方式还比较单一。从用户的角度出发，用最简单的方式最快地找到所需要的信息才能更好地满足用户需求。为了更好的用户体验，社交媒体归档查询可以在Wayback Machine的基础上，将关键词检索作为主要检索方式，以多样化的检索方式作为补充，努力实现多媒体检索、智能检索、自然语言检索。

IA项目在利用网站上提供了申诉途径。采集的信息内容不在出版商或者组织对外公开的范围，当涉及到个人隐私时，用户可以在网站提出申诉，项目人员评估是否对此网页继续开放。这是一种必要的信息反馈，值得社交媒体文件归档借鉴。社交媒体如果采集重大事件，必然会涉及个人账户，可能会造成隐私权的侵犯，需要有一个申诉的途径。当然社交媒体归档可以对此途径进行优化，成为一个良性互动方式，用户不仅可以申诉、评价、提出意见和建议，还可以得到项目的回应，项目组不单是判断是否侵权，也能发现问题，改进项目。3.3 技术上的借鉴

3.3.1 软件开发

社交媒体信息也是网络资源的一种，社交媒体的软件要求更为复杂，虽然不能直接采用网页归档的软件但是可以借鉴部分成果。如Arcomem Crawler是在Heritrix的基础上进行开发，综合应用最佳信息新鲜度优化抓取宽度与深度优先搜索、社会网络分析、智能自适应决策支持、“语义保护” 方法等技术，方可实现智能化的抓取[20-21]。社交媒体文件归档的索引和回放软件除了主要参考Nutchwax和Wayback Machine，也可以借鉴基于Lucene 开发的开源企业级搜索平台Apache Solr[22]和谷歌浏览器 Chrome 的插件Momento，可以让用户在使用浏览器进行网页浏览时，在 Momento 内更方便地找到当前访问页面过去的版本[23]。社交媒体文件归档系统也可以参照WCT与NAS，借鉴任务管理、分布式部署以及协同工作等。当然社交媒体归档的软件还是以研发为主、借鉴为辅，需要符合社交媒体平台以及信息的特征，需要更高的技术要求和资金支持。社交媒体相关软件如果可以像IIPC一样实现技术共享、合作开发，将对社交媒体文件归档在大范围内开展起推动作用。

3.3.2 存储格式

为保存网页归档的批量信息，IIPC在ARC格式的基础上开发出WARC， 2009年成为国际标准（ISO28500：2009）。WARC 将多样化的网络资源收割结果连同相关描述信息一并整合到同一存档文件中[26]，如详细地记录了HTTP 请求的头信息和元数据信息，可以识别保存的资源、冗余的资源、迁移的资源和切割的资源块[23]； WARC支持众多协议、打包和压缩、大容量保存。WARC可以记录WARC文档管理信息、资源环境信息、内容信息、结构信息[23]。社交媒体文件归档本质上是网络资源长期保存，完全可以采用WARC格式，完整记录背景数据，满足社交媒体信息多媒体特征；面向不同任务实现记录重组，符合社交媒体交互性信息保存需求；对外部资源进行组织、支持外部检索，满足社交媒体超链接性以及由此带来的检索需求；支持对资源的迁移，以实现社交媒体信息多年后重新提取利用。

4 社交媒体文件归档对网页归档项目的反思

社交媒体信息具有动态性、碎片化、交互性、跨平台性、多媒体性、即时性，比网页归档更为复杂。在进行社交媒体归档时需要克服更多困难，才能长时间保存资源、提供利用、减少纠纷。

4.1 管理上的反思

社交媒体文件归档需要多方合作以及雄厚的资金支持。如果只是仅仅借鉴网页归档项目的管理方式，还达不到深度合作以及雄厚的资金支持。社交媒体归档要真正得到重视，需要国家相关部门牵头。社交媒体平台数量有限但是规模大，国家相关部门应做好顶层设计和规划，避免项目重复开展以及资源重复收集；要加强元数据标准的制定，推动国际标准的规范，方便各国开展交流，减少信息孤岛；要注意协调平台提供商、第三方组织、软件公司之间的利益关系，推动分工合作以及责任落实；主动争取财政支持，使社交媒体归档技术研发等无后顾之忧。

4.2 方法上的反思

社交媒体文件归档对网页归档的反思主要是鉴定方式。舍恩伯格在《删除》[25]一书中曾说，遗忘是人类的常态，记忆是例外。在数字领域类模仿人类的遗忘的可能方法之一是把存储在数字化记忆中的信息和一个存储期限相关联，提醒我们面对信息在时间上的有限性。把信息设置存储期限，就是价值鉴定。网页归档挑选固定站点进行收割，一般为政府网站、学校网站或者知名网站，这些信息更具长期保存价值。社交媒体主体相对于网页归档价值鉴定更加复杂，社交媒体多元参与，一条信息涉及多种主体、多条评论和转发，难以确定收割对象及其保存价值。社交媒体信息十分庞大，如果不进行对象筛选和价值鉴定，即使是压缩保存也需要很大的保存空间。如果需要进行价值鉴定，如何判定价值又成为一个问题，如针对江歌、刘鑫案件，企业微信公众号、个人大V等都有发声，哪些应该被保存，保存多久，都值得思考。如果要进行真实性鉴定，社交媒体图片经过PS等合成技术合成的很多，逐一鉴定需要耗费巨大的财力和人力。社交媒体文件归档在项目开始前就应有规划：是否进行鉴定、进行哪方面的鉴定、如何进行鉴定等。

4.3 技术上的反思

4.3.1 动态网页捕获问题

网页归档采集的都是静态网页，并不能采集动态网页资源。为了更加全面的保存网页信息，网页归档项目做了一些尝试：我国ODBN项目基于链接技术实现网络数据库的分类导航，可以实现5 000个数据库的检索，但后期并未呈现成果；法国国家图书馆（BnF）挑选网站并与版权所有者达成协议，由版权所有者资源通过FTP或者是实体介质（CD或DVD）呈缴给BnF，之后工作人员对这些资源进行校验并添加元数据[26]，但这种人工采集著录的方式十分低效，后期开发了DeepArc，将关系型数据库导出为XML模式； Pandora项目针对深层网页研发出Xinq工具，但也只是将数据放到通用接口。

社交媒体需要用户登陆进行身份验证，需要关注其他账号才能获取信息，是一种简单的动态网页。Twitter存档项目前期由于平台主动捐赠信息，直接跳过了资源采集阶段，无需收割软件,这种合作机制一定程度上可以解决动态网页的问题。ARCOMEMCrawler 采用基于 RESTAPI 的应用程序接口技术获取来自Twitter、Facebook、Flickr、Google+ 、YouTube 等社交媒体的信息[27],并通过App Key复用方法与多线程采集方法的结合使用实现捕获的社交媒体信息 URLs的序列管理[28]。ARCOMEM项目实现了技术的突破，克服了动态网页的障碍，通过线上过程、线下过程、交叉采集实现对社交媒体信息的采集。社交媒体文件归档如果要可持续进行，必然要借鉴这种技术，或者研发新技术，实现动态网页的捕获，并加快网页归档的进程。

4.3.2 新技术的利用问题

社交媒体归档数据十分庞大，传统的光盘和磁介质存储已经不能满足存储需求，谷歌、亚马逊、阿里巴巴、腾讯、百度等公司提供云计算、云存储服务，社交媒体文件归档可以租赁上述公司提供的云服务。档案馆或者图书馆运用云存储技术不但可以使海量信息有处可存，也可以避免大量投入资金购买设备和技术。

社交媒体文件归档需要采集软件进行不间断的采集，大量的积累性数据为数据挖掘提供了无限可能。英国网页归档项目利用数据挖掘技术提供三项可视化服务: 为 Web Archive中的短语或词生成 N-Gram、标签云和3D 墙[29]。此外，社交媒体信息具有动态性、交互性、碎片化特征，同一社会事件的多条不同类型的消息及时汇集才能拼凑出全貌。只有运用数据挖掘工具对大量零散数据进行相关分析，制定社交媒体事件专题，才能为用户提供更加便捷的利用，节约用户时间和精力，更好地辅助决策，为社交媒体信息赋予更大的价值。

4.4 法律上的反思

国外网页归档项目都有法律支持，版本法、呈缴法以及图书馆法规定在线出版物以及网络出版物的呈缴问题、规定图书馆收割公共信息的权利，而国内网页信息资源的呈缴缺乏法律支持。社交媒体文件主体多元，如果公共档案馆、图书馆对本地区大事件进行采集，必然会涉及政务微博、企业微博、知名微信公众号、大V等的微博、微信，采集需要取得主体同意。对政务微博、政务微信进行采集，评论也是重要的组成部分，但评论是个人信息，需要征求个人同意。如果逐个争取账号同意，费时费力。可以通过“信息自决权”的方式，由信息的发布者决定其发布在社交媒体的信息是否要保存、公开，存储期限是多久，来解决版权和个人隐私的保护问题。

社交媒体信息的时效性、交互性、多媒体性、超链接性、多元性、即时性等特征决定了它虽然与网页归档同是网络资源长期保存，但是却不同于网页归档。虽然归档流程相似，社交媒体归档可以借鉴网页归档的相关管理、技术经验，但绝不是复制经验。社交媒体文件归档需要更加广泛以及深入的机构间合作、更加高端的技术支持、更加完备的法律规范、更加优化的归档流程以及更多民众的配合，才能处理好复杂的主体关系、有序采集海量信息、提供便捷高效的利用。

（来稿时间：2018年1月）