档案馆的社交媒体信息存档实践进展与策略展望*
2021-11-27周文泓贺谭涛黄小宇文利君
周文泓 贺谭涛 黄小宇 文利君
(四川大学公共管理学院 成都 610064)
1 引言
社交媒体信息存档于全球正从价值确认、战略设计走向有效行动的落实,以此推进信息资源与资产的长久保存。美国国家档案与文件署(以下称NARA)2011年发布《社交媒体文件管理指南》、澳大利亚国家档案馆(以下称NAA)为政府机构解答社交媒体信息捕获问题、英国国家档案馆(以下称TNA)形成社交媒体档案库、我国国家档案局在《重大活动和突发事件档案管理办法》中提及保管社交媒体信息等行动显示了社交媒体信息正成为存档对象的重要门类落于实践进程中。依据实践对外发布的信息,这项任务极为艰巨,具体的挑战与影响点尚在识别与解析之中,关于档案馆应存档哪些社交媒体信息、以怎样的方式存档、如何实现长久保存和有效利用等有待充分的实践解析与理论指导。
研究层面,相关理论成果中档案馆的视角显著。首先,档案馆应在存档社交媒体信息发挥作用从档案馆保存文化遗产与社交媒体信息丰富的证据与记忆价值得到明确[1]。其次,档案馆在社交媒体信息存档中体现的主要功能被设定为或是作为存取基地或是面向社会提供社交媒体信息存档指导[2]。最后,对于档案馆社交媒体信息存档模式的探讨,主要围绕政务类社交媒体信息或重大事件社交媒体信息展开论证与设计,涵盖从捕获到保存等多个存档的过程性环节[3]。同时,关于如何存档亦从引入社会力量、强化自身专业与技术能力、适当拓展面向社会的存档范围等策略展开如何做的讨论[4]。然而,研究多限于基于社交媒体信息推导对应的存档情境从而指出该情境下档案馆存档社交媒体信息的方法与策略,或是对有限案例形成经验启示,缺乏对实践更全面与深入的数据收集以及分析。
因而,本文将对全球范围内档案馆的社交媒体存档项目展开调查,通过档案网站搜集、搜索引擎检索、文献调研等方式明确提供公开信息的相关实践。经过所获取实践信息的梳理与整合,明确档案馆存档社交媒体信息的总体特征,由此形成面向未来的优化策略。
2 多元存档模式下的实践进展
依据档案馆在存档主体机制所体现出的功能定位与关联方的不同,对应于不同模式的实践进展为:
2.1 面向机构形成者的指导式接收
在这类模式之下,档案馆作为信息管理的专业方同信息形成者主要是业务指导与被指导的关系,社交媒体信息由形成者捕获,然后依据保管价值与年限由档案馆在一定时间后接收部分信息进行长久保存。
这类实践的代表为NARA与NAA,面向政府机构分别提供《使用Web2.0和社交媒体网站的规则和内容管理职责》[5][6]等政策,指导信息形成者展开具体的捕获与管理工作。具体而言,以奥巴马总统社交媒体档案项目为例[7],NARA展开的具体行动及其成果表现在两个方面:一方面,指导美国联邦政府主要为白宫办公室形成符合联邦法规与社交媒体信息特性的存档方案,例如将奥巴马总统所形成的社交媒体的信息全部迁移至新建账户中,且账户的对应信息例如关注者与被关注者同样迁移,在保证美国总统账号更新使用的前提下最大程度维护其档案特性与在线开放。另一方面,依照联邦法规,总统卸任后要将在任期间有档案价值的那部分记录移交至档案馆,因而奥巴马总统的社交媒体信息作为具有重要价值的内容同样要由NARA接收一份,从而保障这些信息的长久保存与可用。由此,通过采用ArchiveSocial公司的服务,已形成名为“ArchiveSocial's Search Box”的可供检索的数据库,目前该数据库中共整合了100多个奥巴马政府官方社交媒体共享的超过25万条的社交媒体信息。
2.2 档案馆作为文化资产守护者的主动式捕获
于这种模式之中,档案馆作为信息遗产的保管者,主动识别社交媒体信息对象,依据自主设定的存档范围对社交媒体信息进行捕获直接纳入档案资源中。
这类模式的实践主体一是公共档案馆,如TNA、美国北卡罗莱纳州档案馆均是此类实践。除了熟知的TNA在网络档案库的实践基础上形成以Twitter、YouTube、Flicker平台为主的面向中央政府机构账户的社交媒体档案库外,北卡罗莱纳州亦有相近实践。北卡罗莱纳州档案馆意识到以Twitter、Facebook为主的社交媒体集中了庞大的用户群体,使得社交媒体成为改善政府和用户之间互动性的重要渠道,由此而产生的大量互动信息需要得到合理安排。为此,北卡罗莱纳州档案馆开展了“social media archive”项目[8],旨在提供对该州法律规定的或与公共业务相关机构的社交媒体信息的免费访问。项目团队协同社会第三方存档公司ArchiveSocial,利用其技术进行归档。具体而言,项目团队利用快照技术对社交媒体信息进行自动归档,并捕获HTML核心数据。此外,为了保证社交媒体信息的真实性和完整性,项目团队还以其原始格式保存了网页的底层元数据,并将上述数据存储在云端。最后,利用公共访问门户OpenArchive提供对相关信息的访问。目前项目团队已经归档了特定机构的数十万条社交媒体信息,涵盖文本、图片和视频等多种形式。归档的社交媒体信息来自Twitter、Facebook、Flickr等平台,从内容上看主要为有关该州的历史、新闻和公共文件等内容,这些内容已作为档案进行开放,访问者可以按照关键词、日期、信息所属平台、文本和账户对社交媒体进行筛选。
另一实践主体则是高校档案馆,它的主要服务对象是所属高校,同时也关注留存所在社区或地域的记忆材料。以杜克大学档案馆为例,杜克大学档案馆旨在识别、获取、管理和保存具有持久价值的大学记录,并根据杜克大学董事会,行政管理和教职员工批准的政策使这些记录可供使用。为此,在2011年,杜克大学档案馆开始开展“大学档案馆网络收藏”项目[9],有选择地将网络和社交媒体内容添加到他们的馆藏中。这一项目存档的对象大多数是杜克大学的附属网络站点,这些站点建立在杜克大学拥有的域上,或者建立在附属办公室、部门或组织的外部平台上。存档内容涉及行政办公室、学术部门、运动队、公共关系办公室、出版物和学生组织的网络资源,还包括一些与个人教师有关的网站,涉及杜克社区成员的争议以及与学生积极性有关的网络内容,其中包括Twitter,Facebook和Instagram等社交媒体相关内容。该项目使用Internet Archive的Archive-It服务、Social Feed Manager(SFM)和Twitter Archive Google Service(TAGS)来收集网站和社交媒体,捕获和保存基于Web的数字内容。收集的内容以网络快照的形式在Archive-It的网站和杜克大学档案馆网站的收藏指南或目录记录中予以开放,部分收集的内容也被杜克大学档案馆进行二次开发以杜克大学年鉴的形式呈现。
2.3 档案馆作为专业贡献方的协作式共建
在这样的模式下,档案馆作为记忆机构联盟的一员,依据其在所处联盟中的地区、专长、资源等方面的定位合作制定存档方案、展开存档行动,共建更加全面完整的社交媒体档案资源体系。
在全球的社交媒体存档项目中,以记忆机构联盟的形式展开的实践不在少数,例如TNA与大英图书馆合作而各自分工存档不同账户的奥运会相关信息,从而在资源配置与工作量分解的前提下形成更完整的英国2012年奥运会的社交媒体档案集。当前,最具全球影响力的则是IIPC(全球互联网保存联盟),英、美、加拿大等国的档案馆均在其中。具体来说,围绕社交媒体信息的存档有两类情况:一是存档项目的中包含社交媒体信息,二是项目以社交媒体信息存档为中心。以“Novel Coronavirus (COVID-19)”项目[10]为例,于实施过程,本项目由来自各档案馆与图书馆人员组成的内容开发工作小组负责,同其他各环节工作组协作,从存档内容的选择、采集、存储、利用方面进行全流程的质量控制和技术支持。于成果来说,现已存的近万个网站中含有千万条标准化数据,其中社交媒体类网站近四百个,涵盖了起源、传播、医学等各类内容。用户可浏览、检索或分类筛选相关数据,同时可提名网站以共建疫情档案。
3 实践特征解析
现有实践显示出档案馆的社交媒体信息存档有如下特征,并表明当前的成效与挑战在于:
3.1 存档对象以官方记录为主向社会拓展
在存档信息对象层面,档案馆的存档范围体现出两个方面的趋向:一方面,延续档案馆传统定位,以官方记录主导下的信息资源建设为基本方向。因而,相比于图书馆或是社会第三方记忆机构,档案馆的存档主要面向能反映所在国家、地区或是组织的管理主体业务活动的信息。美国、澳大利亚、英国等均是在此前提下明确哪些应当作为档案馆的档案纳入管理范畴。从存档结果来看,主要的资源构成还是以官方机构所形成的信息为主。例如,英国的社交媒体档案库只针对政府账户捕获信息。
另一方面,社交媒体的信息与传播机制弱化了信息的公私边界,促使档案馆的社交媒体信息存档向社会范畴拓展。一是在于官方机构于社交媒体平台并非单向传播,而是同社会不同类型的组织、群体或个人产生互动,甚至官方机构并非发起方而是回应方,结果是公私交叠的信息。二是重大事件作为社交媒体的信息生成与传播的重要据点,同样会通过舆情效应成为官方机构的发声对象,公私边界的区分会破坏事件记录的完整性与真实性。在这样的背景下,档案馆的社交媒体信息存档同样涉及私人记录。例如,北卡罗莱纳州档案馆所捕获的就是同北卡罗莱纳州相关的历史叙述、新闻报道、公共文件、“档案馆怪谈”、军事有关的信息,这些内容包含了官方机构以外形成的记录。
3.2 存档主体以档案馆为主导的有效协作
档案馆作为社交媒体信息存档重要的实践主体有两个关键定位,这在实践中得到充分体现:一是档案馆作为专业的信息长久存取基地,有其职责与方法展开具有专属特色的社交媒体信息存档实践。这意味着同图书馆、博物馆以及其他信息或记忆机构等同样有责任与能力存档社交媒体信息的相关方相比,档案馆的立场、方案以及目标均有所不同。例如,档案馆的存档实践中,同图书馆相比,信息主要来源于官方机构且可由形成者依据法律法规自主完成存档后移交至档案馆,同时对信息的权威性有更高要求。
二是档案馆的存档实践同样处于社交媒体信息存档所倡导的协作框架下,档案馆主导不代表孤立。一方面,社交媒体信息遍布各个平台形成于大基数的多元群体,档案馆同其他信息或记忆机构在属性相近但各有职责的情况下分工完成对信息的存档有助于优化资源配置。例如TNA与大英图书馆等已有近20年采用这样的协作方法,既有助于保持各自的独立性,又有效的促进了信息相对完整的存档。另一方面,社交媒体信息存档的复杂性意味着对存档方的跨领域能力要求,档案馆正成为统筹者与决策者而将行动执行“外包”于社会力量,例如archive social、archive it等社交媒体信息存档的商业服务提供商都出现于上述实践中,公众提名重要的社交媒体信息也在部分事件中显示。
3.3 存档方法有待形成工具体系
社交媒体信息作为新类型的电子文件或网络信息需要存档方法的适应性调整,这于学术研究与理论探索中都明确了必要性,从多元化的实践亦可看出方法建构正在进程中。然而,对比于网络信息存档已有较充分的制度与技术保障,社交媒体信息存档尚未在档案馆的实践中建构系统方法以面向具体行动形成工具体系。一方面,制度性的工具依据调查有一定的缺失。社交媒体信息的背景、形式与内容呈现的新特征使得当前的制度未能完全对照使用,存档哪些信息、由谁存档、具体流程及其行动要求如何等缺乏依据。例如,NARA在2014年提出要针对社交媒体信息更新分类方案与保管期限表,但至2020年依旧未形成可供使用的具体方案。
另一方面,在网络信息存档的启示下可发现,自动化与半自动化的存档是关键,这同样适合于社交媒体信息存档的技术性工具要求,从而能够处理复杂的信息要素。然而,当前档案馆主要依赖于技术外包,除商业机构外,也主要是高校或其他第三方机构形成部分工具,但是否满足档案馆要求与档案特性就存有质疑空间。
3.4 多样化存档成果待完善
实践成效从多样化存档成果得以显现,同样也呈现了完善空间:
一方面,社交媒体信息存档成果的多元可能性得到体现。以简单归类形成初级有序资源如依照平台类型、日期、账户、信息形式进行组织的分类信息,由具体主题形成专题汇集资源如政治、文体、科教以及突发事件专题,强化挖掘与设计形成知识化产品和服务等显示了从社交媒体碎片化信息到档案资源的多样性与深度。例如,奥巴马总统档案既留存了“原始”的账号信息与运营内容,也依托社会化开发形成文本、图片、视频等多形式挖掘的产品。
另一方面,存档成果依旧存有较多局限,重点体现在两方面:一是资源量有限,相比于总体的社交媒体信息量与社交媒体信息内涵的丰富构件,当前的存档结果是极小的比例。即使是只关注官方机构的社交媒体信息,所存档的也只是部分账户中的部分内容。例如,TNA捕获的只是账户发布的主体信息,转发、评论类信息没有纳入其中。二是从信息到档案的整合力度有限,多数档案馆只做到初级的分类,既无向细颗粒度延伸的数据集提取,也缺乏面向数字产品的开发。
4 展望:档案馆的社交媒体信息存档策略
社交媒体信息纳入档案资源体系实现长久保存与利用已是必然趋势,社交媒体存档已从10年前的是否应当存档的讨论与构想走向具体行动,档案馆依旧发挥着重要作用。于我国而言,随着政府网站归档已有明确的国家级政策规范指导,面向“互联网+”延伸的社交媒体信息亦将是未来的资源建设对象,全球范围内的实践为此提供了有效的经验对照:
4.1 基于档案馆条件明确存档对象
范围与具体对象的明确是档案馆存档社交媒体信息的显性挑战,这在于社交媒体信息有着多元的背景、形式与内容,其类别与价值难以确认,且海量信息的存档也会造成对档案馆的资源与能力负担。从现有实践来看,存档对象尽管各有不同,但策略相近,即对照档案馆条件确认具体存档对象:
一方面,从档案馆的职能出发,实践中或是协同形成者、或是自主存档、或是联合其他信息与记忆机构,均是对应不同国家与地区的档案馆定位,而官方机构信息为主的存档范围更是对接于档案馆的特性。因而,在我国档案馆党政属性显著的情况下,除政务类信息,党委系统的官方记录同样要考虑纳入存档范畴。
另一方面,档案馆自有的工作方法亦要得到遵循,关于对档案与档案管理的理解要融合于存档对象的明晰中。尽管社交媒体信息关联繁杂且内在构件多,但在现有管理条件下需要面向档案属性进行选择,这取决于不同档案馆的认知与对应方法,如TNA只捕获机构发布的主体信息而非所获评论在于他们认为主体信息才具有档案价值。因而,于我国而言,社交媒体信息存档范围的确认应对照《档案法》中的规定和工作传统来辨识应成为档案的那部分社交媒体信息。
4.2 面向多元主体协同升级档案馆功能
档案馆绝非社交媒体信息存档单一主体在理论与实践上均获得相近共识,多元主体协同辅助档案馆及时、有效、优质达成社交媒体信息存档目标被视作根本策略。于档案馆而言:
一方面,认同并搭建以档案馆主导的协作机制。现有实践显示出这在于要识别有效的辅助力量,包括共建单位、众包方、存档服务提供商等。于我国而言,将互联网信息保存纳入业务范畴的国家图书馆、数字文件与档案管理系统开发商、学术机构、以及公民等都是潜在力量,关键的是要形成相关政策与规范来确定不同力量参与档案馆社交媒体信息存档的流程、具体要求和机制。
另一方面,档案馆的功能升级,即如果一部分工作如存档对象识别和系统开发交托于社会,那么档案馆的业务内容亦要调整。于我国而言,档案馆作为资源存取基地的重要功能不仅是要做好保管利用工作,而且要作为信息资产的守护者拓展出统筹、协调、监督的功能。这涉及到存档治理框架即完整规则的确定、面向不同协作力量的对接机制建立、以及具体存档流程中的全程管控。
4.3 立足制度与技术的存档方法建构
制度和技术是行动得以启动和持续的保障,是对存档方法系统化的表达。在制度层,NARA与NAA在2011年起就着手于政策制定来解答社交媒体信息存档的共性问题并提出要考虑的挑战,这对于存档有着有效的行动指导与问题引导。而技术层的缺失则是当前档案馆实践进展有限的原因之一。
因而,于我国而言,形成系统的存档方法是需要重点探索的方向,这需要制度与技术的双重融合加以实现。一方面,这指向了整体保障应包含怎样的内容,制度作为规则与技术满足规则所需的相互关系需要在未来进一步利用以实现高效的保障体系建设,这需要规则为技术开发提供事无巨细的需求分析,亦要技术开发牵引制度层设定规则时对主体、对象、行动内容、成果等方面的综合考虑和平衡。另一方面,整体保障的建立策略同样要得到考虑,涉及从法律法规到标准规范面向专业共同体的意见征集、不同主体的力量综合使用如技术的开放开发、存档共同体的建立和协作以共享共建有共识可共通的保障体系等。
4.4 以行动为导向丰富存档成果
实践显示出社交媒体信息存档的复杂性,难有一蹴而就的完善方案供具体行动使用,因而以行动为导向推动进程以发展的方式完善存档成果。换言之,社交媒体信息存档的基本假设是:在现有条件下形成适合的方案并知晓方案的局限,为最大程度降低信息失真、失存、失用的风险而尽可能开展行动,承认存档成果的不足并积极优化后续的存档方案。
于我国而言,行动力的缺失一定程度上在于当前档案馆主要工作内容并未涵盖社交媒体信息这类相对非主流的范畴,数字档案馆与电子文件单轨制等已有较大的资源损耗,且对于社交媒体的信息价值与存档挑战有较多不确定性。在这样的实践困境中,有局限的行动应当被鼓励与落实。例如,在存档对象难以确定的情况下,可根据职能选取较为重要的账户。同时,具体存档内容与格式都可以选择较简单甚至不完全符合档案特性的方式,如只摘取主体信息与发布账户名称、存为WARC的网络信息标准格式等。关键在于,需要通过行动启动这样一项复杂且侧重于长远价值的任务,并在行动过程中发现问题,才可形成完整、系统的存档框架与方案。
5 结语
总而言之,在社交媒体平台已成为政府、民众、社会组织等多种社会主体之间信息传递以及相互交流和沟通重要工具的背景下,社交媒体信息在记忆、证据、资产等方面的价值得以凸显。于档案馆而言,如何实现上述信息的长久保存和有效利用离不开理论上的指导和对现有实践的经验总结。本文通过调研全球范围内档案馆的社交媒体信息存档项目,发现当前档案馆的社交媒体信息存档实践可细分为指导式接收、主动式捕获和协作式共建三类,明确了相关实践在对象、主体、方法和成果等维度的特征。由此提出基于我国国情的档案馆社交媒体信息存档策略。当然,研究侧重于对现有实践成果的梳理和归纳,尚需更为深入的研究帮助构建档案馆视角下的社交媒体信息存档框架,明确档案馆参与社交媒体存档的关键要素及要求,从而有效促进我国档案馆的社交媒体信息存档实践升级优化。