档案学视角下微博资源长期保存探究
2015-03-30曹文译
曹文译
(上海大学图书情报档案系,上海,200444)
微博,即微型博客,是一种通过关注机制分享简短实时信息的广播式的社交网络平台[1]。据中国互联网络信息中心(CNNIC)报告,仅在中国,截至2013年12月,用户规模就达到2.81亿[2]。在全世界范围内,微博作为一种信息生产和传播工具在各国都拥有数量庞大的用户群,由此而产生大量内容丰富形式多样的微博信息。这些信息又因其独特的记录性和凭证性,能够从不同视角反映社会历史事件和社交关系,而成为各信息保存机构新的关注焦点。美国、英国、加拿大等国的图书馆与档案馆纷纷开始探索微博资源的长期保存之道。其中美国国家档案馆在2010年4月接受了来自Tw itter公司捐赠的1700亿条微博作为长期保存的对象。美国国会图书馆的通信总监盖尔·奥斯特伯格表示:“收集140字的tw itter信息正好符合美国国会图书馆的使命——收集美国故事和获取有价值资料的使命”[3]。这1700亿条微博由此成为美国国会图书馆馆藏的一部分。
然而,作为一种在网络环境下新产生的信息资源,微博拥有许多传统信息资源所没有的特点,其长期保存和管理也面临许多新问题。由于字数限制所造成的信息碎片化,大量信息冗余,虚假信息泛滥以及如何保证其独特的凭证价值,都是在对微博资源进行长期保存时,所需要关注的问题。就目前而言,还没有哪一个学科的理论能够完全应付这些新问题,但是,我们仍然能从不同学科的传统理论中,找到解决的问题的思路。近年来,档案学界一直存在将微博作为一种档案对待的声音[4],无论微博档案这种称法最终是否成立,档案学作为一门信息管理学科,其许多理论和方法都对微博资源的长期保存,具有很高的实践意义。
1 运用来源原则保持信息间历史联系
1.1 微博信息的碎片化和冗余性
所谓微博,即字数不超过140字的微型博客。微博的这一特点从根本上导致了微博信息无法同其它信息源一样,形成结构严密有组织有逻辑的信息体,而只能是以小片段的形式存在着。同时,这些片段又通过用户的转发和评论,相互连接在一起,形成错综复杂的信息网,共同实时反映出网络世界正在发生和讨论的各种事件和话题。作为微博的用户,在获取信息时,以一定的“角色”参与到信息网中,通过各种各样的联系,获取自己所需要的全部信息。然而,这种特点却造成了大量的信息冗余。
微博的这种特性使得其在被保管机构长期保存时,很难保证信息被有效复用,因为检索系统无法为利用者提供微博用户那样以“角色”进行参与的视角,因此,利用者得到的很可能只是大量的信息碎片,而非信息的本来面目。正如维克托·舍恩伯格在他的书中所叙述的那样:“在这样的数字拼贴画中,改变只有从两个矛盾事实相冲突的角度才能看到,而无法从一个演化过程随着时间变化的角度看到”[5]。通过检索系统,我们能够看到的或许只是这些信息碎片被按照某一个标准被简单的组合的在一起,而信息间原本所具有的联系,则随着保存而消失了。
1.2 来源原则在微博资源长期保存中的运用
来源原则,是档案学领域的最基础的理论之一,其核心思想就是要保证档案文件之间的历史联系,以维护历史真实面貌。毫无疑问,来源原则所基于的保持历史联系的精神,正是微博资源长期保存所需要的。它将使微博资源从信息碎片的集合中解放出来,重新还原成为相互关联的信息集合。就目前情况而言,在微博资源长期保存中运用来源原则,至少有以下两个方面要求。
其一是正确看待微博中大量的信息冗余。微博信息的冗余,主要是由于微博转发所造成的信息重复。在来源原则的思维模式下,这种冗余并非是无价值的简单重复,而是反映了信息间重要关系的有效冗余。因此,我们不但不应该将其视为信息垃圾将其删除,反而应该妥善的保存这部分看似重复的信息。
其二是对微博信息著录的要求,它要求微博信息在被保存时,除了原有的著录项目,还应该包括其背景信息和元数据,并在检索系统中,提供以此为基础的检索入口和检索方式。从而保证利用者能在利用时在能够充分了解信息间历史联系的基础上进行信息的利用和分析。
来源原则作为档案学领域的经典理论,其所包含的对信息间历史联系的尊重,正是数字化时代,单纯的信息检索所没有考虑到的。特别是微博这样以用户间互动为重要功能的社交平台,想要长期完整的保存信息,保证信息间的历史联系是十分重要甚至是必须的。
2 运用档案真实性的辩证立场对待虚假信息
2.1 微博资源中的虚假信息
微博由于注册简单,操作便捷而受到广大用户的欢迎,其一诞生就得到迅速的推广。然而,作为一种准入门槛低、开放性强、传播速度极快的社交媒体,微博平台上所涌现出的丰富信息资源,存在信息质量良莠不齐的问题。特别是由于任何人都能在微博上随意发布和转发各种信息,导致微博上充斥着大量的虚假信息。这些虚假的信息通过用户刻意或无意的转发,往往会产生非常大的负面影响,由此成为人们深恶痛绝的“微博谣言”。
例如,2010年12月7日新浪微博一实名认证用户突然发布了一则“金庸因中脑炎合并胼胝体积水于今日19点07分在香港尖沙咀圣玛利亚医院去世”的信息,瞬间在网络上引发哀悼狂潮。事后这一消息被证实是一则假消息,但正是这样一则假消息,却在网上被反复转发和评论,令不少人都信以为真。
由于微博平台的信息发布特点,虚假信息虽然为人们所厌恶和抵制,却又是无法被完全避免和排除的。可以说,只要有微博存在,就必然存在虚假信息,如何对待这些虚假信息是微博资源长期保存中所必须要面对的一个问题。
2.2 档案学对档案真实性的辩证立场
尽管作为在社会实践过程中形成的历史记录,档案拥有其他信息材料所无法比拟的真实性与可靠性。但是与其他许多学科不同,档案学在对待虚假档案时的立场,却是格外的宽容的,档案人更倾向于用辩证的立场对待档案的真实性,而非只是二元对立的非真即假。
这种辩证的立场是由于档案人肩负着为社会保存记忆和知识的使命,档案管理者不仅要留下那些“真实”的档案来印证历史,有时候还需要保存那些“虚假”的档案来证明历史的另一面。“具体来说,就每份特定的文件或某部分案卷而言,档案所记载的信息内容有的是真实的,也有的是不真实的或不完全真实的。但即使是档案内容有虚假成分以至完全违背事实,它还是反映了档案形成者的认识水平、本来的意图或欺骗活动。就此而言,档案仍不失为其形成者活动的真实的历史记录”[6]。
假如我们仅仅因为认定档案是虚假的而将其毁弃,那么隐藏在这分虚假档案背后的故事也将永远消失在历史的长河中,从而人为地制造出历史的盲点,一个专业的档案工作者绝不会这样做。而如果我们将档案学这种辩证的立场带入到数字资源长期保存的实践中去,或许也能收获新的惊喜。
2.3 辩证地对待微博资源中的虚假信息
微博中所包含的大量虚假信息,从传统角度出发去看待,似乎是毫无保存价值的。
但是,如果我们愿意借鉴档案学在对待虚假档案时的辩证立场去对待这部分虚假信息,会发现它们同样是社会记忆的一部分,如果我们想要完整地保存这部分社会记忆,就不应该将它们排斥在外。因为它们同样可以反映谣言制造者的某种意图,转发传播者的某种心态,当研究者将它们置于当时的历史条件背景下,虚假的微博信息同样能反映出真实的历史。
档案学对待信息真实性的这种辩证的立场,对于微博信息而言,还有另一更为特殊和重要意义,那就是发布在微博上的信息,是不同发布者站在不同的立场上对某一事件的认识的反映。同一事件,用于记录人立场的不同,会出现许多不同,甚至截然相反的记载。很多时候,局限于当时人们的认知水平和政治条件,我们无法区分哪一种记录是真实的,或者仅根据官方说法认定某一种记录是虚假的。这样,如果我们仅仅根据当时的判定来决定微博信息的保存与否,就会令后来人永远的丧失考察真相的可能性。只有我们辩证而宽容地对待了那些虚假的,有可能虚假的以及被官方判定为虚假的信息,我们才有可能为后人留下真相。
3 运用前端控制思想保证信息凭证价值
3.1 微博信息的凭证价值
微博给了给了每个人发声的权利,由此人们在自己的微博上发布各种各样的消息。这些消息,随着时间的推移,很有可能成为人们进行新的社会实践活动的依据和凭证。2012年,药家鑫事件结束后,其父在微博上发布了一条表达想要出钱补助受害者的微博,时隔月余,受害者家属,就根据这一条微博记录,要求药家支付20万元赠予款。无论其中内情如何,是非如何,这一案例充分说明,微博的潜在凭证价值已经为社会大众所感知,人们在进行社会活动时,不自觉的就将微博信息纳入了可以依凭的范畴。
与其他信息源相比,微博作为一种实时发布的公开信息,具有相对较强的凭证价值。2015年2月4日,在最高人民法院新发布的一份司法解释中:“网上聊天记录、博客、微博客、手机短信、电子签名、域名等形成或者存储在电子介质中的信息可以视为民事案件中的证据”[7]。这说明微博的凭证价值已经得到我国法律的认同。这也使我们保存微博的意义又加深了一重。
尽管微博信已经具备了凭证价值,并且得到了法律认可,但是在长期保存的过程中想要确保这种价值并使其真正发挥作用,却是一件令保存者头疼的事。
3.2 档案学中的前端控制思想
在档案学中,所谓“前端控制”是指为保证电子文件的真实性和法律证据效力,要求系统在设计之初就对电子文件在形成、捕获、组织、利用的整个生命周期过程中可能出现的问题进行通盘考虑,“把可能预先设定的管理功能纳入系统之中,并在文件形成和维护阶段进行监督”[8]。
档案学领域前端控制的思想,实际上是档案学区别于其他信息学科的又一特色理论,它所代表的档案学对信息主动而积极的管理态度,最早体现在档案学者很早就认识到档案不是一种被动的搜集物上,“档案机构不从事搜集材料的活动”[9]。因此,档案应该是被主动收集的,这种主动的态度在电子文件管理实践中,被进一步发展为前端控制理论,并且大放异彩。
由于电子文件所存在的不稳定性和易修改性,使得电子文件的真实性与可靠性都大大降低。而通过对电子文件进行前端控制,主动参与到电子文件的整个生命周期中去进行管理,可以有效规避电子文件在生成、传递和保存过程中所遇到的安全风险,从而保证电子文件的真实性,由此确保电子文件的凭证性。
3.3 通过前端控制保证微博凭证价值
微博,作为在网络环境中生成的一种信息,虽然拥有相对的稳定性和第三方平台的保障,但是如果不能对其进行前端控制,那么在复杂多变的网络环境中产生和传播的微博信息,将面临比电子文件更大的风险,这会对微博信息的凭证价值造成巨大的威胁。如果我们仅仅只希望从微博信息中获取情报价值,或仅仅只满足于保存微博信息为学术研究服务,那么或许保存部门可以安心的做一个信息“收割人”,被动地采集微博信息。但是,倘若我们不愿意放弃微博信息所蕴含的重要的凭证价值,那么,前端控制思想,将为它保驾护航。
因此,我们有必要效仿档案管理领域对电子文件的前端控制方法,对微博信息也进行前端控制。应该认清微博资源的长期保存所针对的,不是有关机构“搜集”来的微博信息,而是保存主体从微博信息生成之初就介入进行管理而“收集”来的微博信息。
为此,首先应该由有关部门出台相关规章,规定微博运营商所应承担的义务,为微博资源长期保存打下基础。
其次,应该确定微博资源长期保存的责任主体(笔者以为一般情况下还是由微博运营商作为责任主体为宜),建立起有效的微博资源管理制度与工作流程,将微博信息从其生成到被保存利用的整个生命周期都纳入有效的控制范围。尤其是某些具有特殊价值的微博,如政务微博,对微博信息的保存有特殊的要求,因此可以采取一些特殊手段,如“各政府机构在建立微博时,要和平台服务商进行合作,签订相应的合同,由平台服务商保证微博的正常运行以及微博内容的保存期限”[10]。
最后,档案部门作为专业指导者,应该参与和帮助制定微博资源长期保存的相关标准,如系统设置和元数据著录规则,加强对系统和微博资源背景信息的管理和控制。
4 结语
计算机技术与网络技术为人们开启了新世界的大门,在新的历史环境条件下,旧的信息资源在计算机环境中有了新的表达,新的信息资源也在不断产生。面对复杂多变的计算机和网络环境,如何长期保存数字资源成为当代人所必须面对的难题。无论微博这一信息资源是否属于一种档案,档案学作为一门传统的信息管理学科,对信息的长期保存自有颇具特色的一套理论体系,挖掘其中与微博资源特点相适应的合理内核,将为微博资源长期保存,打开新的思路。
[1]微博百度百科[EB/OL].[2014-10- 20].http://baike.baidu.com/link?url=cZTW 4onN7ULlp0rBhdqufw J9d5_JZk-Fkq9aDpfA_WGsHPsvh9TKnfUJ_EM -BlilnaPhMgQLtY lx8S1kKMx4L2fYsG0-iJYuhD1EaqTQwStoe.
[2]中国互联网络信息中心第33次报告[EB/OL].[2014-10-20].http://wenku.baidu.com/link?url=tnFQ8dAF -zHxG12_XpESy5Y_taCr0blaBw rjqe6yECouCLryT6jom -jw_EQ8Rfl57T3YH1JqNiTgd I -hJckS4ALB-ZXZdfjugVu24CSn73Faei.
[3]美国国会图书馆每天收录4亿条tw itter用于研究[EB/OL].[2014-10-20].http://it.sohu.com/20130122/n364343876.shtm l.
[4]左凡凡,张幸媛,刘艳玲.微博应作为档案[J].档案与建设,2012(2):12-14.
[5]维克托·舍恩伯格.删除:大数据取舍之道[M].袁杰,译.杭州:浙江人民出版社,2013:155.
[6]吴宝康.档案学概论[M].北京:中国人民大学出版社,1988:57-61.
[7]最高法:微博、网上聊天记录等可作民事案件证据[EB/OL].[2015-2-12].http://www.chinanews.com/gn/2015/02-04/7033390.shtm l.
[8]金波,丁华东编.电子文件管理学[M].上海:上海大学出版社,2007:47.
[9]谢伦伯格.现代档案-原则与技术[M].北京:档案出版社,1983:25.
[10]黄新荣,吴建华.政务微博档案化保存初探[J].档案与建设,2012(4):4-6.