基于用户需求的口述资料数据库功能设计
2017-01-31首小琴广东省惠州学院
首小琴/广东省惠州学院
随着口述史研究在我国的逐步深入,我国档案界逐步开展了口述资料数据建设实践,并积累了一定数量的口述资料数据。遗憾的是,在当前网络信息技术迅猛发展的环境下和构建服务型档案馆的要求下,如何以建设数据库的方式对口述资料进行管理与开发并提供服务,这一课题始终没有得到足够的重视。严格来说,目前我国档案界尚无可供用户使用的口述资料数据库;反观国际图书档案界和国内图书馆界,其口述资料数据库建设都已取得较多成果。因此,加强口述资料数据库建设对我国档案界显得尤为紧迫。需要指出的是,功能设计作为数据库设计的核心内容,是口述资料数据库建设的重要任务。笔者就口述资料数据库功能设计作一探讨。
1 口述资料数据库及其功能
口述资料数据库是指以口述资料数据为主要内容的,具有数据输入、输出与管理等功能的数据库,它是管理口述资料数据的载体和平台,也是开发利用口述资料数据的重要平台。在当前服务型社会的环境下和以人为本的社会理念下,口述资料数据库建设的宗旨是为用户提供口述资料数据服务,满足用户的利用需求。因此,口述资料数据库的功能设计应始终以满足用户的各类需求为核心。这要求在设计口述资料数据功能时,要着重分析用户需要什么类型的口述资料数据,并且认真思考如何便捷地获取和共享这些数据等。
2 口述资料数据库用户需求调研
笔者尝试通过问卷调查方式初步了解用户需求,同时采用网络搜索、文献查询、邮件和电话联系等调研方式,对国外尤其是美国口述资料数据库和我国图书馆界口述资料数据库的建设情况进行了考察。这里先论述问卷调查情况。本次问卷调查对象主要是笔者所在单位惠州学院的教师和学生,为使调研对象对问卷有初步了解,在问卷调查之前已简单介绍了口述资料及数据库的概念、特性、作用与价值等。本次问卷调查总计发放问卷260份,收回有效问卷232份。本问卷共设置7个问题,包括1道主观题与6道客观选择题,主要涉及口述资料数据库的数据类型、数据检索、数据获取和数据共享等几类内容。问卷调查结果如下:关于“你是否对口述资料数据库建设感兴趣”,52%的人表示感兴趣,31%的人表示不感兴趣,17%的人未做出明确选择,表示“不知道”;关于“你还希望口述资料数据库提供其他什么功能”,有38人填写“评论、点赞、互动交流”等功能,有5人填写了其他内容,还有189人未作填写。
由于问卷调查的范围和数据量非常有限,我们并不能据此发现我国口述资料数据库的用户需求特征。为此笔者结合其他调研数据进行阐述,力求更全面、更精准地反映口述资料数据用户需求的特征。
2.1 数据类型需求存在多样性
不同用户对口述资料数据类型的需求各不相同。一般而言,学者希望从数据库中获得口述文本用于研究。“假若可以选择,研究者选的一定是抄本,而不是录音带。”[1]而普通用户尤其是年轻用户偏爱选择较为生动直观的口述视频和音频,他们往往对阅读篇幅较大的口述文本缺乏耐心。另外,同一用户群体对口述资料数据的类型也有不同的需求,如研究生利用口述资料时可能利用文本进行研究,也可能利用音频、视频进行研究;再如针对同一用户群体的“希望口述资料数据库提供哪些类型的数据”的问题上,选择“视频”的占14%,“音频”占10%,“文本”占8%,“以上都是”占68%,这样的结果显示了用户对口述资料数据库数据类型的需求并不是单一的,而是多样的。据调查,目前美国的一些档案馆应用户要求,已经将口述资料文本连同音频、图片等其他资料上传到数据库里,供用户选择利用。
2.2 检索字段的多元化
就“希望口述资料数据库提供哪些检索字段”这一问题看,有13%的受访者选择“口述访谈主题”,4%选择“受访者”,2%选择“采访时间”的,选择“以上都是”的占81%,从这里可看出用户对口述资料数据库检索字段的需求呈现多元化。不同用户对检索字段的选择有不同的偏爱和习惯,如有些用户倾向于用“访问时间”检索,有些用户习惯用“访谈主题”检索,还有的用户更偏向于选择“受访者”检索,可以看出用户对检索字段的需求具有多元化特点,这对数据库检索功能设计提出了相应的要求。以美国班克罗夫特图书馆的口述资料数据库为例,该数据库囊括了近100个口述历史项目上万份访谈记录的数据资料,为了适应不同用户的检索习惯,每份数据都有详细的元数据描述,用户在检索时可以选择题名、项目、受访者、出版日期、主题范围、访谈日期等字段[2]。
2.3 数据获取与共享途径有新变化
传统获取数据的方式包括在线浏览和下载,随着近年来新媒体技术的进一步发展,越来越多的用户尝试利用新媒体平台获取口述资料数据,如通过微博、微信、腾讯QQ、博客等的共享和推送等获取数据,数据获取途径有新变化。问卷调查中“你希望通过哪种途径获取口述资料数据库中的数据?”的问题,选择“浏览”的受访者占41%,“下载”占37%,“共享”占15%,“推送”占7%。可见选择“浏览”“下载”的受访者较多,但也有越来越多的受访者选择“共享”“推动”的方式获取数据。为进一步观察用户共享数据的方式,我们设置了“你希望通过哪个媒体共享信息数据?”这一问题,结果显示,通过“微信”共享数据的受访者占51%,QQ占28%,微博占18%,其他占3%。可见,数据的获取与共享途径有新变化。
2.4 著作权保护意识不高
由于我国口述资料工作还处于起步的阶段,著作权保护工作滞后,用户的著作权保护意识不高。“当前,我国口述资料工作中普遍存在着重采集利用、轻著作权保护的现象。”问卷调查中“你认为是否应对某些数据设置获取权限?”的问题,选择“应该”的受访者仅占21%,而选择“不应该”的占了40%,“适度”占32%,“不关心”占7%,这说明当前我国用户口述资料著作权保护意识较低。我国图书馆界也存在这样的问题,笔者经过调查发现,我国主要图书馆口述资料文献数据库网站上,基本没有罗列关于著作权保护的说明或设置相关措施。同时,笔者通过发送邮件、电话联系的方式对一些图书馆进行调研,发现这些图书馆尚未采取措施保护口述文献数据库的著作权。
3 基于用户需求的口述资料数据库功能设计
3.1 数据输入功能
口述资料区别于传统档案的一个方面,是其在载体形式方面具有多样性,既可以是视频、音频,也可以转录成文本,有的口述资料还配有相关的图片、实物等资料。调研结果显示,用户对口述资料数据类型的需求具有多样性特征。这就要求在数据库建设中要重视数据输入功能,充分考虑各种类型口述资料数据的特点,有针对性地选择使用方便、功能完善、运行可靠、容易维护、兼容性强的数据库网络系统,将文本、图像、声音等多种格式的信息数据建立逻辑联系,集成为具有实时交互性特征的系统。在这一方面,我国国家图书馆在“中国记忆”项目“中国记忆专题数据库”的建设过程中积累了一定经验,自2012年该项目正式启动以来,数据库不仅采集了文本资料,还采集了相关照片、实物等资料。截至2014年12月,该数据库已收入20余个口述专题,积累了超过40TB的原始影像数据,并保存有大量实物、非正式出版物等相关资料[3]。笔者发现,美国国会图书馆建立了退伍军人口述资料数据库,其数据类型不仅包括口述录音、录像、抄本,还囊括了照片、回忆录、文书档案等其他的资料,同时也提供了相关的数据链接,可以满足用户的多方需求[4]。
3.2 数据获取功能
让用户从口述资料数据库中获取目标数据,是口述资料数据库建设的最终目的。如何设计口述资料数据库的数据获取功能,是本次设计的重点。从调研中我们发现,用户希望获取数据的方式是多元化的。大英图书馆在建设口述资料数据库时充分考虑到了这一点,其数据库提供了不同途径的数据获取途径:利用图书馆的OPAC进行检索;到图书馆利用专门的声音服务设备Sound Server观看视频材料或收听音频材料;浏览访问或在线下载部分口述历史记录;通过用户进行共享传播等[5]。通过对国外数据库进行考察可以发现,很多建设较为成熟的口述资料数据库都提供了如检索、访问、下载和共享推送等多元化的数据获取途径。笔者认为,数据获取功能应包括检索功能、访问功能、下载功能和共享推送功能等。
3.2.1 检索功能
“数据库使得对口述历史内容的检索更为深入,用户的获取更为快捷。”[6]因此,检索功能设计对于口述资料数据库的建设而言至关重要。通过调研,我们得知用户希望在检索时能够通过不同的字段进行检索,因此口述资料数据库的检索窗口设计应从用户需求出发,提供包括文本、视频、音频和图片等在内的多媒体检索,并能够从集合层次、单件层次和内容层次上进行检索,还可对用户进行获取权限控制;既能够提供多层次、多角度的查询与检索途径,还可以提供单字段、多字段组合查询方法。
3.2.2 浏览访问功能
用户通过浏览访问的方式查阅数据库中的内容,从而获取目标口述资料数据,这是数据获取的最基本方式。在美国,国会图书馆、国家医学图书馆、国家农业图书馆、各地的公共图书馆和高校图书馆都积累了丰富的口述历史数据,美国数字公共图书馆项目更是整合了各种存储机构非正式出版的文献数据,并建立了口述专题数据库,将抄本和磁带转换成数字声音和视频记录并在线展示,此举促进了这些数据的利用与共享[7]。
3.2.3 下载功能
美国的很多口述资料数据库都具备资料下载功能,但因不同用户的需求不同,这一功能有一定的限制。由于网络传播的不确定性和口述资料著作权保护的需要,当前我国很多口述资料数据库不具备下载功能。笔者建议,为了满足用户利用需求,可在保护口述资料著作权前提下设计数据下载功能。
3.2.4 共享推送功能
互联网技术和新媒体技术的发展,为用户获取与共享口述资料数据信息提供了便利。“尽管将口述历史纳入社交媒体当中需要相当的人力与物力数据,但是其积极作用也是不言而喻的,这不仅有助于推广与分享来自档案馆或图书馆等实体空间的口述历史数据,同时还能够以新的方式实现口述历史工作者与公众乃至他们之间的相互联系与交流。”[8]从调研中可以看到,当前用户对数据获取的途径有新变化,即越来越多的用户通过新媒体获取数据。同时通过网络调研,笔者发现美国的很多图书馆运用多种社交媒体对口述资料信息进行推广传播,使美国民众足不出户就可以了解到相关口述资料信息和最新的口述历史项目。其中,美国国会图书馆退伍军人口述资料数据库可将用户检索到的口述资料信息进行推送,或者共享到社交网络上;美国班克罗夫特图书馆同时运用Twitter、Facebook、YouTube、Sound Cloud、Instagram、Blog等6种网络社交媒体对口述资料进行推广[9]。在国内,国家图书馆的“中国记忆”口述资料数据库与腾讯QQ、微博、人人网进行合作,用户可以将自己喜欢的信息通过这些新媒体进行传播、推送[10]。笔者建议,口述资料数据在功能设计时,要结合用户需求,充分利用新媒体的传播优势;要注重口述资料数据库共享推送功能的设计,如设置“共享”“推送”按钮,促进口述资料信息的传播共享。
3.3 交流互动功能
在问卷调查有一道“你还希望口述资料数据库提供其他什么功能”的主观调研题,有38人填写“评论、点赞、互动交流”等功能,这正反映出用户对数据库交流互动功能的重视。“美国口述历史数据库和网络展览一般都设置了推送和共享功能,一旦用户浏览过某些口述资料,网站将根据用户的大数据,分析出用户的喜好与利用规律,并据此定期向用户推送数据库中的数据。同时用户在浏览口述历史档案数据过程中,一旦发现自己感兴趣的,可通过YouTube、Facebook等社交媒体共享给其他的用户群体。”[11]美国班克罗夫特图书馆口述资料数据库专门设置了“批判式利用”功能,无论对于访谈的原始录音还是完整的抄本,利用者都可以就其准确性、真实性等提出看法,但质疑者必须提供确凿的证据和准确的信息来源,图书馆工作人员在确认之后会进行修改或校注。笔者认为,在数据库建设中加入交流、评论等互动功能,此举将有利于促进口述资料数据的良性共建。当前,我国图书馆界在设计口述资料数据库的功能时,已经考虑提供给用户更多参与互动的机会,如设置在线征集口述资料数据的功能,由用户创建标签、发表评论、上传相关内容。这样做有利于充分利用口述资料,并使得用户积极主动地参与口述资料数据建设之中。
4 档案部门实现口述资料数据库功能的若干要求
4.1 要丰富口述资料数据并对数据进行管理
丰富的口述资料数据是数据库功能实现的重要前提,档案部门必须高度重视口述资料的资源建设工作,及时收集多种类型的口述资料,特别要抓紧收集濒临消亡的珍贵口述资料。同时必须对数据库中的口述资料进行一定的管理,尤其是要做好口述资料数据的元数据描述和著录标引工作,这是实现数据库检索功能的基本前提。“无论是把口述历史数据纳入图书馆的编目系统还是独立建设数据库,都需要设计精心考量过的元数据方案。”[12]此外,在元数据描述中,背景研究越多、标引越准确、标引层次越丰富、粒度越细,越能提供更高质量的数据。为此,应提供尽量详尽的元数据,还应采用标准的元数据框架、编码以及受控词表,确保高效检索并实现不同检索系统之间的兼容。具体操作时,可根据业务需要确定编目的标引深度,并参考国家图书馆名称规范库和分类主题词表。
4.2 要提供信息技术保障
口述资料数据库功能的实现,需要利用到多种技术手段。档案部门作为口述资料数据的需求提供方,一方面应善于学习当前主要的信息技术,了解其功能与特点,这样才能提出合理的、具有一定前瞻性的设计需求;另一方面要善于与技术部门合作,共同实现数据库的各项功能。
4.3 要强化隐私权与著作权保护
口述资料作为口述者的回忆内容,是口述者过去经历的原始记录,往往涉及口述者的隐私;口述者作为口述资料的著作权主体之一,理应享有相关各种权益。档案部门在提供口述资料数据利用时,有责任对口述者的隐私权与著作权进行保护[13],这也是实现数据库功能的重要途径。从问卷调查中可以看出,用户的著作权意识普遍偏低,数据库建设随时面临著作权侵权和隐私泄露的风险,甚至会因著作权纠纷而引发法律纠纷。当前,美国口述历史机构的做法是通过签订协议和利用技术手段等方式保护著作权,这或许能为我们提供破解难题的思路。
注释与参考文献:
[1][美]唐纳德·里奇.大家来做口述历史[M].北京:当代中国出版社,2006:52.
[2]The Bancroft library [EB/OL].[2016-10-01]http://www.lib.berkeley.edu/libraries/bancroft-library/oral-history-center.
[3]廖永霞.中国记忆项目数据组织初探[J].国家图书馆学刊 ,2015(1):17-27.
[4]The library of congress [EB/OL].[2016-10-07].http://memory.loc.gov/diglib/vhp/html/search/search.html.
[5][7]胡立耘.基于口述历史的图书馆延伸服务[J].图书馆 ,2015(12):15-22.
[6]李若云.流媒体技术在图书馆口述历史数据库中的应用 [J].现代情报 ,2009(8):37-40.
[8]杨祥银.数字化革命与美国口述史学[J].社会科学战线 ,2016(3):106-120.
[9]The Bancroft library [EB/OL].[2016-10-01]http://www.lib.berkeley.edu/libraries/bancroft-library/oral-history-center/social-media.
[10]国家图书馆.“中国记忆”口述数据专题库[EB/OL].[2017-02-12] http://www.nlc.cn/dsb_zt/xzzt/dbkrlj/.
[11]王玉龙.基于案例分析的美国口述历史档案资源网络开发与利用[J].档案与建设,2017(2):21-24.
[12]廖永霞.中国记忆项目数据组织初探[J].国家图书馆学刊 ,2015(1):17-27.
[13]张一,谢兰玉.网络环境下美国图书馆开展口述历史用户服务的路径及经验[J].图书馆建设,2017(3):66-73.