基于大数据分析的彝族口述历史资料数据库智慧化开发利用研究
2020-12-08高建辉祁建华
高建辉,祁建华,师 薇
(楚雄师范学院图书馆,云南楚雄 675000)
彝族口述历史资料是重要的非物质文化遗产,记录了彝族在历史发展过程中形成的政治、经济、文化、宗教、源流等各方面的历史和文化信息。彝族地区的很多图书馆、档案馆和文化馆等机构都把它作为特色馆藏资源进行采集和收藏,有的还建立了数据库,但目前这些资料的开发利用水平基本还停留在粗放和浅层次的状态,利用效率很低。2016年12月国务院印发的《“三五”国家战略性新兴产业发展规划》特别强调大数据时代文化创意创新和新兴文化产业培育。在互联网时代,大数据既是内容也是媒介,同时还是技术手段。[1]数据分析和数据挖掘等技术的应用将改变原有的开发利用模式,推动资源开发利用能力由被动向主动转变,由数字化资源服务向智慧化资源服务转变,使资源产生更大的经济和社会效益。
一 在大数据分析背景下开发利用的目的
(一)为学术研究提供方向
由于彝族口述历史资料数据库(以下简称“数据库”)用户大多是科研人员,利用大数据分析工具对资源和利用情况进行统计和聚类分析,可以总结和挖掘大数据背后的规律,为历史学、民族学、语言学、图书情报学等学科研究指明热点和趋势。通过分析用户检索词的学科属性来拓展研究领域,统计资源中时间和事件的对应规律可以总结出彝族历史发展过程中文化创新的规律,挖掘用户访问的热点知识可以为学术研究指明方向。
(二)让彝族文化保护工作更加科学化
通过对数据结构和用户行为的分析,可以指导彝族历史文化的保护和传承工作。第一,根据大数据分析的结果,可以优选采访对象,筛选出重点保护内容、保护对象和保护区域进行抢救性采集。如找出访问量最大的专题模块、检索的关键词频率、热点资源和口述者等进行重点采集。第二,根据资源统计数据,可以了解各种类型资源的比例,宏观控制每类资源的数量,从而指导数据库建设中的数据采集工作。[2]如分析资源的主题和地域及数量情况,可以发现资源的分布规律,指导资源的采集和更新,使数据库资源体系不断优化。
(三)为馆藏资源的智慧化利用奠定基础
第一,根据用户访问数据统计,可以得出访问的流量情况和受访情况。利用这些数据,可以完善数据库服务平台,优化检索策略。如通过数据找出用户访问量最多的栏目、数据条目或字段,完善检索库和索引库,自动推送热门资源,发现数据之间的关联,建立语义检索策略。第二,大数据也是资源,是智慧化利用的基础。运用大数据思维开启智慧化利用,可以创新服务方式,提高资源利用率。如利用各种大数据统计分析结果支持彝族特色资源和民族文化的智慧化宣传展示,为其提供数据支持。
二 数据库开发利用中存在的问题
(一)资源建设问题
资源建设是开发利用的基础,没有资源,开发利用就是无源之水,无本之木。第一,虽然目前部分机构开展了彝族口述历史资料的收集整理及数据库建设工作,但总体上彝族资源还是比较匮乏,大数据开发利用的基础比较薄弱。第二,现有的资源大多没有经过科学化和规划化的整理。彝族口述历史资料一般以音频资源为主,标引著录是其数据库建设过程中最耗时耗力的工作,大多处于零散状态的资源无法进行大数据分析。第三,各类资源保存机构之间没有形成共建共享机制,无法开展不同机构之间数字资源的区域性整合,这极大地限制了资源的外围拓展,最终导致大数据分析结果的普遍性和代表性降低。
(二)开发内容和形式有待创新
第一,彝族口述历史资料的传统开发模式主要是以出版编研著作和光盘为主,并内容偏重于歌谣和民间文学,如各地大量存在的“民间文学集成”系列图书、各种类型的“酒歌”“民歌”光盘等。对于其他内容和形式的开发成果很少,如哲学宗教、历史政治等主题。
第二,目前开发形式不符合现代用户的利用习惯和需求。传统的开发模式信息服务比较单一化,更新不够及时,没有充分利用现代信息技术,数据库资源都是以简单网站的形式呈现,检索体验和展示效果差,没有考虑移动终端的利用需求,缺乏良好的用户体验,资源利用效益低。
(三)开发利用的智慧化程度有待提高
第一,传统的利用平台缺乏个性化服务,无法应对读者多元化的需求。资源保存机构一般以网站的形式提供资源的检索和下载,用户资源的获取盲目而呆板,用户无法参与资源建设,资源建设和利用没有形成良好的互动。
第二,资源提供机构未能充分挖掘和利用数据。资源和用户没有建立关联信息库,无法提炼和发展读者的隐形需求,无法真正体现资源价值。
第三、没有实现资源的智慧化管理,利用服务的人文智慧程度不高。如用户遇到的问题难以及时反馈和解决。资源世界和物理世界没有实现连接,缺乏直观形象的资源宣传和展示。[3]
三 数据库的大数据统计与分析
(一)数据来源及分析工具
1.数据来源
本文所分析的数据来源于楚雄师范学院图书馆建设的“西南彝族口述历史资料数据库”。[4]该数据库于2017年开始建设,目前共包含4029条彝族口述历史资料,资源类型主要有音频、视频、图片和文字,内容涵盖彝族历史政治、语言与文学、歌谣与艺术、科技与教育、哲学宗教、礼仪习俗等方面。每一条数据都包含资源的格式、内容提要、来源、关键词、日期、采访者、口述者、语种、方言类型、主题分类、采访地点、时长、比特率、文件大小、整理上传者、口述者详情、全文链接地址等详细信息。该数据库著录规范、内容全面,既有采集的资源,也有整合的资源,这些彝族口述历史资料都用音视频或文字形式的如实记录,是研究彝族历史文化不可或缺的重要原始资源,具有很强的代表性。此外,分析时对于有时间效应的资源则选取最近一年的数据进行分析。
2.分析工具
在数据分析领域,分析工具一般分为四个层次:数据存储层、数据报表层、数据分析层、数据展现层等,每一层都分为用户级、部门级、企业级和BI级。在本文的分析中,存储层采用MySQL数据库,是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 RDBMS,也是部门级的互联网数据库必备的软件,搭配 PHP 和Apache 可组成良好的开发环境。当有了数据后,首先要解决报表问题而不是分析问题,这里采用部门级软件Tableau,它也具有部分可视化分析功能。数据分析层软件比较多,我们采用用户级的Excel和部门级的SPSS两个软件,前者功能灵活多样,后者可以及时地自动统计绘图和进行数据的深入分析。表现层主要是应用一些小工具,包括用户级的PowerPoint和企业级的Xcelsius软件,可以及时地在互联网上对分析结果进行展示。[5]
(二)分析结果
1.资源结构分析
(1)资源类型结构。彝族口述历史资料主要由四种类型组成(如表1所示),其中文本历史资料比重最大,其原因是该类型资料获取和著录相对容易,与音频资料的占比超过了90%,是资源开发利用的主要类型。
表1 彝族口述历史资料资源类型统计表
(2)资源主题结构。彝族口述历史资料的主题分布(如表2所示),从中可以看出,语言文学与艺术是占比最大的资源,体现了彝族爱好艺术和文学的民族特性,为专题开发利用提供了主题方向,也为资源建设提供了重点。
(3)资源更新情况。2018年资源的更新情况(如表3所示),2018年共更新数据2155条,平均每天更新5.9条,资源更新频率较高,相关数据适合用于宣传展示。
表2 彝族口述历史资料主题分布统计表
表3 数据库2018年数据更新统计表
2.平台应用分析
(1)总体流量分析。从表4可以看出,2018年内资源使用量有逐渐下降的趋势,表面上人们对该数据库的程度正在降低,也反映了关心数据库的宣传推广有待加强。从受访占比来看,访问IP比重较少,说明用户来源比较集中,独立访客和浏览次数占比差不多,说明同一来源地的用户变化较大。如果要提高数据库的使用效益,需要进一步锁定意需用户。
表4 数据库2018年7月至2019年6月的访问流量统计表
(2)热门资源和热门栏目分析。从表5可以看出,用户关注的热门资源主要是梅葛、马缨花、彝弦、咪依噜传说等内容,热门栏目是民间故事和传说。这些内容主要是彝族文学和艺术领域,与表2对比可以看出数据库中资源的主体内容基本符合用户的需求,也反映了目前彝学研究的热点领域。从栏目访问次数还可以看出,用户对图片类资源的兴趣要高于其他资源,因而开发利用时要以用户需求为导向。
表5 数据库热门的资源和栏目统计表
3.用户行为分析
(1)用户来源地点分析。从表6中可以看出,用户较多的地区有北京、云南、美国、浙江、湖北、上海等,其中美国和浙江的访问量主要来源于美国谷歌公司的搜索引擎和浙江杭州市阿里巴巴公司的BGP数据中心,说明通用搜索引擎对用户利用数据库资源起到了重要的作用,是获取资源的重要入口,北京市访问量大,其主要原因是北京地区的高校众多,学术需求较多,如北京传媒大学、北京邮电大学、中国人民大学、北京体育大学等机构的访问量都较大。云南省访问量主要来源于省内高校和本地用户。此外,贵州毕节、四川凉山等彝族聚居区及广西访问量也相对靠前。湖北省武汉市访问量相对较大的原因是该数据库的技术支持公司在当地,日常维护也产生了大量的访问数据。来自我国东北和北方访问量普遍较少,说明这些地区关于彝族的研究很少。
表6 数据库用户归属地统计表
(2)用户检索词分析。第一,关键词词频统计。最近一个月检索频率较高的部分检索词统计如下:一是以来源检索:《云南省民间文学集成》《巍山彝族回族自治县民间歌谣集成》《巍山彝族回族自治县民间歌谣集成》《哀牢山文艺》《禄丰县民间故事普查资料汇编》等。二是以口述者检索:胡阿云、白正宽、左峰、刘志新、倮木、张福、叶连富、张秀珍、鄂美林、师有福、赫青龙、普正才、李泽、毕庆鑫、何刚、柳远超、恩扎洛格、海来惹机、海乃一新、阿比伍各、杨兴荣、杨榜、王献元、李增耀、普长寿、李国森、沙马拉毅、龙倮贵等。三是普通检索:彝语、毕摩说亲、吟祷词、守孝、征兵、阿伸妮、献水、换号角、飞龙马、乐金仙、野牛、鹦哥、克智、阿细先基、选婿、拉羊、挑女儿、沙冒山、彝族女权、捉龙卖、鸡的传说、变家禽、查姆、白晶山、指路经、癞蛤蟆、祭祖大典、氏族、蒙险虫、老虎祖宗之毛、大阉鸡、金葫芦、碗窖、火塘边、阿鲁举热、殉情、中年梅葛、延寿桥、老妖婆、桂花、想恋、麂子、瘫子马、红痣、肉瓜、龙溶等。四是以关键词检索:婚俗、砍火地、请神、开堂、彝话、漂亮、梅葛、开天辟地、怨愤、瞧郎、劳累、打冤家、彝族不吃狗肉、非物质文化遗产、山歌、感恩、癞疙宝讨媳妇、火头等。五是以地点检索:贵州省大方县响水乡青山村、云南省峨山彝族自治县、新平彝族傣族自治县、石屏县一带、景东彝族自治县、永仁县彝族地区、巍山县、红河。从中可以发现,用户的检索方式主要以普通检索为主,口述者检索为辅,其他检索为补充,检索词涵盖的范围比较广泛。
第二,高频关键词分析。彝族相关研究领域的学者和彝族地区的检索量也比较大,有的比较奇特,可能是首次遇到,而且不明白其含义,这样的检索词比较珍贵。这些内容很多并非数据库中的内容,通过对这些检索词的收集和分析,既可以了解近段时间用户需求的热点,还可以指导资源采集工作。
地铁车辆采用不同的车轮,利用有限元分析软件LS-DYNA,针对完全相同的两列4节编组地铁列车在不同的载荷类型和轨道类型下发生正面碰撞的情况,建立仿真计算模型,研究弹性轮在碰撞过程中对车辆安全性的影响。
第三,关键词聚类分析。通过分析工具,把联系密切的关键词聚集在一起形成类团,可以大致揭示彝学研究领域的重要人物关系与研究分类。
(3)利用方式分析。从表7可以看出,用户利用方式主要是以直接浏览和简单检索为主,高级检索相对较少,说明目前用户中对彝族口述历史资料进行一般了解和简单查询的人数较多,进行深入研究的学者较少。用户检索习惯也为元数据的著录工作提出了要求。
表7 数据库用户利用方式统计表
四 数据库智慧化开发利用策略
(一)建立智慧型门户网站
第一,智慧型门户网站不同于普通数据库检索网站,响应和感知是其核心。网站在运行过程中可以感知用户需求,对大数据进行实时分析,就用户关注的问题进行相应的、有针对性的调整,实现两者的良性互动。[6]
第二,对资源进行智慧化管理,随时掌握资源的动态。网站可以建立热门检索词、热门栏目、热点资源的推荐模块。对热点信息进行排序和展示,可以引导用户的检索和研究思路,激发用户的灵感,提升用户之间的认同感。
第三,建立智能交互式模块,使用户参与资源建设。如表7中很多内容都没有包含在数据库中,要充分利用大众的力量补充资源。用户可以通过一个智能化界面,直接编辑用户的图片、视频、音频等数据,然后上传到数据库中,由数据库管理者审核后就可以供其他用户使用,提高资源的更新速度。
第四,建设专题子库。根据用户使用情况的大数据分析结果,将某个方面资源信息进行总汇后,重新组织成新的知识单元,充分利用已有的资源和图书馆其他数据库的相关知识信息,在此基础上建立各种资源专子题库。
(二)开展智慧化检索利用服务
第一,建立智能检索系统。一是整合相关机构的资源,把数据库嵌入到图书馆或档案馆等机构门户网站的检索系统中,并与同类数据库进行关联,实现彝族文献信息资源的一站式检索。二是提供的专业的检索功能,支持任意复杂的布尔逻辑检索式搜索。提供中外文多种同义词、相关词的提示,方便扩展搜索。三是检索结果具有聚类分析功能。提供多种聚类分析模式和图示,使用户能快速获得搜索结果的各种分布情况。四是检索结果排序时考虑相关性和重要性。相关性可采用各字段加权混合索引,重要性则通过对文献来源权威性分析,实现对资源质量的评价,使结果排序更加科学。
(三)创新智慧化宣传展示方式
智慧化宣传和展示是虚拟空间和物理空间相连接的桥梁,通过图书馆等机构的智能硬件和门户网站,可以实时展示分析大数据结果,起到很好的宣传作用,提高数据库的使用量。在图书馆的各类显示终端上,适合展示数据的可视化图形包括四类:一是趋势图。以时间为横坐标,适合于展示数据库访问和利用数据随时间的变化情况,如展示数据库实时访问流量和资源更新情况。二是数据累积图,一般为柱状图。适合于展示各类热点的情况,如展示用户来源的热点地区、热点栏目和热门资源。三是饼状图,也可采用分段柱状图。适合于展示各资源和用户结构和组成以及各组成部分所占的比例。如展示数据库资源类型和主体结构、数据库利用方式构成比例等内容。四是关键词聚类分析图。适用于展示人名、地名、事物等各类词语的相互关系。除此,还可以用文字滚动的形式动态展示检索热门词和实时检索关键词。
(四)开发多样化的智慧型应用平台
在媒体融合的背景下,用户获取资料途径多样化,为用户提供精准信息资源服务,需要开发各种类型的智慧服务平台。
第一,研发数据库移动端APP应用。移动应用已经占据了互联网访问流量巨大市场的份额,考虑到未来的发展趋势。目前数据库都必须适应移动检索、阅读和学习等移动端需求,打造完善的彝族特色资源服务生态体系。
第二,建立微信公众号和官方微博账号。用户可以通过公众号平台采集和分析资源,参与资源共建。目前微信公众关于彝族文化的专题库已有很多,如“彝族”“彝族社区”“品读彝族文化”“莱国索”等公众号,但缺乏综合性的资源平台。微博和公众号可以每天以官方的形式公布最新或热门资源的音视频及介绍,宣传彝族历史文化,进一步扩大数据库的影响力。
第三,开发管理员移动端管理功能。对数据库管理功能进行集成,包括资源的审核与增删、权限控制、用户管理、数据实时监控等功能,满足管理者随时随地监管数据库的需求。
第四,开发用户交流平台或论坛,分享研究成果,记录学习过程,交流心得,形成一个完整的知识服务空间。
五 结语
本文在楚雄师范学院图书馆“西南彝族口述历史资源数据库”的基础上进行深入思考,通过对该数据库的资源、用户和平台等方面使用情况的大数据分析,也提出了数据库智慧化开发利用策略,其中所用的大数据分析方法和开发利用策略同样适用于其他少数民族特色资源数据库。这些方法和策略为民族地区图书馆和档案馆等文化机构开发利用本地少数民族特色资源库提出了新的思路,为数据库下一步建设和开发利用方式指明了方向,亦基于大数据分析的智慧化开发和利用。