APP下载

国内外古籍数据库用户信息行为研究综述

2023-03-11王梦怡

科学与信息化 2023年2期
关键词:古籍数据库数字化

王梦怡

浙大宁波理工学院 浙江 宁波 315100

1 古籍数据库相关研究

1.1 古籍数据库相关理论研究

据前人调查表明,我国自20世纪80年代初期开始将计算机技术引入古籍整理与研究领域,1987年彭昆仑先生与南京工学院合作发布《红楼梦》检索系统,是国内古籍整理领域引入计算机技术的开始。“古籍数字化”的概念最早由上博研究员刘炜提出,毛建军进一步做出了定义,并阐释了其具体内涵与目标;2005年,李明杰强调了古籍数字化本质上是为了保存和传播传统文化,最终目标是以知识服务学术研究。2006年,毛建军探究了古籍数字化的理论构建,指出我国古籍数字化理论研究相对滞后,古籍整理学界参与古籍数字化的实际工作较少,还针对古籍书目数据库的标准进行了研究。黄玮夏在分析古籍资源特点和数字化需求的基础上,指出了古籍数字化的优越性和建设方法;孙显斌结合古籍数据库建设的经验进行了更深层次的知识挖掘研究,探讨了古籍“本体化”的相关问题[1];李明杰对数字环境下古籍整理范式的传承和创新进行了研究,并阐释了新范式将对古籍相关领域带来的影响[2]。

1.2 古籍数据库建设相关技术研究

据文献记载,我国古籍数字化初期主要依靠人工手动录入,20世纪90年代中期之后,古籍数字化在我国迅速发展,OCR技术逐渐被应用于古籍整理,但由于其扫描录入较为费时,2000年王桂平提出用数码相机进行拍摄,减少OCR技术的局限性,古籍数字化从手动录入发展为高效率的图文采集。除全文检索外,可视化检索和知识库等技术也逐渐发展起来。马少平曾探讨过古籍数据库系统建设的方法,设计并实现运行;李璐介绍了古籍全文数据库的录入、存储、扫描、识别、校对等技术与方式。柳长华教授在分析中医古籍语义关系、解析语义间关联的基础上,提出了知识元的概念,构建语料库,实现了基于内容的检索技术。王振国对中医古籍的行文特点与信息结构进行了探讨,提出了一种自底向上的信息构建方法:IA。南京农业大学的常娥在其硕士论文中对古籍数字化相关技术作了整体的归纳总结,包括用字、字符集问题,加工存储、检索浏览和智能化处理技术等,并对农业古籍的编纂进行了专门细致的研究;林钦分析了Unicode在古籍数字化应用中的优势及具体应用方法;为解决传统古籍数据存储标准不一,不同格式文件检索与传播不便,饶俊学研究了汉文古籍标准化元数据转换问题,完成了标准化元数据转换的软件工具。郭伟玲论述了古籍信息检索问题,探讨了如何利用先进的技术手段从古籍的加工整理方面提高检索效率与质量[3]。

2 信息行为相关研究

2.1 信息行为基本理论研究

美国学者Wilson是信息行为研究领域的权威,他对信息行为的定义与内涵进行了深入的研究,认为信息行为是与信息来源和渠道有关的人类行为的总和,包括主动和被动的信息搜寻和使用,其相关研究成果被业内广泛认可。Wilson还对信息行为研究的发展历程进行了探索和总结,以1948年和20世纪80年代前后为界将其分为3大阶段,并详细阐释了信息行为研究在不同阶段的重要转变和特点。

我国信息行为研究领域的专家武汉大学的胡昌平教授也对信息行为的定义与内涵进行了探索,在借鉴国外理论的基础上,做了更加具体的阐释,他认为信息行为是人类特有的,人类为满足某种信息需求,所采取的查询、获取、交流传播、加工及利用信息的行为,也广受国内专家学者的认可[4]。1994年胡昌平教授以20世纪80年代和90年代为界将用户信息行为的相关研究划分为3个阶段,总结了每个阶段研究的主要内容、方法和成果。此外,他还指出情报用户的研究应当与社会信息现象研究紧密结合,信息技术和用户管理都将成为重要的课题。张卫群曾对图书馆用户信息行为的相关研究进行了归纳整理,总结出研究用户信息行为的方法大致分为两类:一类是认知科学与社会调查统计,另一类是利用计算机技术的方法。他指出随着数据挖掘技术更多地应用于用户数据的深度分析,这将成为用户信息行为领域的重要研究方法。

2.2 信息行为模型研究

对于信息行为模型的研究,国外大约起源于20世纪初期,Wilson是这个领域的先驱,他从信息需求和信息过程出发,于1981年提出了第一代信息行为模型,随后又于1991年提出了信息行为的一般模型;2003年Nied、Wiedzka进一步提出了信息行为的一体化模型;2006年Jeonghyun Kim提出了任务导向的信息查询模型,阐明了任务和信息查询行为、任务执行者和情境间的关系。

目前国内在信息行为模型研究方面影响较大的有靖继鹏教授,他对Wilson、Dervin、Ellis和Kuhlthau的信息行为模型均做了详细的介绍和评述;何晓阳分析了Bates采集模型、Saracevic信息检索与交互分层模型以及Markey与Atherton的珠形增长模型的内容和特征。张辑哲则基于信息行为主体,提出了包括个体、群体和社会的信息行为模式。宋雪雁、王萍分别从信息行为的概念、理论模型和研究范式3个方面,梳理了信息行为相关研究的发展成果,提出信息行为研究将会以文化为中心,研究方法和思路将会多元化,研究对象也将逐渐发展为团队协作[5]。

2.3 信息行为实践研究

从目前国内外已有的信息行为相关研究来看,还有相当一部分是将理论应用于实践的研究,理论只有在服务实践时才能发挥出更大的价值。S.SeraP Kur-banoglu等学者通过自我信息能力的问卷调查,测试了用户自身的信息素养。赖茂生等人通过调查大学生在检索信息时使用的工具及其结果,评估了现今大学生的信息素养[6]。Reijo Savolainen等学者搜集了9个搜索引擎内用户自发话题的数据,根据用户在网上进行搜索和超链接选择时的行为,发现了其浏览网页的偏好;Christine Urqubart根据英国继续教育学院数字图书馆提供的用户资料构建了用户行为模型,改进了学校的教育活动。沙勇忠等人通过网络计量工具对所选科研机构的网站日志进行处理,获取了机构科研人员的相关信息行为指标,发掘了处于网络环境下科研人员信息行为的时空分布特征与偏好。

2.4 不同网络环境用户信息行为研究

2.4.1 数字图书馆用户信息行为研究。国外的数字图书馆很早便使用大规模网络日志数据分析本馆用户的信息行为特征,用来优化系统设计。Mahoui、Cunningham和Jones等人通过对数字图书馆网络日志的分析,探索了用户使用查询语句的复杂程度,发现大多数用户的查询方式都比较简单,均使用默认系统设置,而非根据自己的需求自主设定,并且直接在系统的主搜索页面开始检索,极少数将引文或文献查询作为起始。

国内的相关研究成果也有很多。如任立肖通过对数字图书馆的网络日志进行分析,比较了高校馆、公共馆和科研馆用户的信息行为差异,证明了用户在信息需求,信息行为频次、目的与时间偏好等方面均有显著差异。姜婷婷等人对武汉大学图书馆OPAC系统的用户日志进行分析,发现大多数用户所输入的查询式都比较短,查询词中频率较高的主要出现在数学、社会学和管理学等领域。

2.4.2 网络搜索引擎用户信息行为研究。关于搜索引擎的用户信息行为研究,起源于20世纪90年代,主要以用户信息处理、点击信息、网络信息检索、网络日志挖掘等方面为主。早期数据主要来源于Lycos、Excite、Inktomi等系统。如Jansen等对Excite系统用户的查询会话、查询式、查询术语等行为特征、偏好进行了细致的分析讨论。Smyth和Balfe根据用户的重复查询判断其选择偏好,构建了基于用户查询日志的协同查询。用户在查询信息时主题会不断变化,因此首先要精准分析用户查询时间的特征与规律,才能为其提供有效的信息服务。这些研究从时间维度,利用网络数据探究了用户信息查询行为的特征。还有学者根据搜索引擎的日志数据,对用户的点击路径、检索式、停留时间等进行了深入分析,建立了用户查询行为过程模型。

2.4.3 社交媒体用户信息行为研究。随着社交媒体的日益发展,关于社交网站、微信、微博、论坛等用户信息行为的研究越来越多,社交媒体用户信息行为研究更多侧重于用户间的知识分享与情感交流。邱林等人则从用户情感出发,对100多位微博用户1个月内发表的博文进行细致分析,发现外向型的用户更习惯于正向的情感表达。国外学者还将用户位置信息、人格特质与社交媒体数据进行关联分析,构建了不同的用户信息行为预测模型。Fabricio等在对Orkut系统用户点击流数据进行分析的基础上,发现社交媒体用户在获取信息时以浏览为主,其次是搜索与提问。Zwol则基于Flickr系统的用户日志数据,分别从时间、空间和社交3个维度分析了用户浏览行为发生的时间、地点和动机等问题。Younus等人为解决微博个性化搜索问题,运用语言模型对用户获取与利用信息的行为进行建模,提供了解决方案。Aral等人基于对Facebook用户信息行为数据的分析发现,如果用户之间有相似的兴趣爱好,便会更容易互相转发互动。Romero等研究了用户相互转发的时间与概率关系,发现在大多数社交媒体发布信息之后,在每小时被转发2~4次时,该信息被转发的概率达到最大值,随后关注度便呈下降趋势。

3 对已有研究不足的认识

经过研究,目前国内外针对古籍数据库的研究主要集中在技术与实践方面,对于理论的研究比较缺乏。尤其是国外,对于古籍数据库的研发可谓硕果累累,开发了很多实用技术,建设了很多高效的数据库资源,但理论文献却寥寥无几,国内的理论研究也主要集中在古籍数字化资源整合、标准体系、建设机制等方面。此外,国内对于用户信息行为的研究也相对较少,涉及的主要内容包括对国外用户信息行为研究理论、模型的转译介绍、高校用户信息行为的调查研究以及联合医学、经济学等跨学科研究。无论在理论还是实践上都与国外的研究相距甚远。

4 结束语

古籍数据库建设的根本目的和最终目标是服务用户,用户应当是建设的首要依据,也应当是评价和完善的根本因素,因此,对于古籍数据库用户信息行为的研究具有重要意义,能够为改进和完善古籍数据库建设提供参考与借鉴,未来期待更多有识之士加入到本领域研究中来。

猜你喜欢

古籍数据库数字化
中医古籍“疒”部俗字考辨举隅
家纺业亟待数字化赋能
关于版本学的问答——《古籍善本》修订重版说明
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
关于古籍保护人才培养的若干思考
我是古籍修复师
数据库
数字化制胜
数据库