数字图书馆移动视觉搜索的众包模式探析
2019-04-22郭楠
郭楠
摘 要:本文对数字图书馆移动视觉搜索的资源库建设机制进行了分析,提出通过分包理念获取新的视觉资源,从众包任务的设计及众包结果的质量控制展开深入探讨,最终提出数字图书馆移动视觉搜索的资源建设机制。
关键词:数字图书馆;移动视觉搜索;众包模式
互联网时代的到来使得用户需求,信息形式等发生了重大变化,数字图书馆要想在新信息环境下更好的发挥作用,必须进一步丰富现有图像与视频资源,网络视觉资源多样化,更新速度各不相同。不同来源的信息结构差异,影响了视觉对象资源库建设的基本架构,现有数字图书馆在精准化的用户需求方面存在较大的不足。移动视觉搜索可解决资源构建中的各种场景问题。将移动智能终端与视觉搜索技术结合能快速帮助用户找到其感兴趣的信息资源。
1 数字图书馆移动视觉资源构建
大数据环境下,数据的类型多样及复杂性等特征使得数据属性更难把握,现有数字图书馆内容集中与传统的图书等文献资源,随着搜索引擎的不断发展,数字图书馆在用户获取信息的业务上失去了优势,其提供的服务视觉的直观性有所欠缺,不能有效的开发移动终端视觉信息服务。
1.1 移动视觉搜索概述
移动视觉搜索指通过获取视觉对象资源,在存储知识库中匹配视觉对象,移动视觉搜索技术可快速方便的连接到用户所需查询的信息内容。用户对视觉资源进行扫描时,图像识别软件自动连接到相关信息内容。
移动视觉搜索技术使得用户搜索诉求变为更加生活化的实体搜索,输入方式因使用场景的多变性发生变化,输入结果因移动设备的特征变得更加智能。使得信息搜索过程更加自然化,将人与设备的信息交互变为人与人间的信息交流,使得资源检索过程更加人性化。
MVS指利用移动终端设备获取视觉资源作为检索项,返回相应结果的信息检索方式,从广义上理解MVS更贴近于图情学科的角度,突破技术范畴延伸到更广的服务理念与运作机制[1]。从资源采集,展示及服务的角度,MVS充分体现了大数据时代特征。
1.2 基于MVS的视觉资源库构建
移动视觉搜索技术能开创数字图书馆信息的新局面,用户可任意的访问数字图书馆的图书资源,将移动视觉搜索与多个数字图书馆相结合,用户可同时获取整合不同数字图书馆的相关资源信息。移动视觉搜索更侧重于视觉资源的获取重建,以视觉资源为主题的资源库建设是构建基本的移动视觉搜索的前提。
目前各类搜索引擎,门户网站等积累了丰富的图片与视频资源,博物馆与档案馆进行了很多数字化工作,图博档已有的数字信息资源符合大众提供的现实世界的视觉资源,如用户通过移动终端上传的图像等更倾向于非结构化资源,面向结构化数据,可采用XML/RDF采集,非结构化的数据特征,可构建相应的视觉资源库。
现有资源库内容难以为视觉搜索服务提供支持,已有資源库以图书等文献资源为主,更新速度慢,图像资源相对偏少,检索入口单一,难以为用户提供更全面的知识服务。不能保障高效率的视觉对象资源库的建设。图书馆数字资源库建设依赖图书馆员,从视觉资源的采集获取,标引与描述到使用维护,需大量的人力资源参与,对大数据背景下图书馆资源建设的需求分析基础上,如何完成图书馆移动视觉资源构建值得进一步探讨
2 移动视觉资源库建设的众包模式
2.1 众包模式的概念
企业或可充分利用网络的劳动力资源完成工作任务,如IT公司无法解决的技术研发问题,可能被外行人快速解决。众包的概念由杰夫·豪在2006年提出,指企事业单位将工作任务,以自愿的形式外包给非特定社会大众解决。其核心思想是利用群体力量完成机构无法完成的任务。众包跨越了传统的组织界限[2]。
众包的理念源于互联网的开放性,众包必须依托后台系统功能技术实现,众包模式的搜索使得新一代搜索方式将人的智慧融入其中,用户搜索时会相应的输入用户自身的行为数据,众包模式的信息资源采集获取方式有广泛的应用前景。
2.2 众包模式构建视觉资源库的必要性
图书馆,档案馆,门户网站等都包含了大量的视觉资源,需大量的检索筛选才能更好的满足大众的社会信息服务。目前数字图书馆的资源多以人工标因的形式,各种非结构haunted数据为图书馆员的工作增加了难度。因相关训练集尚不发达,对视觉对象机器标引的效果不很理想,众包模式借助大众参与共同完成资源库的构建工作,提高了大众的参与热情,节约了图书馆视觉对象资源构建的成本。
2.3 MVS视觉资源库构建的众包模式应用
将众包技术与智能终端相结合蕴含巨大的经济价值,移动视觉搜索借助大众参与,使得大众参与者获得信息,帮助了数据库信息的扩充。洛杉矶创业公司开发了图像识别应用,用关键词对图片进行标记,CamFind搜索有更多的使用机制,如用户用CamFind识别宠物信息,后台搜索到拍摄的物体,准确的识别搜索对象的颜色等信息,用户可推搜索结果进行翻页浏览。其结合众包模式解决问题,CamFind让相关专家为用户反馈的图像识别信息结果,专家无法给出准确答案时,APP后台让用户参与共同识别图像,参与识别图像的用户越多,反馈结果会更准确。
为进一步丰富馆藏数字资源,上海图书馆推出关联数据技术的开放数字人文服务,关联数据技术用以发布连接各类数据信息,直接通过搜索可准确的查找分享相关联信息,用户可在线查询自己家族信息,在下侧表区中现实检索的命中记录,用户可获取姓氏概况,相关家谱等信息[3]。
3 数字图书馆MVS众包模式分析
3.1 实现移动视觉资源库构建的问题
大众参与的数字图书馆建设方式旨在提高馆藏利用率,增强用户的忠诚度。数字图书馆因其非营利性,完成海量视觉资源的收集超出了工作人员的能力范围,因而需引入众包模式,使组织利用大众将分散的资源进行聚集,网络普及率提高的信息环境,为移动视觉资源构建众包模式运用提供了有利保障。
数字图书馆移动资源库建设需注重视觉资源的主题选择,如基于特定主题的图片收集等,应关注如何通过设计物质等建立模式提高用户主动参与热情,应关注所搜集的视觉资源内容纠错,通过众包模式实现数字图书馆移动视觉资源库构建需解决众包任务的设计,如何激励用户参与众包活动?如何进行众包结果的质量控制等问题。
3.2 众包建设的质量控制
场景的复杂性与用户的不确定性使得众包服务出现许多弊端,视觉资源上传结果质量参差不齐,如英文视频信息标引,收集的视觉资源质量各有差异。一些参与者为使自己的利益最大化,可能错误的提高无关信息资源。进行视觉对象资源库建设时要进行众包结结果的质量控制,保证其准确性。为移动视觉搜索服务提供保障[4]将众包过程中的质量控制按时间维度划分,分别进行视觉资源库众包建设中质量控制。
视觉资源多基于UGC生成,搜集的高效性很大程度上取决于参与者的自身素质。资源搜集前识别参与者能力,如分析搜索历史,标引历史等信息,可测试参与者对资源标引的了解程度。基于识别的参与者能力形成个性化推送。
图书馆视觉资源构建的众包过程中,因用户知识水平不可识别,一些参与者仅为获得报酬,众包任务执行中识别欺骗者非常重要。可在众包项目集合的任意工作段结束后,通过参与者投票的方法评估参与者的质量,组织可在任务中随机添加常识问题,可添加简单的动植物图片让用户标引,如为欺诈者则进行剔除,任务进行中识别欺诈者,可节约任务完成时间成本,添加常识问题时避免被用户发现。
3.3 比较分析
开展移动视觉资源建设,众包模式在图书馆视觉资源建设中有广泛的应用前景,视觉资源收集方式任务完成时间方面具有很大的优势。传统的方法视觉资源构建多依赖于组织内部完成,如某些高校课程教学视频,资源构建与参与者不仅局限于图书馆员,面向社会大众参与用户。
传统的内部人员构建视觉资源中,某些图片等资料的整理常需耗费很大的人力,众包项目为图书馆资源建设提供了丰富的信息资源。依赖图书馆员进行视觉资源构建工作时,资源收集工作具有工作时限,众包模式跨越了时空的概念,用户可随时随地的进行图片上传,网络环境很好的融合了地域与时间间隔。基于众包模式的视觉资源构建,保障了高质量视觉资源的建设。
4 结语
大众参与者知识共享为组织资源建设提供了高质量的信息,本文探索高效的视觉资源库的建设机制,重点从分包模式的任务设计,众包模式的质量控制方面开展深入分析,提出移动视觉搜索的资源建设机制。
参考文献
[1]韩玺,齐云飞,朱庆华.移动视觉搜索在国内图书馆应用的探索研究[J].图书馆学研究,2017(07):79-83.
[2]马腾腾,赵宇翔,朱庆华.国外移动视觉搜索产品的比较分析研究[J].图书馆杂志,2016,35(09):81-88.
[3]张亭亭,赵宇翔,朱庆华.数字图书馆移动视觉搜索的众包模式初探[J].情报資料工作,2016(04):11-18.
[4]刘喜球,张兴旺.移动视觉搜索:“互联网+”时代数字图书馆信息检索新模式[J].情报理论与实践,2016,39(05):58-63.