高校人物专题档案大数据源的潜在价值与挖掘利用
2017-02-27张倩
张倩
高校既是人类知识和科学创新的主要场所,又是教学与科研的服务中心。通过在档案大数据智能处理平台上创建高校人物专题档案数据库模块,并将其作为高校档案大数据检索与挖掘的实际应用之一,不仅有利于发掘高校文化知识和历史内涵的珍贵价值,而且有利于为造福社会发挥重要的作用。我们在考察中发现,承载着高校杰出人物辉煌业绩的人物专题档案,在被真实地挖掘并再现出其中精华的同时,对与人物处于同一抽象层次的其他对象,如事件、地点、机构等附载在档案上的诸多史实信息,以及如何形成这一档案的纯技术层面的许多知识,都具有非常丰富的挖掘价值。
1. 高校人物专题档案大数据来源分析
人物专题档案可被采集利用的数据来源很多,如Internet上专业的检索网站,许多机构建立的Web主页,以及一些个人主页上的人物档案信息,都是高校档案管理机构捕获人物专题档案信息资源的重要渠道。与这些数据源相比,高校馆藏主数据源具有格式规范、质量较高等特点,是人物专题档案大数据追踪研究的理想数据源。
据调研资料分析显示,目前高校构建人物专题档案大数据库可供采集的大数据来源主要有四类:一是每年接收进馆(室)的学籍档案,这些档案里面包含了全校各个学历层次的应届毕业生在校期间的个人信息记录,是富含学生这一人物群体信息最多的数据来源。二是每年接收进馆(室)的学生工作方面的档案,这些档案里面包含了学生的奖惩信息等,是大学生在校期间参加各类重要活动的真实记录。三是人事档案,这些档案里面包含了全校教职工的个人信息,是丰富而详实的教职工个人信息记录。四是科研档案,这些档案里面包含了師生参与科研活动过程中产生的各类学术方面的信息记录,对研究高校人物科研情况,具有举足轻重的凭证作用。
2.高校人物专题档案大数据处理的难点分析
通过调研分析发现,高校人物专题档案大数据处理的难点,主要体现在两个方面:一是馆藏中的人物专题档案格式多种多样,数据的结构也可能不断发生变化,人物信息往往隐含在复杂的数据之中,如何对异构多变的人物专题档案信息进行数据清洗(Data Cleansing),把杂乱的“脏的”数据(Dirty Data)去除掉,并转变为适合人物追踪研究的规范化的数据格式,这是目前高校人物专题档案大数据库建设需要解决的一个难点。二是在档案数据的文本空间,人物是比文字对象高一个层次的抽象实体,而作为处于抽象层次的实体,它与文字对象所描述的具体名称并不形成一一对应的关系,可能存在着大量的同名同姓却不是同一人物的现象,即使是同一人物,也往往有不同的称谓,这是导致检索人物专题档案信息易出现歧义的一个难点。此外,我们发现这些歧义问题可大致分为两类:一类是不同人物和其他非人物实体可能具有相同的名字;另一类是同一个人物可能具有不同的名字或称谓。歧义问题的客观存在,可能造成人物专题档案检索的结果难以精准。对此,我们虽然可以在人名后边添加一些特定的属性,并通过组合查询来细化检索结果,但这种做法违背了建立人物专题档案大数据搜索引擎所追求的简单快捷原则,且用户通常不是精通检索技巧的专家,他们甚至不会愿意提交额外的查询词。
3. 高校人物专题档案大数据追踪的线索依据与处理内容
大数据技术的基本原理告诉我们,在档案大数据文本空间内,对人物专题档案信息数据源的跟踪研究,应该按照相关的线索依据来进行,而“人物的横向跟踪”和“人物的纵向跟踪”是最重要的线索依据。所谓“人物的横向跟踪”,是指从空间维度研究人与人的联系、人与社会的联系等。所谓“人物的纵向跟踪”,是指从时间维度研究人的处所变化、人的职位变化、人的态度立场变化、人的生活状态变化等。简言之,人物追踪就是要通过运用大数据分析技术,将不同档案中纵横交错出现的人物信息片段有效地组织起来,并使分析结果尽可能接近人物信息的全貌,进而客观地反映该人物的生活历程。
此外,在高校档案大数据文本处理领域,人物追踪在处理内容上可大体分为两大部分:一是制作人物的履历表。这是指从馆藏档案大数据文本中自动提取出需制作人物的属性信息,并把分散的各种属性信息进行整合,形成其完整的生平履历。二是对人物的事件进行组织。这是指把人物参与相关事件的信息内容,按照内在发展逻辑有效地组织起来,并形成清晰的逻辑结构。值得注意的是:在整理人物事件信息内容的基础上,还应注意整理其他相关信息内容与其进行匹配,如建立人物的事件信息表、识别人物的社会关系网、识别人物处所的变化、识别人物职位的变化、识别人物态度立场的变化、识别人物生活状况的变化、识别人物知名度的变化等等。
4. 高校人物专题档案大数据的处理流程
高校人物专题档案大数据处理流程,主要有下列几道程序:
程序一:对人物追踪进行大数据预处理。这一阶段,需要识别出若干人物相关的零散信息,并形成人物基本模型的片段,同时应对这些片段性的信息进行同一性判别,即把描述不同人物的模型片段区分开。值得指出的是:在人名周边的语句中,与该人物经常共现的其他人名,即该人物的交往人群也应是一个重要的区分特征。简言之,预处理阶段,是指为人物模型的计算做好准备,但还没有形成完整的人物模型。
程序二:运用数据融合技术建立完整的人物模型。人物专题档案数据在预处理阶段形成的人物模型片段信息是分散的、孤立的,不能代表人物全貌,更无法凸显出人物的抽象实体,这就需要把代表不同人物的模型片段区分开,并对同一人物的模型片段信息进行有机整合,进而形成完整的人物模型,以利呈现人物的履历等信息。值得指出的是:为取得完整的人物模型信息,不仅需要参照多个异构来源的大数据信息,而且需要把多个人物模型片段的信息有机融合在一起,最终才能形成基本完整的人物信息。
程序三:研发人物专题档案大数据处理的相关应用技术。在进行高校人物专题档案大数据处理的过程中,实施追踪研究需要依靠专业技术手段的支撑,因此,我们不仅要科学选择供应商提供的专业数据搜索引擎,而且要高度重视研发相关的应用技术与之匹配,如提供对特定人物的跟踪、流行人物的发现等各种应用技术,以期达到方便用户直接检索利用之目的。
基于深度学习的“人脸识别”技术是高校档案机构进行人物专题档案大数据研发时可咨利用的一种强有力的手段。人脸检测是基于计算机识别算法的一项数字化技术,用以准确获取人的脸部形状和位置信息,甚至可以精确识别人脸细节的微妙特征。现今乃至未来的高校馆藏照片档案中,数字照片将占巨大的比重,从内容上来说,人物图像档案又占有相当的比重。传统的照片档案管理方法所需的人力、物力成本巨大,如果要查询某个具体人物的相关照片资料,仅靠手工识别,要在一堆照片中找到需要的照片,相信对每个档案员的眼力都是一个严峻的考验。针对该问题,人脸识别技术是高校档案管理机构一种有效的低成本解决方案,可在人物照片档案大数据管理中达到较好的可视化效果。
當前,高校档案管理者可以借助Google的免费图片管理工具——Picasa来快速找出每个人物的照片。Picasa的“人脸识别”功能是通过一种复杂的算法,对照片人物进行研判,将所有包含人脸的照片自动归集并统一命名。这样做的最大好处就是能够让用户随时利用其搜索栏,快速查找所需人物的照片,而且之后所有新入库的相片也都会按照这个规则,自动归类到相应位置,方便快捷。具体整理方法:首先,让软件自动搜索照片档案库,对所有包含人脸的照片档案进行自动分类。在此过程中,为了方便用户进行辨认,每一张被检测到的照片都会以大头贴的形式进行显示(相同的人物将被自动整理在一起)。由于暂未标识姓名,这些头像暂时都将被自动存放在一个“未命名人物”文件夹中,等待用户处理。待照片初次分析完毕,我们便可以通过双击“未命名人物”为该人物添加名字标记。建立人物标签后,日常查找只需将待检索的人名输入到搜索框中,片刻功夫(当你输入一个字后,准备输入第二个字时,软件已经即时显示出检索到的相关图片),Picasa便会自动罗列出所有包含该人物的照片,而且准确度极高。需要注意的是,Picasa也有可能会误判,在检索结果中我们要通过手工识别进行一番小小的修正。点击照片上的“X”标记将识别错误的照片删除,这样剩下的就全部是包含所需人物的照片(包括单人照和合照)。最后点击“全部确认”完成对人物照片的识别,这样在保存照片的文件夹中会列出所有该人物的照片,按提示点击导出,将其导出到文件夹保存即可利用。此外,Picasa的人脸识别还具有一定的学习能力,随着确认照片的增多,它的识别能力也会相应增强。此类智能工具可在高校人物专题档案大数据研发中起到重要作用。
高校档案管理机构要密切关注大数据智能处理技术的发展走势,积极引入成熟的产品与服务,不断创新人物专题档案大数据处理专业模块的智能集成模式,不断完善和创新“混搭型”的应用机制,不断强化“一站式”服务的个性化功能,以期提升人物专题档案信息数据资源与用户需求的精准对接水平。
(作者单位:南京艺术学院综合档案室)