APP下载

档案信息咨询互动数据集构建与分析

2019-12-16中国人民大学数据工程与知识工程教育部重点实验室中国人民大学信息资源管理学院中国人民大学电子文件管理研究中心

浙江档案 2019年9期
关键词:咨询用户信息

夏 天/中国人民大学数据工程与知识工程教育部重点实验室、中国人民大学信息资源管理学院、中国人民大学电子文件管理研究中心

信息咨询是档案服务的重要组成部分,随着互联网的快速发展,档案管理部门积极主动地提供在线咨询服务,通过网上咨询与用户互动,获取用户的咨询需求并及时解答。对这些在线咨询产生的真实互动数据进行分析,一方面能够发现社会公众对档案利用的常见需求,有助于档案管理部门聚焦关键问题、提升业务咨询服务能力、完善档案利用体系;另一方面采集构建档案咨询互动数据,可以为档案用户行为分析提供机器可读的学习素材,便于从数据驱动计算的角度开展档案知识服务研究,丰富档案领域数字人文的实践研究。

本文完整梳理了国内省级档案网站的在线咨询服务运行情况,基于数据量和可以公开获取程度两个因素,构建了档案咨询互动数据集,并基于该数据集进行统计分析,反映网络用户利用在线咨询获取档案服务的整体发展趋势、反馈时效情况和互动典型主题,并根据分析结论提出相关建议。

1 相关研究及背景

咨询服务是档案部门基于所拥有的档案资源和专业知识,运用各种软硬件设施和专业人员,满足用户档案信息需求的活动,是档案信息服务的重要组成部分。随着技术进步,档案咨询的方式由早期的当面咨询和信函咨询,发展为后来的电话和传真咨询,再发展为今天的网络咨询,如利用电子邮件咨询,或在档案部门开设的网站、微博、微信公众号中留言咨询等。与之相适应的是,以档案网站为主要服务载体的咨询形式,成为近年来的研究热点。

网络在线信息咨询服务可以分为两大类,即不需要档案工作人员参与的静态服务,和需要档案工作人员与利用人员双向互动的动态服务[1]。互动服务能够获取用户的真实需求,有利于档案利用者获得立体化的互动体验,也有助于推动档案网站从“灌输式展示”转变为“互动式对话”[2],因此成为档案信息咨询服务的关注重点。其中,雷晓庆等提出档案服务者有必要设置在线咨询、公众交流等栏目,及时收集和解答用户提问,实现档案服务者与用户的双向交流[3];周林兴[4]、张卫东[5]均以31个省级综合档案馆网站(除港、澳、台地区外)为调查对象,分析我国档案网站在互动功能方面存在的典型问题,并给出有针对性的建议。

社交媒体具有易于传播和双向实时交流的特点,学者围绕社交媒体档案服务应用展开了大量研究。张卫东等对档案部门的微信、微博进行调查分析并进行影响力评价,力图提升档案部门的信息服务能力[6];宋雪雁等设计了指标体系,对公共档案馆微信公众号平台服务质量进行评价[7];贺军[8]、高琪翔[9]均认为微博、微信等社交媒体平台在档案信息传播及网站建设中具有重要应用,发挥其互动特点有助于改进和优化档案信息服务。这类研究均以提升档案部门的信息服务能力为终极目标。

综合来看,互动功能在档案信息咨询服务中的作用已经引起了学者的关注,在调查档案互动功能的现状、不足及提出对策建议方面已有初步研究。但是如何构建互动数据集,以及深入研究具体的互动内容、探索用户真实的信息咨询需求,目前尚未发现相关的成果。

数字人文的兴起为档案学研究提供了新的视角。除理论探讨和应用展望之外[10][11],数字人文在档案领域的实践目前多以各类资源库建设为主[12][13]。本研究将进一步应用数据采集和自然语言处理技术,构建互动数据集进行文本主题分析,发现在线信息咨询的真实需求,践行将信息技术融入档案学研究的数字人文和计算档案学新思想[14]。

2 数据集构建

理论上,档案信息咨询的互动数据集需汇聚各种交互途径产生的数据,但在实践中,当前档案机构所应用的微博、微信等社交媒体平台,其单向宣传和信息共享作用远大于双向互动作用[15],目的明确的主动咨询内容相对较少,同时考虑到数据是否可公开获取以及可获取数据的规模,笔者仅以档案网站上的在线咨询为目标对象构建互动数据集。

2.1 采集范围与方法

梳理我国大陆副省级以上地区档案网站的在线咨询业务建设情况发现,截至2019年4月6日,共有24个档案网站提供了可公开浏览的互动咨询信息,分别为:浙江(15124)、天津(858)、四川(858)、西安(553)、深圳(469)、陕西(259)、成都(236)、江西(205)、贵州(188)、广西(162)、山东(117)、黑龙江(100)、湖南(100)、山西(100)、安徽(84)、广州(60)、济南(53)、河北(40)、福建(34)、沈阳(16)、上海(15)、江苏(15)、海南(6)、哈尔滨(3),总计19,655条。笔者根据数量名次选取了前10个网站,共计18,912条数据,占比96.22%,这部分数据覆盖了绝大部分可公开获取的咨询数据。

笔者进一步编写自动化网络爬虫程序,将咨询互动数据抽取入库,构建档案咨询互动数据集并予公开(数据集下载地址:https://github.com/iamxiatian/data/blob/master/archive_consult.zip)。在采集浙江档案信息网的互动数据时,笔者排除了47条依提交人意愿不进行公开的记录和21条档案部门尚未处理的记录,获取15,056条,因此实际采集记录总计18,823条,占全部网站所声明的互动数据量的95.77%。

2.2 数据集的构成要素与格式

数据集的元数据由如下字段构成:site(网站代号)、url(网页地址)、url_md5(网页地址的MD5哈希值)、code(咨询信件的编号)、title(咨询标题)、person(咨询用户)、ask_time(咨询时间)、ask_content(咨询内容)、replier(回复人)、reply_time(回复时间)、reply_content(回复内容)、view_count(浏览数量)。

其中对于url字段,广西档案将多条互动记录组织到了一个网页之中显示。为区分每条记录,笔者将url、“#”字符和code属性值拼接到一起,作为该记录唯一的url。对于咨询时间和回复时间,浙江、天津、四川、广西的网站可精确到秒,但贵州、西安、深圳、江西、成都、陕西的网站只精确到天,在数据处理时将这6个无法确定具体时分秒数字的网站记录,统一设置为当天的0点0分0秒。对于浏览数量字段,如果网页中没有给出具体数字,则设置为0。

在处理过程中笔者发现,数据存在回复时间早于提问时间的情况,为忠实记录数据原貌,数据集保留了原始的时间信息,该类数据共计1,268条,其中天津档案出现2条,浙江档案出现1,266条。问题数据占总数据集的6.74%,主要出现在早期的互动数据之中。

2.3 隐私保护

用户在咨询过程中,有时会留下个人姓名、手机、邮箱等信息,目前仅有部分网站对这类数据进行了隐匿化处理,将联系方式中的部分字符以星号替代,实现隐私保护。

对于没有进行隐私保护的原始信息,笔者将全角形式的数字和英文字母转换为半角形式,然后采用正则表达式匹配技术,识别咨询问题和问题描述中出现的电话号码、手机号码、电子邮箱和身份证号,分别用“[TELE PHONE]”“[CELEPHONE]”“[EMAIL]”“[ID]”予以替换,如将“13612345678”替换为“[CELLPHONE]”。数据集中共替换掉具体的电话号码41处、手机号码96处、电子邮箱223处、身份证号20处。需加说明的是,虽然互动数据集中的个人联系和标识信息进行了隐匿变换,但该类隐私的终极保护仍然取决于来源网站的处理。

3 数据分析

为获取当前信息咨询互动行为的真实状况,笔者从整体趋势、反馈时效和互动内容三个方面对数据集进行统计汇总和文本分析,初步回答咨询人员的使用频率变化、档案服务机构的反馈速度变化以及互动涉及的核心主题。

3.1 整体趋势分析

用户通过档案网站提供的在线互动服务进行咨询的行为,整体而言呈上升趋势、下降趋势,还是相对平稳?为回答这一问题,笔者对所有互动数据在不同年度的数量分布进行统计并绘制曲线观察,发现2009年至2013年是在线咨询的绝对数据量所占比重较大的5年,但近年来有所下降。考虑到数据集中的浙江档案具有绝对领先优势,相关记录在整个数据集中的比例超过80%,为反映网站群体的整体状况,避免数据量较少的网站的趋势信息被其他网站掩盖,笔者进一步对每个网站的年度数据按如下方式进行规整化处理:

n(s, y)= count(s, y)×100/sumi(count(s, yi)).

即档案网站s在年度y的互动数量规整化结果为该年度在s的所有互动数据中所占的百分比。经过这一步处理,所有网站的互动数量被缩放到了0到100之间,然后把所有网站规整化后的数字按年度叠加,形成规整化年度曲线。基于规整化曲线可以发现:对提供在线咨询服务的所有网站而言,用户通过在线方式获取档案服务的行为整体上呈快速上升趋势,与网络时代用户习惯于借助互联网获取信息和档案部门服务能力的普遍提升状况相吻合。可见,档案部门加强在线咨询服务的能力建设具有现实意义。

3.2 反馈时效分析

用户提出咨询问题之后,多长时间会得到反馈?为回答这一问题,笔者从数据集中排除了反馈时间早于提问时间的异常数据,对剩余的17,555条互动数据进行统计分析,结果发现:数据集中最短反馈所用天数为1天,最长反馈所用天数为2,977天,平均天数为12天,反馈所用天数的25%、50%和75%分位值分别为1、2和5天,表明25%的用户需要5天以上的自然日才能得到反馈结果;存在数月甚至数年之后才进行反馈的情况,数据集中最长反馈用了2,977天,即一条在线咨询在8年之后才被反馈,这种情况严重降低了用户对在线咨询的期望值。

在反馈所用的天数分布方面,83.5%的用户能够在一周(7天)之内得到回复,92%的用户能在半个月(15天)内得到回复,接近96%的用户能在一个月(30天)内得到反馈,4%的用户需要数月甚至更长时间才能得到反馈。实际上如果反馈天数超过一周,用户的体验就会变差,在线咨询方便快捷的优势将会失去。

在档案网站的咨询反馈速度方面,早期相对较慢,年度平均反馈速度在10个自然日左右;2016年的年度数据因特殊值的原因,平均反馈速度明显慢于其他年份;2017年开始反馈速度快速提升。

基于以上分析,可以得出如下结论:第一,用户通过档案网站进行咨询服务,多数情况下能够得到及时反馈。第二,反馈速度整体上呈加快趋势,反映出近10年档案在线咨询服务水平的良性发展状况。第三,存在两类极端数据:反馈时间早于用户提问时间的不合逻辑的互动数据、数月甚至数年才进行反馈的数据,这两类数据对档案部门的公信力会有不利影响,应在以后避免出现此类情况。

3.3 互动内容分析

发现用户在线咨询的互动主题,将有助于档案部门把握用户的典型需求,提高档案在线服务能力。为此,笔者对互动数据集中的文本数据进行分词和词性标记,并对涉及的主题词语进行统计分析,以期发现数据集中的代表性主题及其变化情况。

3.3.1 内容分析流程

首先,笔者对由标题、提问内容和回复内容组成的文本进行分词和词性标记,过滤掉词性不是名词和动词的词语,以及不包含汉字的词语,进行词频统计,获取高频词集合,通过观察高频词集合和数据集,形成停用词表,出现在停用词表中的词语不再参与后续环节的短语发现和词频二次统计过程。停用词目前共包括“谢谢”“请问”“想问”等28个词语,已随互动数据集同时发布。

其次,利用高频词在数据集中的近邻同现关系,发现分词词典中不存在的专业短语,例如将“人才”和“市场”合并为“人才市场”、“电子”和“签名”合并为“电子签名”、“就业”和“协议”合并为“就业协议”等,经筛选后共得到390个短语,所有短语已随数据集发布。笔者将专业短语集合添加到分词词典之中,以优化分词器的分词效果,进而对数据集进行第二次词频分析,并过滤掉停用词,将得到的高频词作为关键词集合,利用关键词在句子中的近邻共现关系,形成共现网络,进一步利用开源可视化软件Gephi,将共现网络可视化,以方便人工观察分析。

3.3.2 高频关键词分析

笔者对互动数据集进行分词、识别短语、去除停用词之后,得到的词语集合按照出现频度倒排,将获得的高频词语作为关键词,这些关键词能够一定程度上反映出用户在线咨询所涉及的常见主题。

笔者对前20个高频关键词进行重点分析,发现用户提问与网站答复的关键词并不完全一致,但存在符合直觉的逻辑关系,用户提问中的高频关键词涉及职称、考试、归档、查询、资格证书、文件材料等,回复部分更多涉及规定、要求、联系、建议等,反映出对于用户咨询的内容,档案馆通常会给出与问题相关的档案管理规定、管理要求、专业建议,或者给出进一步的联系方式,方便用户以更便捷的方式进行咨询和交流。

出现在互动记录任意位置的高频词语,能在一定程度上体现提问者和回复者都较为关心的主题或共同使用的术语。以“保管期限”为例,提问内容的前20个高频词和回复内容的前20个高频词均未出现该词语,但将提问和回复内容合并在一起进行高频词统计,则进入了前20,反映出“保管期限”是信息咨询用户和档案反馈人员都经常提及的重要术语。

3.3.3 关键词共现分析

高频关键词虽然能在一定程度上反应数据集中互动咨询的主要话题,但缺少关键词之间的关联关系,不便于把握咨询主题的整体分布情况。为进一步获取用户在线咨询的主题分布,笔者对高频关键词之间的共现信息进行分析,如果两个关键词出现在同一咨询记录之中,则在两者之间建立一条连接边,并累加对应边的权重,形成带权网络。在处理过程中,“档案”一词的领域专指度较低,对主题关联分析意义不大,因此将其排除在共现网络之外。

基于共现网络分析,笔者发现相关主题集中在三个方面。第一,与个人利益和职业发展紧密相关的信息咨询。该类型关键词子图在共现网络中占据了绝对中心的位置,构成了互动数据集中最为常见的用户咨询主题。该类信息咨询包括与个人发展密切相关的专业技术资格与职称评审、与之相关的考试信息、专业培训和继续教育等。

第二,档案理论探讨与专业技术咨询。该类型关键词涉及科技档案、文书档案、人事档案、工程档案、会计档案等各类专业档案,同时包括案卷目录的组织、保管期限的设定、归档范围与移交流程、文书档案的著录等档案专业问题的咨询。该类解答则多涉及档案管理的标准规范、规章制度等。

第三,档案本身的查询与利用咨询。包括个人档案与亲属档案的查询、为开展特定研究或特定活动所需档案的查询。如,有关黄埔军校人员信息等特色档案的咨询,因论文写作需要查阅特定档案的咨询,以及家族家谱、企业历史等方面的咨询。

在这三类咨询中,前两类主要是档案从业人员之间的互动,第三类则多发生在普通档案用户与档案部门工作人员之间,三类主题在数据集中所占的比重依次降低。可见档案网站提供的网络互动咨询,不仅满足了传统意义上社会公众对档案查阅利用和专业技术求助的需求,还给档案从业人员提供了跨时空、慢节奏、低成本的交流探讨手段。

4 结论与展望

本文包括两个部分:一是构建了具有一定规模和时间跨度的互动数据集并予公开,为进一步研究档案信息咨询奠定了数据基础;二是基于数据集对当前在线咨询的整体趋势、反馈时效和互动内容三个方面进行分析并给出了对应结果。

通过分析发现,无论是在线咨询的互动频度,还是档案服务机构对用户咨询的反馈速度,整体上都呈良性发展的上升趋势,与信息获取日益网络化的特点相吻合;互动内容当前集中在职业发展、专业技术交流和档案查询利用三个方面;互动咨询在社会公众与档案专业人员、档案从业人员之间都起到了积极的交流沟通作用。基于当前数据特点和分析结论,笔者提出如下建议。

其一,建议档案部门进一步加强互动过程中的用户隐私和反馈时效管理,对用户咨询内容中的手机、电话、身份证号、社交媒体账号等信息进行必要的隐匿处理,并加快用户咨询的反馈速度、提升用户体验,促进双向互动进一步的健康发展。

其二,除了对咨询内容进行快速反馈之外,档案部门有必要采取制度化措施,定期对互动内容进行总结归纳,发现普遍性问题并予以系统性改进。如,根据互动过程中常见的特色档案查询需求,增加必要的功能模块或优化栏目设置,从而减少用户的交互等待时间,提升服务效率。

其三,建议档案部门为档案人员提供更多更高效的交流途径。档案从业人员利用网站信息咨询功能进行档案技术和理论的互动探讨,一定程度上表明从业人员之间具有较强的交流需求,而目前的交流手段尚不足以充分满足这种需求。

展望未来,我们将进一步对互动数据集进行更新和完善,尤其关注用户通过社交媒体与档案部门互动的实际情况,必要时将该类数据纳入数据集之中,为研究人员开展档案数字人文研究、深入分析用户需求,提供第一手数据,推动网络时代档案信息咨询的理论与实践探索。

猜你喜欢

咨询用户信息
订阅信息
关注用户
关注用户
关注用户
关注用户
展会信息
服务与咨询
健康信息
健康咨询
健康信息(九则)