基于二维码内容安全传播的出版资源管理与服务系统研发
2018-02-15王枢昊甘霖蔡超
王枢昊,甘霖,蔡超
(海峡出版发行集团有限责任公司 数字出版中心,福建 福州 350001)
1 引言
随着出版行业数字化转型的加速发展,出版社对数字阅读产品的生产投入逐年加大,加上移动互联网技术的高速发展和智能移动终端的普及。以二维码为入口的数字阅读形态越发常态化,特别是近年来兴起的以知识服务为理念的付费阅读浪潮,让出版单位更加意识到通过二维码接入数字阅读已被现代主流读者群体所接受和认可。但是在内容生产端,由于出版单位对二维码及其关联资源的生产和投放缺乏有效的技术管理,使其在数字阅读领域的应用存在一些弊端:一是纸质出版物在市场上长时间流通,而出版单位缺乏专业、持续的互联网内容运营,二维码失效的问题相当普遍;二是二维码应用过程中因网络技术问题导致的内容不安全时有发生,如域名盗用、DNS污染以及服务器攻击等造成关联内容被篡改,出现信息偏差,误导读者;三是出版单位投放二维码的行为比较随意,通常只是解决一时之需,大量存在对已投放的二维码管理缺失,关联内容资源存放过于分散,用户扫码行为无法跟踪等情况。因此本文将针对出版资源管理与服务的特点,提出基于二维码及其活码的内容安全分发的系统解决方案。
2 二维码理论
二维码可以分为堆叠式(行排式)二维条码和矩阵式二维条码。堆叠式(行排式)二维条码形态上是由多行短截的一维条码堆叠而成;矩阵式二维条码以矩阵的形式组成,在矩阵相应元素位置上用“点”表示二进制“1”,用“空”表示二进制“0”,“点”和“空”的排列组成代码。[1]
图1 常见的二维码
二维码中的QR码,最早是由日本Denso公司于1994年9月研制的一种矩阵二维码符号,它具有一维条码所具有的识别功能以及其它二维条码所具有的信息容量大、可靠性高、可表示汉字及图象等各种文字信息、保密防伪性强等优点。QR码的“QR”是Quick Response 的缩写。这种二维码能够快速读取,与之前的条形码相比,QR 码能存储更丰富的信息,包括对文字、URL 地址和其他类型的数据加密。QR码具有很高的纠错能力,所以QR码图像采集设备甚至能直接对液晶屏幕上显示的QR图像进行扫描、识别。[2]
QR码呈正方形,只存在黑色和白色两种模块。在正方形的4个角存在3个,印有较小的类似“回”字的的图案,分别位于左上、右上、和左下角,如图2所示。这 3个图像的主要功能是为了帮助解码软件快速的定位二维码的图像区域,使得图像采集器不需要精确的对准QR码,无论以任何角度扫描,QR码仍可正确被读取识别。
我们目前经常见到的二维码都是QR码,因其快速响应的特征已被广泛使用,尤其是在移动互联网,二维码更加被称之为:新时代的“流量的入口”。所以我们习惯上把QR码直接称为二维码。正因为具有上述的特性,现在二维码已经被广泛的应用于包括图书在内的出版物中,成为实体商品连接网络空间的桥梁和入口。
图2 QR码的组成部分
图3 QR码和一维码的比较
3 系统研发背景
当前随着互联网技术的发展以及二维码识别算法的不断优化,出版物附带光盘进行数字内容出版发行的方式已逐步被利用二维码外链数字内容进行出版的模式所替代。将二维码印刷在书、刊、报纸等出版物上分发出去。现代读者通过使用微信,QQ,支付宝等高装机率应用(Apps)的二维码扫描功能,可以省去在移动设备上输入URL地址的繁琐过程,从而降低观看数字内容的门槛,真正实现的“一键观看”。但是另一方面,出版社编辑缺乏计算机专业知识和技能,将出版物配套的数字内容资源投放到互联网上,并给予读者良好的数字阅读体验一直是一个难题。虽然市场上不乏有百度云、七牛云等公共云存储运营商,提供了较为丰富的网络存储服务,但是对于一般的出版社编辑来说,仍旧存在不小的技术障碍。同时随着数字内容资源的不断增加,出版单位对分散网络资源的管理问题日益突出,加上出版社编辑普遍缺乏对已投放二维码和数字资源的管理和运营意识,因此研究和架构业务针对性强的辅助服务系统,为出版单位提供一套管理解决方案就显得尤为迫切。
3.1 系统概述
鉴于出版行业在数字内容资源投放方面存在的上述问题,结合新闻出版广电总局对出版业务的有关要求,我们提出了研发一套统一基于二维码分发的出版资源管理与服务系统。该系统主要面向出版单位编辑人员,为他们提供便捷的数字内容资源二维码生成及管理解决方案。同时负责内容审核及内容运营的人员可及时对出现问题的二维码进行处理。该系统按照出版业务特点解决出版物配套数字内容资源的管理问题,简化了编辑人员的操作复杂度,缓解了出版资源分散存储的问题,将出版相关的图、文、影、音、网络试读和互动数据进行了有效组织。每项资源均能独立访问,并生成访问二维码,供出版印刷使用。此外,针对传统出版物用户画像模糊的问题,系统增加了扫码统计和分析模块,可以快速获取读者的信息,为出版单位的社群运营和内容运营提供精准的数据支撑。
研发系统不仅提供出版资源存储后生成固定二维码的功能,还提供根据统一资源定位符(URL)生成“活码”的特色功能。对于固定二维码链接资源的管理,我们采用账号实名制,做到“操作有痕,有迹可寻”,即编辑需要实名开通账号才能使用,有助于出版单位发现问题内容,查清问题根源。对于通过活码跳转的内容管理,我们采用网页抓取,网页正文提取,关键词提炼及敏感词扫描等自然语言综合分析方法,定时扫描“活码”对应的内容资源。发现不安全的内容时,责任编辑或内容管理员能够便捷地“切断”活码与该内容之间的关联,以降低影响。
3.2 系统功能说明
系统数据资源整体逻辑关系与一般的书目管理系统类似,按照图书分类,书目信息,章节内容,资源信息及辅助功能进行建设,参见图4系统模块示意图。系统业务数据资源与用户组及权限关联,即相同角色之间产生的数据互不可见,上一级用户对下属用户的数据可视。出版物分类由系统管理员进行操作,普通编辑没有修改权限,编辑可以增加、删除及修改归属于本人创建的相关内容,包括书目信息、章节内容、二维码以及图文影音等附属数字资源。
图4 系统的模块示意图
3.3 特有活码系统
3.3.1 活码原理
简单来说,从普通二维码到活码,犹如就是古代刻板印刷术到活字印刷术的飞跃。活码是二维码的一种高级形态,通过短网址指向保存在云端的信息。活码可以看成是系统对原资源的一种快捷表达方式。这样将内容存储在云端,可以随时更新、可跟踪扫描、统计。活码可以表达图片、视频、大量文字内容,同时图案简单易扫。缺点是扫描时必须联网。活码比普通二维码更灵活,同一个二维码图案可以变更不一样的内容,从宣传推广或者记录保存的长远角度看,能适应及时更新的需求。[3]
3.3.2 活码应用及构建
目前活码的应用非常广泛,特别是随着网络接入条件地不断改善,随时随地接入网络已不再困难。在出版行业中,活码系统不仅适用于需要高可靠外链资源的情况,而且能够弥合出版物与外链数字资源生产制作时间不同步的问题。
在研发系统中,活码管理模块与其他出版资源管理一致,配合短网址生成算法就可以将内容资源生成“活码”。
图5 活码生成编辑器
3.3.3 “活码”内容的监控
针对“活码”内容关联可变性较大的特性,结合出版业务要求,我们提出了使用网页(内容)抓取与内容分析以及网页缩略图人工抽样核查的方式,提升外链内容的可靠性及可用性。研发系统的内容分析模块由网页正文提取、关键字提炼和敏感词扫描3个核心组件构成。具体如下:
1.网页正文提取中间件能够实现网页内容的精确分析,自动分辨出网页是属索引页面还是内容页面。对于内容页面,能够高效剔除HTML标签和导航、广告等干扰性文字,返回实际有价值的正文内容。
2.关键字提炼应用了基于语义分析统计模型的文章关键词提取中间件,能够在全面把握文章主题的基础上,提取若干个代表文章语义内容的词汇或短语。
3.敏感词扫描组件,可以设置一组关键词,用于自动识别扫描各类敏感词的变体,如繁体形式、中间加各类干扰噪音。[4]
基于上述组件,我们利用爬虫技术获取活码关联网址链接的全文内容,根据获取的内容提炼核心词汇,并记录在该活码的附属内容中,相当于给该活码内容打上了标签。同时获取的内容全文会通过敏感词扫描处理,检视是否存在敏感词。系统发现涉及不安全内容时会提出预警,并将预警信息推送给具有相应权限的系统管理员和责任编辑,具体监控流程如图6所示。除上述机器筛查以外,研发系统还具备对活码映射网址链接进行快照的功能,定时将活码对应的内容网页快照保存在系统中,供管理人员快速检视。该系统通过机器筛查和人工核查相结合的方式,大大增强了数字出版内容的可控性,提升了数字内容审校效率。
图6 系统对活码监控流程
4 系统拓展
出版资源管理与服务系统已在多家出版单位上线运行,后续我们计划将该系统与现行的出版审校内部业务系统进行对接,进一步理顺业务关系,优化系统功能,将审校完成的相关资源自动推送至研发系统,同步自动返回二维码,以减少编辑上稿操作。通过技术改良,一方面可以减轻编辑的工作量,提升用户操作便捷度,另一方面延伸了出版生产管理,出版内容从源头到投放全流程均纳入管理,进一步提升的内容生产安全。
5 结论
通过对二维码及其活码特点的应用,结合出版单位数字内容资源相关的业务实际需求,我们组织研发了出版资源管理与服务系统,为出版单位二维码和数字内容资源投放、统一管理提供了技术解决方案。该系统建立了对失效内容快速修复、变更的机制,加强了内容资源投放的安全性,完善了资源访问的统计与分析,这有利于出版单位建立用户画像,提升数字内容运营能力。系统经出版单位试用,并逐步改进,已成为促进出版单位发展新兴出版业务的重要支撑。