基于互联网的出版社用户情报在线收集方法及行为预测研究与应用
2013-08-31杨威,张昀
●杨 威,张 昀
(1.武汉软件工程职业学院 计算机与软件学院,武汉 430205;2.武汉地方志编纂委员会办公室 年鉴编审处,武汉 430014)
1 引言
网络时代传统出版业的生存空间受到网络销售渠道挤压。电子书阅读逐渐成为人们日常的阅读习惯,各种电子出版物占据了传统纸质媒体的一些市场份额。但是从统计数据来看却并非完全是这样。根据《大公报》2012年7月13日公布的数据,2011年期刊和报纸的发行品种有下降:期刊和报纸分别为9849种和1928种,比2010年分别减少35种和11种,下降比例分别0.4%和0.6%。与此同时,图书、期刊和报纸的印数却在大幅增长:图书、期刊和报纸分别为77.1亿册、32.9亿册和467.4亿份,比2010年分别增加5.7亿册、0.7亿册和15.3亿份,增长比例分别为7.5%、2.2%和3.4%。[1]从这个数据比较来看,实际上传统出版物的销售在增加而不是在减少。之所以整个市场份额下降,是因为数字出版物的增长过于迅猛造成的。
网络虽然带来了电子出版物这一强有力的竞争对手,但是也打开了在线销售这一强力渠道。于是,如何在网络时代利用在线渠道来扩展销售空间成了各出版社研究的问题。基于这个原因,本文作者在同香港德坤泰印书馆有限公司合作开发的德坤泰线上用户情报收集系统(Tactical Online User Intelligent Collecting System,TOUICS)的过程中,以情报工作的方法结合网络技术对用户的行为进行预测,并建立了一套情报系统,以期能更有针对性地出版读者需要的书,实现更好的销售。
2 在线收集用户情报的内容和方法
建立一套合适的用户情报在线收集系统是可即时获取用户的想法,然后加以统计,得出一个动态的市场取向,以指导出版社的策略规划。作者所带领的团队对德坤泰印书馆的会员用户进行各种统计,得到了很多实用的结果。
2.1 收集内容
对于用户情报的收集,本文从以下六个方面研究用户情报对购书行为的影响,根据其影响程度排序。
(1)专业及受教育程度。目前情报学界公认的所学专业和受教育程度是对个体潜在行为影响最大的因素。这个潜在行为包括消费行为。由于书籍上承载了各种知识和信息,因此这两点在书籍购买者(即用户)的身上表现的特别明显。具体来说,某个专业所涉及的知识点,基本上就是某个用户可能购买的书籍范围,单独个体会在这个集合的基础上有所突破,但是总体不会离开这个集合。而受教育程度的影响体现在两方面:程度越高,越偏重理论知识和细化知识。
(2)性别和年龄。性别和年龄的影响主要体现在非专业书籍上。从性别看,样本中女性用户11439人,占53.75%,男性用户9841人,占46.25%。女性用户比男性多这一事实从对德坤泰印书馆的市场部门职员的访谈中也得到了证实。此外,男性相对更喜欢购买运动、汽车、旅游、军事等类别的书籍,而女性则倾向于各种旅行笔记、时尚指南一类的书籍。
年龄的影响也体现在书籍题材范围中,用户的分布非常有特点。首先,德坤泰印书馆的一个非常大的长期用户群体是中学生,此类学生会大量购买各种教辅。大学在读的学生则较多购买和自己本专业相关的书籍。工作之后的人的购买倾向则比较杂,在年龄分量上没有明显的统计特征。但24~35岁的女性较多会倾向购买3~4本孕育和育儿类的书,这与官方公布的生育年龄区间大致吻合。此外,有小孩的女性用户会随孩子的年龄增长购买一些适龄读物。另外50岁以上的用户比较喜欢购买古典书籍,而60岁以上的用户喜欢购买中医、养生一类的书籍。
(3)爱好。爱好是左右购买行为的很大一个参考因素,可以导致直接的购买行为。各种DIY、摄影、烘培、音响等书籍都有一定的消费群体。爱好的另一个作用是可以带动相关书籍的销售,例如,胆机爱好者除购买专业胆机书籍外,一般会附带购买各种模拟电路、金工等专业教程。
(4)职业和收入层次。职业决定收入层次,而收入本身也有一定的附加效应。职业分量会导致购买和从事工作、行业相关的书籍,但并不是所有职业都有这个作用。一般律师、会计师、大学教师等人员这种情况最明显,其他工种则相对影响较少。收入会影响购买档次和范围。例如月薪10000港元以下的普通职员一般会选择2000港元以内的书,如平装中文版《福尔摩斯探案集》,而大学教授或律师则大多选择英文原版且附带各种参考资料的售价1055英镑的《Sherlock Holmes》 套装。
(5)居住地。不同的居住地有不同的生活习惯,也就导致了书籍购买分布的地区差异。例如,香港本地用户不论年龄职业,都很愿意在各种赛马书籍上花钱。而英国用户则对园艺书籍最有兴趣。
(6)其他状态。这里指用户从即时到未来6个月内所处的不同平常的状态。例如,有用户计划近期旅行,多半就会购买和目的地相关的书。
2.2 收集方法
上述六种用户情报对购书行为产生了明显影响。下面则是通过互联网收集这些情报的几种方法。需要指出,上面对六种用户情报的统计样本都来自于德坤泰印书馆的用户,而在线收集情报的对象则是面对所有互联网用户。
(1)电子调查问卷。根据上述六大类内容设计好一个电子调查问卷,然后往地址簿上所有的用户的电子邮箱中发送一份。这种方法类似邮件广告。调查问卷最大的好处就是直接,且数据容易格式化。对问卷结果只要稍加处理即可使用。不过其缺点也很明显,由于填写问卷会占用用户时间且涉及个人隐私(姓名、工作等),加上会被误认为垃圾邮件,因此,需要用到一定的奖励措施才能提高回复率。[2]例如,只要填写问卷并注册为德坤泰印书馆的会员,就可以获取10英镑或等值代金券。这样一来就提高了成本。不过总体而言这种方法是首先应该考虑的。
(2)职员表。学校、大型企业、政府部门等都有自己的网站,且上面一般都有人事安排信息,很多都非常详细。因此只需要编写相应的程序就可以批量获取这些情报。然后结合已知信息,如某个行业的对应职位收入、专业背景等,就可以得出和调查问卷差不多的格式化的数据。这种做法好处是情报获取及时、准确。一般学校和政府部门以及大型企业都会及时更新其职员变动情况。缺点是不能做到细致化,如爱好、其他状态等情报就比较难于收集。其次是情报来源较窄,对于中小企业或是没有将这些信息上网的单位就无能为力。
(3)学生名册。在校学生的基本情况一般都是上网的,也可以通过专用程序来批量获取。不过并不是所有学校都对外开放了浏览学生信息的权限,在不采取非法手段的情况下是无法获得这些情报的。不过就目前情况来看已经能获得相当多的样本了。
(4)俱乐部、协会、民间团体成员名册。很多正规组织有自己的官方网站,其中有相当多的网站上面公布了其成员名册,至少是部分公布。从这些网站上收集来的情报的最大好处是兴趣范围和收入较一致。例如,一个高尔夫俱乐部的成员,其兴趣基本都会集中在高尔夫、汽车、手表、旅行、户外等方面。
(5)社交网络和微博用户信息。社交网站上有很多用户是用真实姓名填写的,且注册时就已经填写了教育程度、收入、兴趣爱好等相关信息。而很多用户为了实现多交友,都选择了用户信息完全公开。这样只要一个专用程序就可以大量获取相关情报并格式化。香港、英国和北美地区用户最多的交友网站是Facebook,其用户人数已经超过10亿,这无疑是一个情报金矿。Twitter的用户也有5亿,不过其用户信息则相对开放较少,比较难于获取。这两个情报来源的一个共同特点是用户年龄层次相对较轻,以学生和年轻职员为多数。
(6)各大论坛的用户信息。各大论坛,尤其是专业论坛,注册用户数量非常多,且对外开放比例较高,是一个值得搜寻的区域。论坛还有一个好处就是已经划分了用户爱好、教育层次、从业范围等属性。此外,虽然论坛用户大多不具真名,但至少都会留下诸如MSN、电邮地址等在线联系方式。因此,这种情报非常适合进行网络推广,属于优质情报源。
3 用户情报的分析和行为预测
通过上述渠道获得了大量的原始用户情报之后,对这些数据进行处理,以获得两类情报:宏观用户倾向和个体用户倾向。宏观用户倾向即市场导向,也就是当前市场上最流行、销售最好的图书类型;个体用户倾向是对单个用户的分析。前者决定出版社下一步的出版计划以及市场策略,而后者决定对某一个个体采取何种营销手段。以下是对收集来的原始情报分析以及预测用户行为的步骤。
3.1 格式化数据
按照第二部分所提到的收集内容的分类,以及用户姓名、联系方式等,建立一个数据库。然后将获得的原始数据填写进这个数据库。整个填充过程由TOUICS自动完成,无需人工干预。TOUICS的各个情报收集模块会定期更新这个数据库,将最新的数据填充进来。这是进行情报分析的基础步骤。
3.2 去除噪音
数据库中的数据并不是立即能够使用的。很多收集来的情报明显不能真实表达用户的情况,这就是噪音,要去除掉。例如从某个论坛上获取的用户资料,用户的所在地、年龄有可能是用户随意填写的,因此,需要斟酌使用。又如某个用户的资料在进行格式化之后,发现没有主键值,是无法使用的。去除噪音需要机器和人工两方面来完成。首先由TOUICS按照事先规定的策略去除掉大部分的噪音,如缺少主键值的元组等。然后由工作人员进行人工精细化筛选,去除剩余的噪音。经过这个步骤之后,噪音仍然会存在,但是其比例可以忽略不计。
3.3 宏观统计
对于经过整理的数据,就可以进行宏观统计工作了。统计的内容就是第二部分所述的六大类内容,如男女比例、各年龄段、职业分布等。这些由TOUICS自动完成。然后结合当前的市场趋势,加上已知的各种参数对用户群购买行为的影响进行加权计算,权值由第二部分的统计工作所得,也是TOUICS最核心的数据。TOUICS还有一个很特殊的功能,就是和德坤泰的订单系统连接,及时将已实施购买行为的用户的信息采集进系统,然后随时更新参数权值,作为以后的参考。计算的结果会列出当前市场上所需图书的类型列表及其所占比例。这就是出版社下一步进行出版规划时的重要依据。
3.4 个体分析
对于辛苦得来的情报如果仅仅只做一个市场方向的分析就太浪费了,好的情报人员还要想方设法挖掘情报背后的价值,即进行增值工作。对于个体,可以预测其下一步的购买行为。只要在TOUICS中设定一系列的策略,它就可以根据已有的数据来判断一个用户会购买什么书。这些策略是由市场部门的职员经过多年的经验积累总结得出的,也是TOUICS的另一大核心数据。例如,一个35~40岁的男性在几大名表论坛上有注册,但没有发帖记录,则其一定会购买至少一本名表鉴定相关的书籍。甚至可以肯定其所注册的分论坛,就是他想购买表的品牌。这时如果往他的邮箱中发送相关的广告,成功率会非常高。TOUICS可以根据模板生成多种不同的广告邮件,里面的内容就是目标用户可能购买的书籍。然后自动填写邮件地址、标题,并通过德坤泰印书馆的邮件服务器发送出去。
3.5 提交分析数据并维护数据库
通过TOUICS得到的数据经过处理和分析后,提交管理部门进行讨论,以制定下一步的出版计划作参考。需要注意的是,TOUICS的结果仅仅只是对市场的统计性分析,且没有考虑诸如成本、法律等相关因素,因此仅供决策者参考。同时,技术部门和市场部门的员工还要通力合作,维护系统数据库并及时更新数据,以实现对市场的动态分析。
4 TOUICS的模块划分
TOUICS系统由6个主模块和共计29个子功能模块组成,如下图所示。
图 TOUICS的模块划分
在线情报收集系统TOUICS,经过一年多的运转,证实其确实能起到预测市场导向和用户行为的作用。后期我们将对TOUICS进行深层次开发和扩展,完善TOUICS尚不健全的部分,加入更多的算法分析功能,以实现更精确的情报分析功能,为情报分析工作的社会化应用作出新的贡献。
[1]大公网 [EB/OL].[2012-07-13].http://www.tak-ungpao.com.hk/mainland/content/2012-07/13/content_710087_2.htm.
[2]吴晓伟,等.基于TAM和知觉风险的网络竞争情报用户使用行为研究[J].情报科学, 2010年(6):931-935.