APP下载

Amazon个性化推荐系统的文本组织结构研究

2013-11-08张宁昳

图书与情报 2013年5期
关键词:个性化学科图书馆

张宁昳

(浙江传媒学院 浙江杭州 310018)

个性化推荐系统在Web2.0时代成为一种很好的挖掘“暗文本”进行信息筛选的解决方案,这种解决方案越来越普遍的使用在目前的网络现实中。Amazon、Google和IBM等互联网应用服务商都已将这种个性化推荐系统融入到了自己的产品当中,也为这种个性化推荐系统的数据底层积累了越来越多的海量文本。个性化推荐系统输出文本的组织结构是个性化推荐系统交付给用户成果的最直接,也是最直观的方式之一。文本的组织结构在一定程度上决定着人们是如何获得这些文本的,将怎样定位这些获得文本的优先级,甚至影响到人从文本中获得的知识在脑中的组织结构。个性化推荐系统通过输出的推荐文本间存在着怎样的文本组织结构成为一个值得认真探究的问题。

1 Amazon与个性化推荐系统

Amazon是世界上最大的网上商店,其ALEX排名位列全球第八。每天有上千万本图书在Amazon被交易。Amazon有相当久远的文本个性化推荐系统开发使用历史,1997 年,Amazon的创始人杰夫·贝索斯(Jeff Bezos)决定开始尝试根据客户以前的购物喜好为其推荐具体的书籍。在此之前,个性化推荐系统才刚刚在1995年被提出,当时还只是一个实验室理论级别的概念,而其它的互联网公司则是直至2001年才开始在他们的服务中加入了个性化推荐系统,如,2001年,IBM电子商务平台Websphere中增加了个性化功能推荐功能;2007年,Google才在其AdWords添加了个性化推荐功能,雅虎推出了个性化推荐广告方案 SmartAds;2009 年,美国著名的网上零售商Overstock才开始使用个性化推荐功能。由此可以看出1997年进入个性化推荐系统开发的Amazon可谓是这个领域的先驱了。

Amazon个性化推荐系统的发展史也可以说推动了个性化推荐系统的发展,Amazon最早的系统采用了准确度非常低的原始统计方法来处理大量的客户数据,并以此为依据进行商品推荐,直至1998年,Amazon申请“item-to-item”协同过滤技术,并将这种技术在Amazon中推广使用才使得个性化推荐系统变的开始完善起来。现在,经过了很多的改进的Amazon推荐系统是目前运用最成功的推荐系统之一,Amazon2012年报显示,其将近30%的图书销售量源自个性化推荐系统。Amazon个性化推荐系统中被相关关系连接起来的主要是文本,16年的发展也沉淀积累了海量的文本和相关信息,相关关系和文本组织结构也相对稳定而成熟。

2 基于实证调查的Amazon个性化推荐系统中的文本结构组织分析

2.1 样本的选择与数据处理

本文选择Amazon的书籍个性化推荐系统作为主要的数据来源,对自然科学、人文社科两个学科分类标准大类中的487个相关性联接的文本样本进行了统计分析。为了方便本研究的数据总结和分析,本文对所收集的数据进行了四层数据结构模型,即:

(1)一层:数据起始层,五个学科大类每个大类各随机选取两个文本作为起始数据;

(2)二层:一层文本经过个性化推荐系统推荐而得的文本集合;

(3)三层:由二层文本经个性化推荐系统推荐而得的文本集合;

(4)四层:由三层文本经过个性化推荐系统推荐而得的文本合集。

2.2 Amazon的文本结构组织与分析

2.2.1 双向可逆性的文本组织结构联结方式

在数据分析的过程中,一个典型的个案引起了我们的注意,在对一层起始数据《大数据时代》及其二三层数据进行分析的过程中,研究者注意到这样一个现象,一层数据《大数据时代》经过个性化推荐系统推荐了我们的二层推荐文本之一《第三次工业革命:新经济模式如何改变世界 》。当研究者进一步观察由《第三次工业革命:新经济模式如何改变世界 》经推荐系统推荐的文本时,发现其中第一位的推荐文本就是《大数据时代》。经过个性化推荐系统组织的文本之间存在一种回归现象,即从一个文本起始经过两次上文本推荐,输出的推荐结果中包含了起始文本。

为了研究这种现象,我们从总量为214个文本的二层数据中随机抽取了40个文本进行调查,其中有36个文本出现了这种回归现象,占到了总数的百分之九十。高达百分之九十的回归现象发生率表现出了回归现象在由个性化推荐系统联系起来的文本之间。将这种组织结构直接可视化之后可以得到一个环状的组织机构,但进一步归纳内在的逻辑我们能够得到双向可逆的组织结构(见图1),而这种普遍存在的回归现象起始,可认为是个性化推荐系统下文本的双向可逆的组织结构联结方式的外在表现。

图1 回归现象的可视化归纳示意图

从推荐输出的文本是否对使用者提供使用价值而言,双向可逆文本在第二次经过个性化推荐系统推荐的过程中产生了重复性的无效信息。简而言之,就是以A作起始文本,该文本经过个性化推荐系统的推荐输出推荐文本B,推荐文本B经过个性化推荐系统推荐输出结果为A的文本。此时的A文本对于基于B的文本推荐的结果就是一个重复性的无效信息。

这一冗余信息广泛的分布在整个个性化推荐系统的每条推荐结果中,这种重复性的信息其实有很高的相关关系,但是对于个性化推荐系统的使用者而言还是太过机械,也许这是日后个性化推荐系统往更加智能精确方向改进、发展的一个突破口。

2.2.2 网状的文本间组织结构

进一步扩展上述的回归性研究的范围,随机的从214个二层文本中抽取24个文本,研究一个起始文本经过三次及以上的个性化推荐系统推荐,每次推荐输出的结果。出现了一个有趣的现象。如,一层起始文本为《果壳中的宇宙》,经个性化推荐系统,二层文本出现《相对论》,经个性化推荐系统再推荐,三层文本出现《物种起源》,再经系统推荐,四层文本中出现《果壳中的宇宙》,即为一层起始文本。在随机选取的24个文本中,经过5次个性化推荐系统推荐后文本出现回归现象的有16个,占到了总数的66.7%。

随机抽样显示这种多边形的文本组织结构广泛的存在于个性化推荐系统输出的文本中,且由于各个起始文本在个性化推荐系统推荐结构输出的时候往往输出不止一个结果,由此为每个多边形的“节点”——文本提供了接向其他多边形的接口。由于这种单个的多边形结构可以叠加,而通过叠加后的个性化推荐系统输出的文本间就呈现出了一种网状的组织结构(见图2)。

图2 网状文本组织结构叠加效果图(局部)

2.3 Amazon的文本结构组织特征

2.3.1 文本学科间横向组织结构紧密

不同学科的起始文本经过个性化推荐系统文本推荐后,输出的文本学科门类倾向于和不同学科的文本在组织结构上建立起联系,这种现象在所有的统计样本中都有体现,如,天文学的起始文本,系统推荐后有物理学、文学、历史学、数学、生物学、哲学、力学、系统学及经济学;以物理学为起始文本的系统推荐结果有天文学、物理学、文学、历史学、数学、生物学、哲学、力学、心理学、林学和经济学。比较突出的是天文学文本,其不光与自然科学领域的物理学、生物学、化学、力学等学科有着紧密关联,还与人文学科中的历史学、文学、哲学、经济学文本建立起了组织机构上的联系。这种组织上的联系使得单文本在组织结构中的独立性得到了很大的提升,不需要依附于原有的学科分类组织结构形式。

2.3.2 层级间文本内容具有相对沿承关系

天文学起始文本经过一次个性化推荐系统推荐输出的推荐文本共有50个,其中天文学文本13个、物理学文本12个、文学文本6个、数学文本5个、历史学文本4个、生物学文本3个、哲学文本2个、力学文本2个、化学文本1个、系统科学文本1个、经济学文本1个。按照比例划分:天文学文本占推荐文本总数的26%、物理学文本占24%、文学文本占12%、数学文本占到10%、历史学文本占8%、生物学文本占6%、哲学文本占4%、力学文本占4%、化学、系统科学、经济学文本各占2%。

天文学起始文本经过一次个性化推荐系统推荐输出的推荐文本共有38个,其中天文学文本6个、物理学文本10个、文学文本7个、数学文本2个、历史学文本4个、生物学文本1个、哲学文本1个、力学文本1个、心理学1个、林学2个。按照比例划分:天文学文本占推荐文本总数的15%、物理学文本占26%、文学文本占18%、数学文本占到5%、历史学文本占10%、生物学、哲学、心理学文本各占3%、林学文本占5%。

可见,天文学起始文本经过个性化推荐系统推荐所得的文本中同为天文学的文本占到了最大的比重为26%,物理学为其实文本经过个性化推荐系统所得的文本中物理学文本占到的比重最大为26%。在人文学科这种沿承关系更加明显,以文学为起始文本经过一次个性化推荐系统推荐输出的文本学科统计表达到了80%。

2.3.3 文本组织结构更加开放

经过追踪8组文本个性化推荐系统推荐后输出的文本在3天内的变化情况,一一对比三天前和三天后8组文本经过个性化推荐系统输出的文本,笔者得到了如下数据:1组文本的个性化推荐内容中出现了从前未出现过的新增文本内容。从统计学上来说这是一个非常不起眼的样本量,可这个新增文本内容展现了开放的文本组织结构特征。

这从个性化推荐系统的原理上也可以得到证明,个性化信息系统通过相关关系来进行推荐,而这种相关关系是通过使用者行为建立起来的,使用者行为是一个动态的过程,这个过程适应着不断出现的新文本。新的文本也在这个动态的过程中被与原有的文本建立起相关关系,并因为这种相关关系被纳入系统当中。

2.3.4 文本组织结构相对稳定

进一步研究8组文本个性化推荐系统推荐后输出的文本在3天内的变化情况,笔者发现每组数据中个性化推荐系统输出的文本在排序上每次都与上次略有不同。但其中七组经过推荐后的文本内容没有发生改变。简而言之,个性化推荐系统输出的推荐文本结果只是在排序上发生了改变,而具体文本没有发生太大的变化。体现出个性化推荐系统输出的文本结构上具有相对的稳定性。

3 Amazon的文本结构组织对图书馆的启示

Amazon的文本组织结构帮助文本的接受者建立文本间关系的初步认识,是一种最直接最直观的接触个性化推荐系统交付给我们成果的方式之一。文本的组织结构在一定程度上决定着人们是如何获得这些文本的,将怎样定位这些获得文本的优先级,甚至影响到人们从文本中获得的知识在脑中的组织结构。这种组织结构特点对目前已开展大量个性化服务的图书馆而言,具有一定的启示作用。

3.1 学科间的联系进一步变得紧密,跨学科知识获取步长变短

从以上可以看出,由于个性化推荐系统的影响,Amazon输出的文本的组织结构学科横向间的关系非常的紧密,这意味着从前相互关系松散的学科间的联系也变的紧密起来。因此,用户从一个学科的起始文本引向另一个崭新学科的文本的步长变的相对较短。如从《量子世界:写给所有人的量子物理》这个物理学的文本出发到获得一个《三体》这个文学文本需要经过的途径变的非常的短,只需要通过两次或更少次数的信息筛选。对图书馆来说,一方面,学科间的紧密联系,使得图书馆的信息资源相互间的联系也进一步紧密,如何根据个性化推荐实现资源的导购、实现资源的紧密一体化,以为用户特别是需要专业化信息的用户提供基于用户学科文本知识需求的知识推荐服务,将是资源建设中无法避免的一大问题。另一方面,跨学科资源获取的路径变短,将为图书馆的信息服务人员,特别是为用户提供信息服务的书目推荐人员、信息咨询馆员、学科馆员等提出了挑战,合理配置馆员的学科背景,通过培训等教育手段实现馆员学科知识的均衡化与合理化,以为用户提供所需的跨学科资源信息,也必将成为未来图书馆馆员建设的一大考虑因素。

3.2 弱化的文本逻辑关系,强化资源间的知识关联

个性化推荐系统在表述上从来不强化其影响下内在的文本内容组织结构关系,个性化推荐系统输出推荐文本的时候,表述上一般使用“其他的用户也购买了”、“猜你喜欢”等类似说法。这些说法有很弱的组织结构关系、逻辑关系,使得原始文本和被推荐文本之间很难快速的在人脑中被组织进原有的知识体系。这种注重推荐输出文本结构而不重视推荐文本推荐原因和内在逻辑的文本获得习惯日益养成,弱化了人们对文本间逻辑组织,结构组织的需要,呈现出弱化逻辑关系的特征。这些信息获取习惯的养成,也将影响到民众到图书馆获取信息的行为和需求,图书馆传统的编目、分类可能对用户来说他们并不掌握,甚至都不曾在资源的检索中应用,进一步弱化图书馆所藏文献文本间的学科关系。Worlcat等一站式资源发现服务系统的应用,已说明图书馆注意到了用户的这些需求,进而通过资源的知识关联去实现图书馆的资源组织、资源检索与资源提供方式。图书馆只有实现资源的语义开发与数据关联,通过知识的关联去建立馆藏资源、网络资源与共享资源的组织结构,进而为用户提供基于知识组织的知识服务,才有可能保持社会信息存储中心、服务中心的社会地位。

3.3 实现智能化的信息筛选与一站式服务

海量的数据使得人力的筛选变的有点力不从心,于是信息筛选从复杂的计算法和数据模型中找到信息筛选的捷径。两个典型的例子就是美国的《郝芬顿邮报》和《高客网》在采编新闻时通常将数据作为重要的参考因素,而非编辑的新闻敏感度。这种趋势意味着人力在海量信息的冲击下有时已经无力承担守门人的角色,开始向算法和数学模型寻求解决方案。这意味着守门人的权利开始下放给算法。信息筛选原则被革新。个性化推荐系统是一种基于海量数据模型和复杂算法的信息筛选系统,它与它具有同类性质的数据系统的使用正在一点点改变信息筛选的原则。而图书馆目前提供的个性化推荐服务,还并未真正达到完全的智能化与系统化,根据用户的信息定制,通过E-mail、RSS等途径或技术来实现是图书馆个性化服务的主要实现方式,而这些方式明显远远落后于Amazon长期坚持的计算机智能化管理平台,因为这种管理平台一方面可以积累大量的文本数据、用户习惯等大量的结构化数据与非结构化数据,同时还可以通过算法及文本关联模型的改进来实现对个性化服务的效果提升。

4 结语

个性化推荐系统是一种基于海量数据和计算机算法的信息筛选方式,并在文本选择与提取领域得到了广泛利用,尽管如本文选取的Amazon个性化推荐系统经过了十余年的发展与改进,已具有了广泛的成功实践经验,但随着社会计算机技术的发展与用户信息行为的变化,个性化推荐系统还将进一步得到发展,并在文本的组织结构等方面表现出新的特征。图书馆界需注意到这些个性化推荐系统所表现出的特征,以改进自己的个性化推荐系统,并通过对这些互联网企业的个性化推荐系统特征的分析,去提升、改变自己的馆藏建设、人才建设与服务建设,进而推动图书馆事业的发展。

[1]Web2.0 时代我们需要什么样的阅读 [EB/OL].[2012-06-29].http://www.bookdao.com/article/41363/?type=98.

[2]刘友林.基于网络结构的个性化推荐系统的研究[D].上海:东华大学2012年硕士毕业论文,2012.

[3]Amazon[EB/OL].[2012-06-29].http://www.amazon.cn/.

[4]从亚马逊公司的发展看电子商务[EB/OL].[2012-06-29].http://www.360doc.com/content/08/1231/12/43201_2233494.shtml.

[5]Alysis全面支持 IBM WebSphere电子商务平台[EB/OL].[2012-06-29].http://news.chinabyte.com/240/1247740.shtml.

[6]谷歌AdWords添加关键字搜索 可看月搜索频率 [EB/OL].[2012-06-29].http://news.ccidnet.com/art/1032/20080711/1503165_1.html.

[7]雅虎推SmartAds定制工具提高网络广告竞争能力[EB/OL].[2012-06-29].http://www.cnetnews.com.cn/2007/0703/415547.shtml.

[8]话说精准营销[EB/OL].[2012-06-29].http://www.a-wa ys.cn/news/content-30.html.

[9]亚马逊公司(Amazon):世界上销售量最大的网上书店[EB/OL].[2012-06-29].http://wiki.mbalib.com/wiki/AMAZON.

猜你喜欢

个性化学科图书馆
【学科新书导览】
土木工程学科简介
坚持个性化的写作
新闻的个性化写作
图书馆
“超学科”来啦
上汽大通:C2B个性化定制未来
飞跃图书馆
论新形势下统一战线学学科在统战工作实践中的创新
满足群众的个性化需求