当阅读遇上大数据
2018-09-10沈浩
沈浩
在今天,我们谈论大数据,其实比大数据更火的一个概念是人工智能(AI)。有了云计算的基础架构之后,各领域的大数据应用得以快速发展,当大数据遇到了深度学习技术,一种新的机器学习算法得到应用。深度学习是一种算法的革命,加上物联网的融合发展,我们看到了人工智能应用的广阔前景和应用场景。
人工智能,对于阅读和出版行业将会产生什么影响?运用某种语言识别技术,人们说话的时候,声音就可以同时转换成文字。如今,这种转换的准确率已经有了极大的提高。《纽约客》杂志曾经使用过一期封面,内容是人类在向机器人乞讨,这就说明AI的影响是广泛而深远的。在思考阅读遇上大数据的同时,我选择了亚马逊线下实体书店的一个视频,通过深度学习算法,我们可以进行视频对象侦测,识别书店内外出现的人和物。今天亚马逊书店的经营模式包含线下和线上,以及从线上往线下转移的过程,这种模式在国内被称为“新零售”。实体书店也将融入这样的新的经济模式。
人工智能在这样一个实体书店能够起到什么作用呢?通过视频图像分析的深度学习的AI技术,我们可以用摄像头捕捉每个人的购物过程,识别每一位顾客、每一本书出现的场景。通过这样的分析方法,我们可以了解到,什么样的消费者来到了书店,拿起了哪一本书。根据消费者拿起的图书,就能够感知到消费者后续可能产生的行为。人工智能如今已经可以处理视频、图像、声音、语言和文字,而在技术应用过程中,图书发行产业链的方方面面可以思考利用人工智能改进消费升级和读者洞察。
什么是大数据,它如何助力了今天的人工智能?我们要去思考。在这样一个过程中,计算机算法是怎么思考现实问题的?我通过两个案例来说明大数据在内容分析和推荐方面的应用。
首先,我们输入一份长篇幅的数字文本(比如《罗密欧与朱丽叶》这本电子书),我们可以用文本识别技术找到其中的关键词,作为其内容筛选的基础。可以提炼其中的人物、地名,进而研究图书当中的人物之间的关系、情节的演进等。
再举一个针对图像进行深度学习的案例。通过把一定数量的电影海报作为输入,进行深度卷积神经网络的学习,可以形成这样一个应用,只要任意输入一个电影海报的编码,就能快速找到和这个海报最为类似的其他海报,图书封面当然也可以做类似的研究。对图书封面进行大数据建模之后,当消费者选择了一本图书,就可以在海量图书当中快速找到与其类似的图书封面。
当然,还可以将上述基于文本的分析和基于图像的分析结合起来,提炼出一本书更多的特征,这些特征就可以用于图书商品的个性化推荐。而在这当中,如果我们再结合更多消费者的行为信息,还可以让这个过程更加精准。
我曾经为《爆发》一书写了如下的推荐语:这是一个令人兴奋的时代,也是一个大数据的时代,数据科学让我们越来越多地从数据中观察到人类社会的复杂行为模式。以数据为基础的技术决定着我们的未来,但并不是数据本身,而是我们从数据中拥有更多的可用知识的增加。
这不是危言耸听,而是大数据技术支持产生了大量基于个人的信息记录,而机器学习让以往很多不可快速计算和分析的信息获得了被快速识别的可能。比如,在微博来临的时候,一个人所写微博就可以告诉我们很多信息,比如推测你的性格,你的品牌爱好,你的消费习惯,你的生活方式,甚至你的价值观。因此,《爆发》一书的核心观点是,人类行为的93%是可预知的。在图书行业,大数据最大的特点就是可以分析我们的读者。
事实上,大数据和人工智能能够实现的远远不止这么多。当阅读遇上大数据,我们还在面临着巨大的未知。软件定义一切,数据驱动未来,算法统治世界。特别是今天在移动互联网时代,算法更多地在重构我们的分发渠道,数據更多的在驱动我们的商业行为。未来不远,未来已经发生,所以我们应该去拥抱大数据,拥抱人工智能。当阅读遇到大数据时,首先改变的应该是我们工作、生活和思维方式,畅想未来无限的X。
(作者系中国传媒大学新闻学院教授)