创建巨媒体环境
2014-02-08李幼平
文|李幼平
大数据时代,可能出现某种“内容无所不有、位置无处不在”的巨媒体(macro-media)环境,它是一种可计算的电磁网络空间(Cyberspace)。群聚几万种报刊、电台、网站当天的数据,通过卫星及移动通信直接分发全国,支持个人按兴趣下载享用。此举改变公共内容的个案传输方式,变革为“全部交你,由你自己选择”的批量生产方式,是生产力的一项变革。依此变革,中国有望创造高效安全的互联网第二体系结构。
群聚全国几万种媒体
巨媒体源于“聚媒体”。如果没有统计数据的支持,人们很难相信,卫星转发有能力把几万种媒体的全部内容聚合起来,提供给全国人民自由下载。根据北大李晓明等人“网页博物馆”十一年不间断统计,可以判断,除去长视频,全国所有报纸、期刊、网页当天新产生的全部内容加起来,总量不超过50GB/天。再把全国全年产生3万小时标清长视频的因素加上去,全国海量媒体内容的日均增量只有100GB/天左右。目前卫星和地面无线电转发的带宽已经大于39Mbps,日推送量大于400GB/天,完全有能力将巨媒体内容推送不止一遍。
如图1所示,国家群聚当天海量媒体的全部内容,通过卫星和地面转发主动送达全国所有家庭,让他们自由选择感兴趣的内容下载,实现公共文化内容的全民各取所需。
创建巨媒体的主要难题是内容的可计算性。聚合后的万种媒体是一种大数据,如何实现按需分解?或者说,如何实现“自由选择有兴趣的内容下载”?
借用毕升的活版智慧
我国古代发明家毕升把汉字单字看成是“可聚可分的文化基元”,发明了活版印刷术。网页是网络时代 “可聚可分的文化基元”。活版印刷术成功的精髓在于依托语义聚分汉字。几乎没有异议,灵活聚分网页依然需要依托语义。很遣憾,人们沿着B. T. Lee所提出的语义网(Semantic Web)方向努力了十几年,至今没有出现预想的重大突破。
无情的现实迫使我们不再简单依托用语义本身,改用“语义的聚类抽象”(即话题)来引领网页对网民的灵活适配。
图1 群聚全国海量媒体,实现巨媒体的天播地存
话题(topic)是人类信息兴趣的本体聚类(ontology clustering)。信息的获得,在数量上等于疑惑(不确定性)的减少。只有当外来信息有能力化解人们心中的疑惑时,才获得心理的愉悦和兴趣的满足。可以说,兴趣的分类本质上就是话题的分类。按照B. A. Barabasi等人关于互联网由随机网络转化成无标度(scalefree)网络的原因解释,正是由于客观上存在网民的“个人偏好”(优先连接性),网民总是优先连接那些有能力化解心中疑惑的内容。某话题积累的先验知识愈多,愈容易产生更多的疑惑,探索该话题的欲望也就愈加强烈。
一个话题可以吸引一批具有相同求知兴趣的网民,组织起一个信息社区(info-community);一个话题也是一个网页池(info-pool),吸引并组织一批批作者围绕该话题源源不断地把作品投入池中。如图2所示,应该按照话题来引领网页的聚合与分发。
事实上,话题词典已经存在几十年。稍加留意,就可发现每个网站天天都通过主页向网民通报:本网站的什么话题(栏目)出现了什么新鲜的网页。把上万种网站自定义的话题结构罗列出来,就可以得到一本“海量媒体的话题词典”。
如果全国媒体总数少于六万五千种(216),每个网站的话题数少于256种(28),就可以用一个24bits的代码(code)准确定位每一种话题。基于这一思想,全国中文新闻信息标准委员会已经接受“最少跳数内容分发”项目组所提出的UCL格式建议,正在开展“统一内容标签UCL”国家标准的起草工作。
培育互联网第二结构
传统互联网所采用的基于端到端通信的TCP/IP结构(如图1的下半部分所示),多数情况下需经历6至23跳的路由转接,才能从远处网站取来所需网页。而基于卫星广播的播存结构(如图1的上半部分所示),可以事先把内容存入家庭WiFi或基站后台,获取网页的跳数大比例降至3跳以下。
我们有充分理由判断,互联网的双结构化进程已经很难避免。现有的互联网TCP/IP结构将继续作为未来互联网的主结构(primary structure),而播存结构将成为未来互联网的第二结构(secondary structure)。如表1所示,经过从物理学、计算科学、拓扑学、统计学和社会学等多种视角的观察,我们坚信播存结构有能力帮助传统的TCP/IP主结构回答以下三方面科学问题:
1. 共享如何不限人数?播存结构可支持内容的不限人数共享,广播下载无需带宽分配,用户数目可以任意增加,不会产生人多引发的拥堵。
2. 网页如何自寻网民?统一内容标签UCL能引领网页自寻网民,UCL控制下载的话题选择。
3. 国家如何依法管理?卫星广播提供了依法管理公共内容的物理基础:卫星广播是一种由国家管理的“一点对所有点的”的辐射通道,它既有能力向全国存储环节提供内容,也会有能力依法管理这些内容。如表1所示。
当前,未来互联网体系结构的研究呈多元化的态势。
图2 按照话题引领网页的聚合与分发
表1 第一结构与第二结构的多种视角对比分析
全球都在探讨基于内容计算的未来网体系结构,具体称呼有信息中心网络ICN(information-centric networking)、面向内容网络CON(content oriented networking)等,代表性研究项目有DONA、PSIRP、CCN、NDN等。在国际上产生很大影响的是美国NSF支持的NDN,国内北大、清华、东南等大学有过充分的研讨。NDN的关键技术之一是如何对数据(内容)进行命名和高效处理,播存结构中的统一内容标签UCL(尤其是UCL code)也许可以助其一臂之力。
多国正在探讨软件定义网络SDN(software defined network),我国已在南京建立了专门的试验基地。SDN强调控制平面和数据平面的分离,从而实现网络控制功能与物理网络拓扑之间的解耦,摆脱硬件对网络体系结构发展的束缚。这种理念要求逻辑层面定义“基于需求的价值度量”(requirement is the measure of value),其目标与正在制定的“统一内容标签 UCL”颇为类似。
中国培育互联网的第二结构,除了制定“统一内容标签UCL”国家标准,还要组织更多专家去创建“融合通信/广播的互联网协议族”:BSP/IP。BSP/IP的设计目标,是在统一的IP数据包格式下,重点关注如下需求:如何将先后到达的海量网页转换成单一的卫星载波流?如何在家庭下载有兴趣的网页?如何在基站后台按网民民主表决结果淘汰过时网页?如何按存储内容缩短路由跳数?等等。
巨媒体的经济社会效益
巨媒体是“国家搭台、市场唱戏”。国家的责任是创造环境。以国家名义聚合无所不包的内容,通过卫星和移动通信覆盖全国,放手让大、中、小企业自主体现经济效益与社会效益。
网络内容提供企业(ICP)欢迎巨媒体的原因是,ICP追求最大的“社会关注度”(人分钟总量)。全国全民的覆盖为人分钟总量供物理支持,而且不必担心因更多人分钟总量添加设备费与流量费。互联网接入企(ISP)欢迎巨媒体的原因是,直接向家庭WiFi或基站后台供应内容,减少平均的路由跳数,节约路由耗能,节约长距离的带宽消耗,从整体上降低ISP的运营成本。
市场的主人是消费者,他们欢迎巨媒体的出现。我国一半以上的领土领海,缺乏宽带光纤和宽带移动网覆盖,那里的居民,希望直接通过卫星平等得到几万种媒体的主动服务。依托卫星和3G移动通信对WiFi的双重支持,边远城镇和农村居民可以得到相当于今天大城市居民的信息服务。大城市居民得到宽带光纤和宽带移动网覆盖之后,希望聚媒体给他们带来资费的大幅下降。
更重要的是,巨媒体有望帮助国家在文化上办成几件大事。例如,开创自由和秩序兼得的互联网文化。再如,营造全民终身教育环境,其中最先行的也许是营造全国性高等工程教育环境。等等。
结束语
设想中的巨媒体是一种覆盖全国的、内容多元化的、可管可控的电磁空间,它符合“网络安全和信息化是一体之两翼”的国家战略,向全国网络专家、工程师与企业家提供一个宽松的自主创新场所。