APP下载

两项国家中文新闻信息技术标准在新华社的应用和发展——新华社技术局局长吕锐在“网络科学”论坛的讲话

2012-04-25金晓红根据录音整理

中国传媒科技 2012年9期
关键词:新华社标签分类

金晓红 根据录音整理

两项国家中文新闻信息技术标准在新华社的应用和发展
——新华社技术局局长吕锐在“网络科学”论坛的讲话

金晓红 根据录音整理

当前,在全球范围内,有关信息技术领域的基础工作都在有条不紊地扎实推进,特别是标准化工作更是如此。各个国家早在21世纪初就把研制全新的信息置标语言提上了议事日程。而在我国,目前中文新闻信息技术标准的研制和应用情况并不理想。以我国家各大新闻机构的信息系统建设为例,其出发点都是源自自身的业务需求,并没有采用统一的中文新闻信息技术基础性标准。正因为如此,我们的数据库、各种采集的素材,包括新闻信息产品本身的再次加工应用,都存在严重的信息孤岛现象。从元数据分类到数据应用的检索都难以整合,导致各应用系统的信息无法交流共享。不言而喻,在当前和今后的科技发展潮流下,制订统一的国家中文新闻信息技术标准显得尤为重要。

本次报告的主要内容是介绍在过去几年中,新华社在制订两项中文新闻信息技术国家标准的基本情况以及后来针对标准应用推广方面的一些实践。

一、建设情况

1、中文新闻信息技术标准的立项攻关专项

2003年的11月,科技部批准了国家十五重大科技攻关项目,中文新闻信息技术标准研制课题。该课题旨在建立一套基于国际接轨,又具中国特色的、全国统一的、甚至整个华裔地区统一的新闻信息技术标准,以便有效组织管理和存储发布中文多媒体新闻信息,实现新闻信息在华裔媒体乃至更大范围内的交流和共享。该课题由新华社牵头,并提供了配套资金,联合众多的报社、新闻单位、企业和研究机构共同参与。课题组充分研究了国内外相关技术标准,广泛调研了国内新闻单位特别是报业单位技术的现状和新闻媒体的实际需求,经过近两年的努力,完成了《中文新闻信息置标语言》(简称CNML)和《中文新闻信息分类与代码》两项国家标准的研制任务。

2005年5月,上述凝聚了中国新闻媒体人心血和期待的“中文新闻信息技术”两项标准草案形成,并向国内多家单位发送了征求意见稿,力求使标准能够充分体现各媒体单位的共同需求和利益。

经过国家重大标准专项管理办公室严格的程序审批,专家一致认为:《中文新闻信息置标语言》和《中文新闻信息分类与代码》两项标准的研制成功,为全国新闻信息资源的有效管理、开发、利用和共享奠定了良好基础,填补了我国新闻信息科技领域的一项空白。2006年1月5日,国家标准化委员会审批同意两项标准为国家推荐性标准,并于2006年5月1日正式实施。

2、两项国家标准简介

《中文新闻信息置标语言》(简称CNML)是新闻信息分类体系的载体及推广实施的有效技术途径,《中文新闻信息分类与代码》是《中文新闻信息置标语言》元数据和受控词表所依据的基础资源,这两个分标准之间,既相互独立又彼此依存。《中文新闻信息置标语言》标准适用于新闻信息在“采集、编辑、生成、发布、存储、检索、评估反馈”生命周期各个环节,是一种既与国际接轨、又有中国特色的多媒体新闻信息元数据规范。该技术标准采用了XML(可扩展置标语言)和RDF(资源描述框架)技术,支持文字、图片、图形、音频、视频等多种媒体类型以及多媒体混合的新闻信息的描述,支持对新闻信息间关系和语义的描述,为新闻信息的自动解释、交换和处理等新业务的发展留下了空间。该标准具有良好的扩展性和实用性,可用于多媒体新闻信息在通讯社、报社、广播电台、电视台、网站以及新闻信息用户之间进行交换和共享。

《中文新闻信息分类与代码》标准广泛借鉴和吸收了国内外有关媒体机构分类法的优点,大胆创新,在编制原则、类目设置等方面均具有特色。比如在立类方面,标准坚持“主题立类为主,学科立类为辅”的原则,适应了新闻信息综合性强、容易形成专题的特点。总的来说,该标准兼顾了科学性和系统性、实用性和服务性,稳定性和兼容性、前瞻性和可扩展性的原则,不仅为新闻信息分类工作人员提供分类标引的依据,也为实现中文新闻信息分类自动化打下了一个可靠的基础。

另外,“中文新闻信息技术”两项标准支持多媒体特征,可实现多种业务,如图表漫画,音频、视频,手机电视等的统一格式,有利于实现功能完整,互动性强,性能完好的集采集、编辑、存储、展示、反馈一体化的业务系统,可实现多媒体、全媒体的发稿,做到一次生成,满足受众多样化的需求,提高我国新闻产业的核心竞争力。

综上所述,“中文新闻信息技术”两项标准不仅有利于报纸对新闻信息资源进行整合,扩大信息资源共享范围,消除大量跨部门,跨系统和跨平台的信息交换的障碍,有效降低交流、维护成本;还有助于促进我国多媒体新闻产业链的形成和新闻服务业的发展,有利于提高资源利用效率,减少重复开发和投资浪费,形成优良的产业环境,不断提升我国媒体的国际传播能力,更好的参与国际新闻竞争力。

3、两项标准的推广情况

目前,标准推广已取得初步成效,在传媒业界,海内外得到广泛影响,标准可用性得到了充分的验证。

新华社、中评社都采用了CNML标准:新华社对国内600多家,海外70家全球网用户已采用CNML格式发稿,香港文汇报采用了CNML标准。

华光、新华紫光等公司均在其报社采编系统中支持CNML接口:TRS、上海阿尔法等多家公司已经在其产品中支持CNML标准。

而中文新闻信息分类与代码标准继2007年由广西日报率先使用以来,全国已有十多家报社采用。

4、两项标准的修订和发展

为了保证标准适用性和可持续发展,经国家标准委批复同意,新华社牵头正在对“两项国标”进行修订,此项工作已经接近尾声。

修订过程中,我们遵循4个原则:

1)解决新的标准应用需求和发现的问题

2)保证标准的延续性

3)探索与国际标准融合

4)更好地解决CNML标准与分类标准的协同

在新华社内部而言,CNML标准已全面应用于新华社采集、编辑、发布、供稿、内容管理、报道和业务的反馈管理等各个业务环节,是新华社系统间交换数据的唯一基础性标准。作为全球性的三大通讯社之一的新华社而言,其机构和网络都是全球性的。目前,新华社在全球有160多个分社,都是7×24小时不间断运营的机构。因此,数据交换标准化尤为重要。

二、两项国家标准在新华社业务系统中的应用

应用1:2008年奥运移动报道系统

2008年奥运移动报道系统是支撑新华社履行2008北京奥运会国家摄影队和东道主通讯社职责的多媒体移动报道平台。成功经受了北京奥运会大数据量、高并发的实际考验,发稿时效和数量均超过其他通讯社。

而该系统正是全面应用CNML标准,实现了新闻稿件全流程对标准的完整支持。系统依托CNML建立了一套完整、统一标准的多媒体新闻信息的组织、发布、交换、存储和应用的技术体系,促进了新闻信息共享,提高了资源整合能力,为新闻信息的高效利用和增值服务提供了支持。

目前该系统已历经多次重大报道任务和突发事件报道的考验,可以说是技术先进、结构合理。该系统也曾荣获“王选新闻科技奖”特等奖,为CNML标准在国内传媒行业的推广应用起到了示范作用。

应用2:eNews采集系统

eNews采集系统是支持文字、图片、音频、视频等各类型资源采集的技术平台。 该系统支持多种通讯手段,适应不同环境,支持室内有线、无线、专线网络、互联网络,室外海事卫星、手机发稿等。该系统凭借着极强的适应性已在新华社总社、国内、海外分社全面使用。同时,eNews采用CNML标准统一存储、管理、交换各类型稿件,系统效率也因此而大大提高。

应用3:多媒体编辑系统

作为新华社这样的全球性机构而言,总社和海外7个大分社要实现中、英、西、法、俄、阿、葡等文种各类型稿件的编辑签发。多媒体编辑系统数据以CNML格式统一汇总和输出,高效处理各类素材,实现了多媒体产品内容的生产,实现了信息资源统一的、标准化的标引和分类。

应用4:通信供稿系统

该系统作为新闻业务通信中枢,负责新华社各类新闻信息产品的对外播发和供稿。通信供稿系统搭建了新华社与其他媒体进行新闻交换的对接平台,促进了新闻信息交换和共享。CNM标准的应用,简化了数据处理逻辑,提高了发稿时效,使得数据交换更加畅通、高效。同时信息的交换也扩大了CNML标准应用的范围,推动了标准的推广。

应用5:“新华08”金融信息平台

“新华08”是新华社的综合性金融服务系统,提供实时资讯、行情报价、历史数据、研究工具、分析模型等服务,支撑新华社从单纯的新闻信息服务提供向高端信息服务、金融交易等增值服务的战略性转型。

“新华08”全面采用了CNML标准,接受、处理、制作金融信息产品,使信息产品的属性更加丰富,增强了信息产品间的关联性,为用户提供了更好的资讯服务。CNML标准的采用使得系统伸缩灵活,可扩展性增强。

三、新华社多媒体数据体系及标准应用

新华通讯社多媒体数据库是目前中国媒体领域最大的多文种、多媒体、海量异构资源库。数据量达到800TB,文字信息2亿多条,1000多万底图片,3万多小时音视频信息,涵盖中、英、西、法、俄、阿、葡、日八个语种,为全球27000多家用户提供服务。

由中国工程院金怡濂和倪光南院士等组成的鉴定组鉴定认为:“新华社多媒体数据库系统是目前国内传媒业已建成并投入运营的最大的多文种、多媒体数据库,在应用集成,海量数据处理、多媒体大对象管理、多文种多种类信息检索、XML/CNML标准技术应用等诸多方面处于国内领先水平,在中文大规模真实文本数据挖掘技术应用和新闻标识语言的研制方面居于国内先进水平”。

新华社下一代技术系统建设中,依托云平台和分布式结构,重构多媒体数据资源的分布,建立“大数据库”体系,深度“依赖”标准实现更大范围数据资源整合、流转、加工和积淀。

从新华社多媒体数据库多次修订的工作流程来看,在依托两项基础国家标准的情况下,已初步形成了完整的和规范的入库和出库,机构内运用非常广泛。从入库的角度来说,有自身播发的多类型多语种的稿件,也有引进或者与其他机构交换的各类资源,以及引进交换的非CNML语言格式的资源。通过CNML校验、解析、入库这样一个工艺流程进行转换。出库的工艺工程是通过机构供稿,提供给最终用户。最终支持新兴媒体面向最终用户的多样服务。

1、多媒体数据库CNML标准应用效果

(1)实现了海量新闻信息资源的汇聚、整合、共享和业务集成,具有标准存储、自动查重,分类发布、个性化服务、稿件检索、稿件统计、智能提示等功能。

(2)实现了多来源、多方式、多类型、多格式的新闻稿件以标准方式存储到数据库中,并以CNML格式为其他系统提供标准化服务。

(3)基于CNML标准建设的多媒体数据库已经成为新华社整合、共享多种多媒体新闻信息资源的统一的技术平台,因为有这样的技术平台使得新华社在战略转型过程中间对业务和流程实现再造,提供了扎实的技术基础。也使新华社深刻体会到,采用CNML标准带来的资源和信息利用的提高、产品加工传播成本降低的好处,充分体现了科技创新,提高新华社核心竞争力的重要价值。

2、CNML与EventsML融合创新新闻供稿模式

基于事件置标语言(EventsML)是国际新闻组织IPTC制定的一个非常重要的标准,被喻为新闻行业的下一个经济增长点。该标准以某一新闻事件为中心来组织新闻报道,对新闻的策划,报道的组织,用户的反馈,新闻报道上下游的协调,事件之间的关联等提供技术支持,通过视频、音频信息和背景资料以配合文字报道刊发,有利于形成一个多媒体的全方位的融合报道形态,支撑全媒体业态的发展。这种报道形式需要新闻产业链上下游的双向紧密协作,以发挥出最佳的报道效果,被称为“通讯社和媒体用户间新的新闻策划与生产合作模式”,是通讯社、软件开发商和媒体三方密切合作的结果。

CNML将借鉴、吸收EventsML标准,创新新闻供稿模式,带动新闻聚合、全媒体融合的发展。

3、CNML与富标签融合创新内容服务模式

为了使得新华社的全球传播和服务能力得以提高,新华社对CNML与富标签如何融合,做了深入的探索。新华社有全球最大的图片汇总和图片报道的业务系统,这个业务系统里面已经采用富标签技术对它进行改造升级。

富标签(UItraTag)的概念原于标签,但超越标签。新华社正在研制并将在中国全球图片总汇系统中投入试用的富标签体系是一套多维度多模态融合的内容描述体系,不仅要涵盖时间、地点、人物、事件、内容引申等维度的文本标签信息,还可根据媒体类型扩展标引维度,例如图片可拥有拍摄风格、颜色、纹理等特征信息标签。通过规范标签与扩展标签,基于语义关系进行标签的智能关联和智能推荐。通过富标签的标引,解决媒体内容描述不足或不全面的问题。通过标签库的语义关联,解决标引精准性和用户检索随意性的矛盾。

CNML将吸收富标签体系,创新各类媒体的服务模式,提供用户更好的信息搜索体验。富标签体系也将在新华社逐步全面应用。大范围内合作推广。

四、多方位开放合作

4、新闻自动分类工具的研发与应用推广

“新闻分类”标准是基于知识属性建立的多级分类体系,涵盖知识面广,但分类体系复杂,对分类人员要求过高,不便于大面积推广。

新华社正在结合智能语义处理技术,研发自动分类工具,通过一定量的语义训练和人工纠错,使自动分类的准确率达到90%以上。通过建立人工辅助自动的规范标引工艺流程,能够进一步提高自动分类准确率,提高标引效率。新华社将在多媒体数据库中首先应用该工具,积累自动分类的经验,生成可复用的自动分类模板,在更

未来新华社将在国家标准委的指导下和国内相关机构和相关科研院所通力合作,采用云计算技术建设更加现代化商业多媒体数据库,借助标准化的推广应用,会聚行业的资源,适应终端移动化和服务社交化的趋势,全面推进全媒体融合的个性化服务。新华社将与其他的信息提供方合作,实现内容资源的不断汇聚;与信息发布者合作,实现内容服务市场的不断开拓和终端市场不断完善;与运营商合作,实现基于内容路由的探测和个性化按需投放工作。未来的内容网络,通过内容标签技术和两项中文新闻信息技术国家标准,将为文化大发展大繁荣提供更多的服务。随着传播方式的变革,我相信在内容标识、管理、安全、版权等诸多方面,我们还面临新的更多的需求,新华社将一如既往寻求多方面的合作,实现全媒体产业化的应用。

猜你喜欢

新华社标签分类
分类算一算
党的十九届四中全会公报
视界
应用“8K+5G”技术创新国庆阅兵报道——新华社的实践与思考
分类讨论求坐标
无惧标签 Alfa Romeo Giulia 200HP
数据分析中的分类讨论
不害怕撕掉标签的人,都活出了真正的漂亮
教你一招:数的分类
让衣柜摆脱“杂乱无章”的标签