经济报道中的“另类数据”及想象
2022-06-08塔娜李开宇
□ 塔娜 李开宇
内容提要 较之于传统数据,“另类数据”是具备新来源、新维度、新广度的大数据,可以从新视角支持智能化时代的经济报道。“另类数据”增长迅速,在数据市场上进行流通与交易。知识图谱与机器学习等工具可以用于挖掘基于“另类数据”的新闻价值。综合经济专业知识、新兴“另类数据”、数据处理工具并发挥记者的专业能力,预期可在“另类数据”时代发掘经济报道的新活力。
随着我国经济改革的纵深化发展以及读者需求与专业水平的不断提高,经济报道在客观性、真实性、深度与广度等方面所面临的要求不断增强。其中,经济报道高度依赖的数据,自2010年前后大数据时代开启以来,至当前基于5G通信技术的物联网、传感器乃至卫星遥感设备所带来的可能与想象,其内涵与外延均经历了复杂而深刻的变化。数据不再局限于行业与产业的统计数字,而是扩大到了多个侧面与维度、多种门类以及多种价值发现可能的新领域。例如,时空数据:用户的位置与轨迹数据(如基于手机端位置服务应用获取的人口迁移与流动数据);行为与情感数据:用户社交网络数据的交互行为与文本、视频数据;智能设备与传感器数据;物联网车联网数据,等等。这些数据及其应用为经济报道提供了新的视角、新的工具、新的呈现方式以及新的价值发现可能,数据与经济报道的关系正在经历深刻变革与重构。
经济报道与数据两者关系可以分为两个进路。一方面,从实务角度,经济报道大量使用与依赖数据,数据是经济报道刻画社会经济发展的重要工具与手段。另一方面,从研究角度,经济报道本身也成为研究对象并提供实证数据。例如,依据财经媒体的报道文本论证地域发展区别、根据媒体报道情绪解读财经政策的落实,等等。本文所要探讨的是第一种关系,即,在经济报道中,数据的发展如何进一步赋能经济新闻实务,是否有新的突破口与增长点。当前经济报道中数据的使用现状已经充分地体现出经济报道的数据依赖。
一、经济报道的数据价值
经济报道针对周期性或是突发性的经济活动进行记录,体现社会经济活动趋势,其对数据的使用具有常态化、综合性、创造性等特点。数据是经济新闻的核心要素之一,借助大数据、智能时代的新工具,其价值得以进一步释放。
□ 图1 “另类数据”供应商数量增长趋势(图源:https://alternativedata.org/stats/)。
(一)大数据
在大数据的视野下,经济新闻对数据价值的利用不局限于某些个体种类的数据,不同来源与品质的数据相互补充、深度融合,能够实现单一来源数据力所不能及的新效能。
经济新闻历来被视为以数据为中心的新闻,大数据进入经济报道后,对经济新闻生产方式带来了重构。在大数据时代,尤其需要协调与大数据以及相关技术的多种关系。首先,应善于利用数据和数据库技术,从中实现数据故事与价值和规律的挖掘,以及注重专业数据的积累;第二,支持数据可视化工具的开发,从可供性视角,探索数据呈现对用户一侧价值发现的新可能;第三,积极采纳与完善数据基础设施,引入数据记录、分析和传播的新技术,这既包括个体记者级别的数据分析桌面应用工具,也包括多源异构数据融合与规治的基础设施。
□ 参会者步入2021中国国际大数据产业博览会现场(2021年5月26日摄)。(新华社记者 欧东衢/摄)
从经济新闻的生产过程来看,各个环节在大数据的环境下都产生了新的变化。首先,数据的采集可以由自动化的程序接口完成,数据也来源于各种传感器、智能终端、智能生产设备、网络应用、搜索引擎等,不再局限于单一的人工采集。一项针对卫报的研究也论证了大数据时代新闻来源多样化的新趋势。其次,经济新闻的撰写过程也由人工转变为人工加自动化机器写作。特别是一些模板化、程式化、周期性的稿件,均可交由写稿机器人自动采集数据并完成写作,提升效率与规模。另外,经济新闻有特定的叙事框架和分析方法,其中对经济数据分析能力的需求也可充分利用人工智能、深度学习的算法来完成,以弥补写作者在具体深入的专业领域知识不足。在触达终端用户的环节,也可以充分利用基于大数据的用户画像与新闻推荐系统,提升用户体验,更好地服务与留存目标用户。
(二)数据可视化与价值呈现
从数据量和数据类型的分布来看,足够大的数据集可以提供新闻背景与故事设定,辅助记者完成叙事。此间,数据可视化工具与手段能够让这种背景得以呈现,帮助读者理解经济报道中体现的经济活动与过程。数据的性质和数量、可视化和互动性也成为经济报道中评估其数据水准的指标。数据可视化、智能化分析、读者与数据的交互乃至读者基于经济报道对数据的解读,都为经济报道价值提供了新的增长点。
研究发现,数据的不同呈现方式对于新闻报道叙事能力、可信度以及用户体验具有不同的影响。信息内容的特征,如统计信息和数据可视化、交互性的不同呈现格式会影响读者对信息可信度判断及其阅读体验。在读图时代,可以谨慎地推论,交互性更强、图形化处理更人性化、读者自主操控功能更多的数据呈现,即便是对于专业化的读者群体而言,也能够获得比单一文本与静态图表呈现更好的用户体验,并且给用户提供更多自主进行价值发现的空间。
二、经济报道中的“另类数据”与新工具
随着对“数据”认知的发展,我们已经意识到,一切有根据的“数字”,均可称为“数据”,其产生的来源包括对外部世界与环境的测量,对人类活动的记录,基于已有数据进行的计算等过程。以当前的时间节点观之,“数据”的范围可以扩展到一切保存在数字化系统中的信息。而经济报道对数据进行加工,得出有用的信息,形成对经济活动的新知识,就形成了“数据-信息-知识”的价值发现链条。
在大数据的应用中,一类新鲜的数据——“另类数据”(A lter nat ive Data)——进入了人们的视野,进一步激活了基于数据的价值发现与想象。
(一)“另类数据”的概念、类别与案例
狭义上讲,“另类数据”的概念源于投资领域,一般认为其是不同于传统交易所或公司公告披露的新数据,可以为投资者进行投资决策提供有价值的信息,比如个人的消费信息,地区的天气状况等。广义上讲,“另类数据”之于传统数据可类比于新媒体之于传统媒体,是一个相对的概念。网络舆情数据刚出现时,相对于传统基于问卷的舆情数据就是一种“另类数据”;又如,移动支付数据相对于银行卡交易数据,亦是一种“另类数据”。总体而言,“另类数据”是典型的大数据。本文所讨论的大数据的特征,同样适用于“另类数据”。
□ 2021中国国际大数据产业博览会现场。(新华社记者 欧东衢/摄)
根据国外“另类数据”平台alternativedata.org的分类,“另类数据”包括:应用程序使用数据、电子邮件/消费者数据、社交/情感、网络数据、网络流量、公共数据、调查数据、销售数据、信用卡/借记卡数据、地理数据、卫星数据、天气数据等。其来源可大致分为源于个体用户、商业和公共活动以及传感器等设备。
“另类数据”的出现与应用具有一定的契机。首先,随着人类行为数据化进程的不断深入,各种经济活动均有可能被记录,从而形成多样的数据。其次,针对海量多源异构数据的处理,无论是从算力还是存储方面,已有的大数据实践均已为此做好了准备。从计算的角度,数据挖掘、深度学习、人工智能等算法的不断升级,分布式云计算的技术框架,提供了处理、认识与理解“另类数据”的入口;从存储和处理的角度,数据中心、分布式存储、超级计算机,则从底层保证了“另类数据”的可得性。
“另类数据”的价值挖掘,特别是其与经济活动的关系,可以从一些案例管窥之,例如基于“另类数据”的股价预测。2018年10月因为第三季度财报远超华尔街预期,特斯拉股价上涨近10%。而在此之前,“另类数据”公司Thasos已经通过信息优势提前预判并布局二级市场。他们监测了特斯拉美国加州工厂一定范围之内发出的手机信号,发现当年6至10月,特斯拉工厂夜班工作时间增加了30%,并据此判断出特斯拉的订单及产量的上升趋势。
(二)数据市场与数据交易
在大数据背景下,以数据驱动的智能算法在各领域均取得了不俗的成绩。诸多机构与实体均希望通过外部数据来扩充自己的内部数据集,以大数据为原料打造人工智能算法,以人工智能算法推动决策。基于这一需求,定制化的数据获取成为数据消费者面临的一大难题,而数据市场的出现恰可解决这一刚性需求。
数据市场是一种有效的数据共享机制,可以有效地连通数据供应者与数据消费者,降低数据流通的成本,激活以数据为商品的新经济生态。现有的数据市场依照共享方式可分为内源性数据市场和外源性数据市场。在一个外源性数据市场中,数据消费者向数据平台描述自己的需求及预算,依据数据消费者的定制化需求,数据市场的仲裁者在特定规则下融合多方数据提供给数据消费者,并将所得的报酬按照各数据供应者的贡献大小公平分配。在一个内源性数据市场中,各成员以平台设计的奖励机制为驱动进行数据共享,以安全的方式分享数据,从而最大化数据价值并获取经济回报。在这些机制的实现过程中,如何根据市场供需关系找到定价均衡点或设计安全可信的交互式定价机制(拍卖、竞标等)是促成数据交易的关键。同时,依据数据融合规则与各方对下游任务的贡献分配收益亦是运作数据市场的一大核心问题。
数据市场中的数据供应者具有显著的多样性。例如亚马逊等大型互联网公司都可以提供定制化的众包服务。数据需求者可将所需要的数据拆分成若干个形式相近的基本任务,众包服务平台依据标注者回答的任务数量分配奖励。数据供应者亦可以是已经持有了某些用户数据的商业公司,数据供应者可在保证用户隐私的前提下有偿地向数据消费者按批次提供数据。数据市场中的数据消费者也各不相同。商业公司需要大量的样本数据供机器学习模型训练使用,如百度识图等人工智能应用便是基于大量人工标注的训练数据所得。除商业公司外,人工智能算法赋能的法律、医疗、新闻传媒等专门领域同样需要采集大规模数据以支持决策。
在经济新闻的报道中,对于各经济现象与趋势的预测和分析往往需要多维度和全面的数据支持。由于真实世界的经济活动与过程是一个复杂系统,系统中每一个变量都可能与其他若干个维度的数据具有关联性,因此对宏观经济深入而全面的理解需涉及多维度变量的联合分析,在实践中面临各种挑战。而这些多维数据并不完全公开或由单一实体持有,因此,专业而全面的经济类新闻报道往往需要进行定制化的数据采集。在未来,我们期待经济类新闻可以从数据市场的建立与发展中受益,为读者创作出基于大数据、“另类数据”的智能新闻。
在实践层面,从数据提供商、投入的资本与人力、所涉及与服务的行业来看,全球的“另类数据”市场正在经历爆发式增长(参见图1)。而我国互联网产业飞速发展、用户群体基数大,存在更多的“另类数据”使用与价值挖掘机会。
(三)“另类数据”的价值挖掘:知识图谱与机器学习
知识图谱(Knowledge Graph)是大数据与人工智能时代一种规范的知识表达形式。其形式上表现为一个大规模的语义网络。与传统的图数据类似,知识图谱的表达由“节点(vertex)”和“边(edge)”两种基本元素组成。点主要包含“实体(entity)”“概念(concept)”与“值(value)”三种类型。实体又称“对象(object)”或“实例(instance)”,哲学与计算机科学领域长期以来都并未能给出关于实体的精准定义。一般而言,认为某一个在物理世界中真实存在的独立个体为一个实体。概念又称“类别(type)”或“类(class)”,其准确定义在实践中略有差异,一般指代某一类相似实体的集合,且每一个实体具有若干项属性值。知识图谱中,节点之间通过边连接在一起,边分为属性(property)和关系(relation)两类。实体与值通过属性边连接,实体与实体通过关系边连接。例如,“淘宝”和“京东”是两个实体,它们都属于“电商平台”这一概念下,“淘宝”这一实体具有“成立时间(2003年5月)”“总部地址(浙江杭州)”等属性值。
由于知识图谱的结构规范、质量精良、语义丰富且规模巨大等特点,在经济类新闻报道中,知识图谱可以辅助新闻媒体进行决策分析、知识推理与经济理论的解释分析等。现有的可支持中文经济类新闻报道的知识图谱包括百度知心等通用知识图谱与FR2KG等细分领域知识图谱。例如,基于知识图谱寻找与某个新兴产业发展相似的已有产业,并通过既有经验预测该新兴产业的表现与趋势。
另一方面,大规模“另类数据”集合的出现,使得机器学习得以从前所未有的维度发掘现实经济活动中隐含的模式、规律与关联。机器学习是人工智能的一个分支,涉及多领域学科知识,既包括概率论、统计学等数理知识,也包括语言学、图形图像等领域知识,研究计算机如何模拟人类的学习过程获取新知识。大数据背景下,机器学习往深层次数据分析与智能分析的方向继续推进,其应用也进一步支持我们认知和理解经济活动。例如,一项基于新闻图片理解投资者情绪的研究将机器学习应用于基于情绪的大量新闻图片分类,形成投资者悲观情绪指数,用于预测市场回报逆转和交易量。针对套利限制较高的股票以及恐惧情绪高涨的时期,该指数均可较好地预测。同时,基于照片的悲观情绪预测与基于新闻文本的悲观情绪预测具有替代性,形成了理解投资者情绪的“另类数据”。
三、经济报道中“另类数据”使用的前景与风险
经济新闻的数据依赖形成了其特有的叙事框架。但是,在经济报道的过程中,仍然需要平衡经济专业理论、数据资源、新闻事实以及报道主体之间的关系。换言之,在一定的经济专业理论与概念基础上,精心选择数据分析、处理与呈现的工具,基于各类行业指标、指数、排名等数据客观真实有效地报道经济活动与过程,方可提供更优质的经济新闻作品。
(一)“另类数据”的机遇
基于数据的经济报道要求更高的客观性、条理性与分析论证,以及快速获取信息并且清楚明确地提供价值。随着信息基础设施的迭代升级、数据采集工具的泛在化、数据种类的多样与异构化、数据分析与理解的深层化与智能化,突破既有想象的“另类数据”对于理解和认知经济活动与过程拓展了新的思路与可能。AlternativeData公司曾预计“另类数据”市场的年投入规模将到3.5亿美元左右,“另类数据”必将大有可为。通过直连或在数据市场采购“另类数据”,基于大规模知识图谱与机器学习算法,将会形成更多维度、更多视角的联合数据认知,用于生成不同视角和不同深度的经济报道。
(二)唯数据、唯技术论的风险
在经济报道中对数据的使用也需要警惕“数据主义”等唯技术论的陷阱。一方面,确实需要重视数据的丰富性与数据的新闻价值,并及时采纳新的计算与分析工具。另一方面,仍需强调数据工具(知识图谱、深度学习、可视化)是手段而不是目的。数据的呈现是为了更好地叙事,关联规则的挖掘也需要在逻辑与因果框架的指导下进行运用,提高可解释性,避免本末倒置。
(三)回到人的主体
在“另类数据”的支持下,经济新闻记者透过数据发现新闻价值,并利用数据技术提高经济新闻的可读性、准确性、交互性,这对记者的综合素质提出了更高的要求。需要同时具备新闻专业能力、一定的经济学理论基础以及数据敏感度与分析处理能力。一项实证研究分析记者如何看待不同经济专家的可信度,论证了经济专业知识在新闻实践和公共生活中的必要性。另一方面,数据的获取、分析与处理能力也需要进行足够的培养。因此专门的培训以及邀请专家与专业人士合作可以在一定程度上满足基于数据的经济新闻报道需求。
[1]Angel Arrese.“In the Beginning Were the Data”[EB/OL].Economic Journalism as/and Data Journalism,Journalism Studies,23:4,487-505,DOI:10.1080/1461670X.2022.2032803
[2]Edson C.Tandoc Jr.&Soo-Kwang Oh(2017).Smal l Departures,Big Continuities?[EB/OL].Journalism Studies,18:8,997-1015,DOI:10.1080/1461670X.2015.1104260
[3]ElenaLink,JakobHenke&WiebkeMhring[EB/OL].Credibility and Enjoyment through Data?Effects of Statistical Information and Data Visualizations on Message Credibility and Reading Experience,Journalism Studies,22:5,575-594,DOI:10.1 080/1461670X.2021.1889398
[4]https://www.mturk.com/
[5]https://g9.baidu.com/s?word=百度识图.
[6]Apictureis worth a thousand words:Measuring investors entiment by combining machine learning and photos from news.
[7]Timo Harjuniemi[EB/OL].The“Hierarchy of Credibility”among Economic Experts:Journalists' Perceptions of Experts with Varying Institutional Affiliations,Journalism Practice,DOI:10.1080/17512786.2021.1910985.