大数据分析在国际石油贸易领域的应用现状与发展趋势
2018-07-18郑兴扬张彤刘昊伟
郑兴扬张 彤刘昊伟
1.中国石油国际事业公司;2.中国石油勘探开发研究院
1 “互联网+”推进传统油气行业融合 创新
2016年年初,随着谷歌公司旗下的人工智能程序“阿尔法狗”横空出世,在不到1年的时间内所向披靡横扫世界围棋界,人工智能、深度学习、大数据、云计算等迅速成为大众耳熟能详的热门词汇[1]。随着我国经济发展进入新常态,经济增长的驱动力正在发生深刻变革,互联网日益成为创新驱动发展的先导力量,人工智能、大数据、云计算的热潮已经或正在改变众多行业的游戏规则、企业的经营生态,以及大众生活的方方面面。
近年来石油石化行业经历了国际油价低位震荡、传统业务增长模式饱和、环保压力加大及新能源替代等多重挑战[2],利用互联网技术和互联网思维培育新的竞争优势和发展动能,应成为该行业转型升级的重要途径[3]。未来,大数据将和地下资源一样,成为石油石化企业“掘金”的富矿。谁有能力挖掘和分析大数据中蕴含的业务机会,洞察客户需求变化,建立起基于大数据分析的市场交易和避险能力,谁就将会抢占产业竞争优势地位的先机。这里笔者将对大数据及人工智能技术在国际石油贸易领域的应用现状及发展趋势进行一些介绍。
2 国际石油贸易领域信息化应用现状及 技术发展趋势
2.1 国际石油贸易领域信息技术应用的3个阶段
由于国际石油贸易具有经营风险大、资金密集度高、经营环节复杂、期货和实货两个市场协同运作、对市场和经营数据的时效性和准确度要求极高等特点,超出了其他传统行业对信息处理的要求,使得高效集成的信息化平台成为业内企业关乎生死存亡的“刚需”,加之企业普遍资金实力较为雄厚,促使企业一直以来都是信息技术企业级应用的先驱,也是最积极的开发者和使用者。历史上,国际石油贸易领域对信息技术的应用大致可分为如下3个阶段。
2.1.1 第一阶段:桌面客户端程序+中央数据库的传 统数据库时代
国际石油贸易行业的ERP系统被称为ETRM系统[4](Energy Trading and Risk Management)。早在 20 世纪90年代初,当ERP系统对于大多数中国企业还仅仅是个模糊的概念时,国际石油贸易领域的先驱企业便已为业务发展需要,踏上了企业级应用的研发之路。1992年,花旗银行使用 Visual Basi+SQL Server架构开发了业内首个ETRM系统,随后近30年,业内企业普遍采用类似的桌面客户端程序+中央数据库架构,或外购或自主研发步入了信息化时代。
2.1.2 第二阶段:网页版客户端+分布式数据库时代
2008年金融危机使得国际油价从黄金10年的牛市高峰迅速跌落,企业的盈利能力和传统经营方式遭受挑战,国际石油贸易领域的盈利模式和交易方式日趋复杂,企业内部也有了进一步挖潜增效的要求。传统的ETRM由于效率低下已无法满足企业需求,恰逢信息技术获得长足发展,网页版客户端+分布式数据库成为企业更为青睐的架构。
2.1.3 第三阶段:人工智能+大数据+物联网的“互 联网+”时代
2014—2016年期间,国际油价再次从100美元/bbl以上跌落低谷,与此同时“阿尔法狗”开创的人工智能时代震撼世人,互联网企业呈几何级数增长,促使业内意识到面对风云变幻的市场,亟须通过更高的技术手段来提高风险控制和预警体系能力,提前掌握风险动态,应用大数据和人工智能技术实现风险资产的实时全量监控,提高交易能力,提升交易信息的搜集、清洗和分析能力,以捕捉潜在的套利机会和新的业务增长点。
2.2 国际石油贸易领域信息化应用现状
国际石油贸易领域的信息化应用一直以来存在两条主线:一条是ETRM主线,以收集整合管理内部数据为主,旨在提升企业内部执行效率、提升风控预警能力。这条路线国际石油贸易领域的企业介入较早,已形成诸多成功案例。比较成功的有维多公司(Vitol,全球四大大宗商品贸易公司之一)自主开发的Vista ETRM系统,维多公司凭借该系统提供的强大信息共享和整合能力,在石油国际贸易市场叱咤风云数十载,几乎从无败绩[5]。另一方面投资银行在油价黄金十年期间深度介入石油的期货、期权、场外掉期等衍生品交易,也拥有市面上最好的ETRM系统,其中的佼佼者当属JPMORGAN(摩根大通银行)自主开发的Athena(雅典娜)系统,JPMORGAN凭借Athena系统强大的风控能力,成功躲过2008年金融海啸的侵袭,成为当时为数不多逆势盈利的大型投资银行之一。
另一条主线是近年来兴起的人工智能交易主线。自动交易已经在全球金融市场上广泛应用,最近5年里,逐渐有些公司将人工智能技术应用到模型运算中,通过模型的自主学习,开始进行带有人工智能算法的自动交易[6]。自动交易最主要应用在股票市场和外汇市场,大部分公司能有较为不错的市场回报。最近几年一些基金公司和投行将自动交易引用到证券和信用领域,但是到目前为止没有能够得到稳定的收益。能源市场应用自动交易的基金并不是很多,主要是由于能源市场产品是有时间结构的,基本面的变化会对价格结构产生影响,模型的套利应用实践效果不佳,仅有个别银行依然利用自动交易在流动性好的能源市场进行交易,能源公司由于监管和模型盈利不稳定等因素,基本不参与自动交易领域[7]。
通过调研,我们发现市场上人工智能应用还处于比较低级的阶段,大部分公司依然采用量化交易作为基础进行交易,尽管其广告或者网站中描述了很多高大上的技术,但一般只是噱头,吸引投资者,实际交易模型比较简单,以量化模型为主。部分公司在模型上采用了一些人工智能技术,也主要是简单的统计套利和数学模型挖掘,更为深层的深度学习和神经网络人工智能技术各个公司依然处在研发阶段[8]。据了解,很多银行在神经网络人工智能研发过程中遇到的最大问题是模型解释。与简单模型比较,通过复杂神经网络人工智能进行交易后,无法解释为什么盈利和亏损,很难得到公司和监管机构的认可。
2.3 国际石油贸易领域信息化应用的发展趋势
如前文所述,国际石油贸易领域一直以来都是信息技术企业级应用的先驱,业内企业基本均已建立起较为成熟的ETRM系统,形成并积累了大量质量较好的基础数据,在数据收集的时效性和准确性方面打下了良好基础。根据IBM数据治理成熟度评估模型的评估标准,业内普遍已跨越了初始阶段和基本阶段,处于主动管理阶段或量化管理阶段初期[9]。
基于既往的基础,加之人工智能和大数据技术的突破性发展,国际石油贸易领域的企业开始尝试进入“人工智能+大数据+物联网的互联网+”的第三阶段。与前两个阶段相比,该阶段有3个新诉求:第一个诉求是不满足于对现有内部已有经营管理数据的简单处理和共享,希望通过更深入的数据挖掘及整合,继续提高内部的执行效率和风控预警能力;第二个诉求是希望改变以往对外部数据的碎片化获取和共享方式,尤其是对不可量化的外部信息(突发事件、新闻报道、大众舆情等)深度挖掘和整合,应用人工智能算法帮助企业进行经营决策的优化;第三个诉求是希望通过挖掘和整合内外部信息,通过人工智能算法为一线交易员提供交易辅助决策,甚至更进一步,开发人工智能交易模型,在市场上斩获更多利润。
3 石油贸易领域人工智能平台建设与典 型应用场景
3.1 大数据分析技术的应用背景
国内石油贸易企业通过持续不断的引进与开发业务和财务信息系统,形成了大量系统管理的内部数据,数据质量较高,为进一步经营管理分析打下了良好的数据基础,目前外部数据尚未通过平台进行统一管理,较为分散。
内部数据方面,已普遍通过信息系统实现业务执行层面的数据管理,但在数据分析层面仍然存在一些问题:(1)手工数据收集整理、报表编制工作量较大,占用了分析人员大量的工作时间;(2)数据颗粒度较粗,即风控部门、财务部门获得的数据经过汇总合并后,汇总合并前的基础明细数据无法获得;(3)不同部门对同一名称的指标在理解上和统计口径上存在歧义,指标统计口径不一致。
外部数据则面临着如下问题:(1)数据来源众多,缺乏权威数据源的清晰定义;(2)数据管理分散,基本面数据多分散存储,技术面数据多通过第三方行情软件实时查看,缺乏统一的数据管理平台;(3)数据积累少,基本面与技术面数据均未形成长期有效积累机制,数据完整性及精准度难于控制;(4)数据获取难,商情数据多通过信息提供商终端、Excel插件及邮件传输的报告进行获取,数据获取的时效性和自动性难以保障。
因此,汇聚所有数据来源,通过大数据分析技术建立机器学习、人工智能模型,深入挖掘数据价值成为业内企业迫在眉睫的需求。
3.2 石油贸易人工智能平台的典型应用场景
经过深入调研,针对业务运作中的痛点及难点问题,国内石油贸易智能化建设方案中调整并确立了大数据分析技术的4个典型应用场景,即:基于人工智能平台的辅助交易决策平台、大数据信用风险评估及预警平台、标准化报告智能分析、合同解析。
3.2.1 基于人工智能平台的辅助交易决策平台
此应用场景平台由数据处理模块、交易策略模块、风险管理及绩效考核模块3个子模块构成(图1)。
图1 基于人工智能的辅助交易决策平台示意图
(1)数据处理模块。采用Hadoop/Spark的大数据分析技术实现外部数据的收集、处理、深度挖掘分析,并和结构化数据统一整合、集中展示[10]。自动收集并整理的数据包括:大宗商品及外汇供需关系的数据,金融市场实时数据,公司收到的研究报告,宏观经济数据及其他对市场有影响的政策,影响区域性市场的政治事件、重大新闻、天气,网上舆情数据等。模块中的技术难点是对非结构化数据的处理及分析,例如分析重大突发事件对油价的影响。为此基于大数据,通过建立人工智能模型,对历史类似突发事件进行全面拟合,最终对市场未来走势计算出概率,进而辅助交易决策。
(2)交易策略模块。通过设计开发向导式的策略生成器,便于交易员迅速开发并回测交易策略。基于数据处理模块中的大数据平台及人工智能模型,为交易策略提供由非结构化的内外部数据(政治事件、重大新闻、天气等)所生成的影响因子(人工智能模型计算出的概率)指标。
(3)风险管理及绩效考核模块。风险管理方面设计了包括风控报告(实现每日风险报告及各维度管理信息报告)和量化风险管理(VaR值计算和压力测试计算)的综合性统计分析报表,并开发了可按照公司管理架构,计算业务盘位及盈亏(逐级穿透至交易层面),支持实时盘位显示和远期计价分析。绩效考核方面,除了传统的收益波动分析和净值回撤管理外,还包括了风险分解、交易风格分析、业绩评价及归因分析等内容[11](图2)。
3.2.2 大数据信用风险评估及预警平台
国际石油贸易领域的大型公司通常拥有数以千计的客户群体,动态客户跟踪和预警工作量巨大。目前业内通行的信用管理模式是总部和地区公司两级客户信用人员的不定期走访客户,一年进行一次梳理和重审,客户信用管理人员平时通过订阅的客户信息报告及搜索客户相关新闻等方式,了解客户资信变化情况,这显然是相当被动和低效的管理模式。
应基于大数据分析和预警,对行业趋势进行分析和判断,再结合公司与客户间的交易数据、客户财务数据,以及客户经理反馈的信息,对客户进行全面跟踪,动态分析客户资质变化情况,才能提前预警问题发生,降低重大事件的反应时间。
大数据信用风险评估及预警平台的设计架构包括数据获取及预处理、客户全息视图、风险监测及评估、风险预警及管理、模型及指标管理。与以往的信用风险评估体系相比,该平台在技术实现方案上有3点创新:
(1)对于外部非结构化数据(互联网舆情)的数据分析。首先采用爬虫工具和API接口全面收集网络舆情、机构数据和各类专业评级报告,使用NLP语义识别技术将非结构化数据转换为结构化数据[12],再将生成的结构化数据进行字典训练,形成预警数据仓库。
(2)信用风险模型建模[13]。充分开展大数据梳理和挖掘,在风险评估及预警模型中引入多元化风险因素,丰富风险识别点,提升模型表现。将风险指标分为系统性指标和非系统指标两类,系统性指标包括宏观信息和中观信息,非系统指标包括财务异常、经营异常、征信异常、行为异常、司法异常等。
(3)增加企业关联关系图谱[14],提升模型敏感度。国际石油贸易领域企业交叉持股、合资公司、子母公司、总分公司的情况非常多,核心企业的财务数据和定性信息是信用风险的主要关注范畴,关联企业或个人的信用状况会在很大程度上影响该主体的信用风险,因此创建企业关联图谱,在评级体系中纳入所识别的关联关系将有效提升评级模型的敏感度。
图2 风险管理及绩效考核模块示意图
3.2.3 标准化报告智能分析
针对中短期的交易类型,交易员多通过报告信息从宏观整体的层面了解当前市场消息及观点,借助于大数据技术手段自动收集、统一管理及展示报告内容,并通过人工智能技术对报告信息进行解读,对市场热点、趋势、风险进行快速评估分析及预警,对业务经营具有重大意义。
标准化报告智能分析的设计架构见图3。模块功能实现思路为:(1)收集报告非结构化数据以及和报告数据关联度较高的结构化数据,部分非结构化的文本数据被加载到专门的人工注释中,用于模型注释器的培训;(2)模型注释器先由领域专家手工标注少部分语料,生成模型,再由模型进行新文本的自动标注,再由人工评估并修正模型标注结果,进一步训练改进模型,提高性能;(3)训练有素的模型注释器被部署到数据处理平台用于文本信息提取,从非结构化数据中提取信息,并构建到知识图谱中[15];(4)在知识图谱中完成知识推理,输出的结构化数据形成培训数据,并在模型实验室中加载,用于机器学习模型训练。
3.2.4 合同解析
国际大型石油贸易公司每年签署的实货贸易合同均数以万计。国内各公司当前合同审核的标准模式为业务部录入合同后,进行合同会签审核,在审核过程中法务部负责合同进行整体审核,各部门审核与其相关的部分。该操作中面临一些难点,如审核检查需要手工比对,占用大量时间;且因审核人员业务能力不同,质量难于把控;合同审核风险难于追踪记录及统计分析等。
因此,为了加快合同审核速度,统一提高全系统合同审核水平,提升对合同的整体风险分析及把控能力,合同解析模块功能通过如下路径实现:(1)选取不同合同类型的样本合同,将其非结构化数据部分通过文字识别和自然语言分析技术进行预处理,再以此数据为基础建立合同标准库模型,通过模型自学习对模型进行训练;(2)当有新的合同审核需求时,标准库模型将从文档级别、子句级别进行语义比较[17],对于重点条款进行详细比较和差异检测;(3)自动初检后的合同交人工复检,同时由人工提供反馈,以对模型进行持续不断的深度训练。
图3 标准化报告智能分析系统架构设计
4 结束语
石油石化产业与互联网的“联姻”将从产业链的各个环节,挖掘出互联网技术“1+1﹥2”的乘数效应。从企业外部来看,两者的结合将极大地促进能源供应和消费的互动,更精准地对接市场需求,从而提高供给质量和效率。业内企业如能利用大数据技术完成海量消费数据的采集、筛选、分析和挖掘,最终实现数据驱动的精准能源供给,将能更好地满足用户个性化的用能需求,增强客户信任度和忠诚度。从企业内部看,大数据分析技术的应用将有助于企业提高工作效率,节约运营成本,更充分地整合和利用资源。有理由相信,传统能源行业在“互联网+”的助力下,将会促进行业转型,实现改革、开拓、创新的发展新局面。