金融数据质量决定机器学习时代的投资回报
2019-03-25GerardFrancis
Gerard Francis
数据、机器学习和自然语言处理这三大因素正在相互融合,从根本上改变全球资本市场投资者获取、使用和分析可用信息的方式。
● 在数据更加易于获取、更加多样化但也更缺乏關联的背景下,金融信息正在重塑投资策略
● 机器学习成为引领金融业未来发展的力量,为投资者提供更快、更明智、更精确的市场分析
● 通过即用数据可以实现流程自动化、制定新的交易策略和捕捉投资信号
金融业正在经历前所未见的科技突破,而数据是支撑行业快速转型的基础。如今,决策者可获取的数据无论在数量、复杂程度和多样性方面都呈指数级增长,但这些数据也变得更缺乏关联性。根据IBM统计,当今世界90%数据是在过去两年中生成的。
数据(与另类数据)、机器学习与自然语言处理这三大因素正在相互融合,这一趋势从根本上改变了全球资本市场投资者获取、使用和分析可用信息的方式,也正在重塑投资机构的交易策略以及他们辨别商业信息的方法。
处理数据的挑战——更加多样化但更欠关联性
金融机构的数据池十分庞大但同时很零碎,它不仅仅包括大多数人熟悉的财报、证券价格等基本面数据,还包括业务流程生成的数据(如:商业交易)、机器生成的数据(如:卫星信息)以及非传统来源的数据(如:社交媒体)。
越来越多投资者选择采用另类数据集,借助创新技术专注于发现有用的投资信号以捕捉超额收益。如今,投资者不但要了解证券定价与财务表现,还要分析外部图像、供应链信息、ESG因素乃至社交媒体舆情。
金融业不断产生海量数据,彭博每天收到的市场数据信息多达1千亿条,另外还从12.5万个新闻来源接收200万篇新闻报道。我们通过机器学习算法和自然语言处理打造的预测分析工具,可以快速检阅所有信息,筛选出对投资者最为重要的信息。
今天,市场参与者与金融机构面临的最大挑战是如何识别有用的数据、如何确保收集的数据具有高质量、连贯性、关联性和即用性,以及如何快速分析这些数据从而做出正确的关键决策。
即用数据赋能自动化
数据的爆发性增长仅仅是变革与复杂性的基础驱动力。考虑到所面临任务的艰巨程度,毫不意外地许多金融机构都借助科技将处理流程自动化,以更高效地管理好数据,并借此生成超额收益。
机器学习在这些技术之中快速脱颖而出。自然语言处理和数据采集的进步正在推动电子交易执行平台的交易自动化;多家机构选择借助大数据与机器学习预测客户需求与价格波动。
以买方机构为例,对冲基金与资产管理公司可使用预测分析工具,基于市场流动性评估风险。随着更多的工作流程自动化,专业金融人士将更多的注意力放在注重认知能力的工作上,包括策略和投资组合筛选以及投资理论制定。他们试图通过这样的方式解决金融领域的众多问题,打造更优良的信息系统支持交易和客户沟通工作。
彭博最近在悉尼、新加坡、东京和孟买举行了以“解码机器学习”为主题的研讨会,发现多数专业人士已经开始利用机器学习发现投资信号和因子,优化执行策略以提高交易效率。在上述四个亚太市场当中,日本在将机器学习应用于交易模型方面最为先进,在投资策略中利用的数据也是最为多样化。有鉴于此,我们正在加速投入以发掘机器学习的潜力。
高质量数据在机器学习时代至关重要
15年前,金融信息与数据行业向电子交易转型,随后又发展出了高频交易和算法交易。今天,我们正在步入机器学习与人工智能的信息时代,数据赋能自动化、创新交易策略,并发掘前所未有的洞察。
在机器学习时代,金融数据与信息将更加丰富,而且也更加可测和更具条理。彭博作为领先的金融信息公司,将数据标准化为“整洁格式”(tidy formats),通过提供标准化历史数据使分析变得更加容易,从而提升效率也更便于互相参考。
我们新推出的数据接入平台网站——彭博企业数据接入站点(BEAP)通过便于操作、易于建模和可视化的方式,帮助客户探索大批量数据集并与之互动。最近,我们还向BEAP增加了20多套另类数据集,来源同时包括彭博和市场领先的另类数据提供商,内容涵盖金属存货洞察、股票相关博客情绪、药品审批、消费人流量和停车场数据、建筑许可、地缘政治风险以及APP使用率等。 投资机构希望可以灵活应用这些数据,所以我们正努力做到何时何地都能够递送数据。数据将成为一种服务,而未来的平台会更加轻量化且具有移动性。
机器学习从本质上说是由数据驱动的,投资者应用机器学习可以快速掌握纷繁复杂的关系;从而应对之前因为受制于数据之间的复杂关系、问题的复杂性,以及数据或计算资源的可获得性而无从入手的问题。
科技日益进步的今天,让机器学习发挥更大价值需要高质量、互相关联并可付诸应用的数据。在机器学习时代,能够领悟这一点,并有效执行数据驱动策略的机构将成为最终赢家。
(作者Gerard Francis是彭博企业数据业务全球负责人)