中国财富管理市场非常巨大,2021年就已经接近于135万亿人民币的庞大规模,预期2025年会达到170万亿,且现在整个A股市场上40%的成交量是程序化交易。尽管程序化交易不一定是通过量化来实现,主观交易也可以采用这种技术,但这一数据侧面反映出通过机器来做交易的比例。美国市场的程序化交易量占大约是80%,也就是说中国现在的比例差不多是美国的一半,仍可能有巨大增长空间。
量化投资在中国至少发展了十余年。特别是最近几年,越来越多的投资机构宣告采用了人工智能(AI)的技术。经历了三代的快速迭代和发展,量化投资在AI技术的加持下,目前正处在人工智能技术应用的新风口上。
粤港澳大湾区数字经济研究院(IDEA)执行院长、AI金融与深度学习首席科学家郭健博士在论坛上,解析了以下一代AI技术驱动的量化投资新范式Quant4.0,提出了当下量化投资面临的技术问题,并通过对IDEA研究院在这一新型交叉领域研发的成果介绍,展望了行业发展的新机遇和新挑战。
三代量化投资范式快速迭代
严格上来讲,量化投资的诞生要从第一篇数学论文应用到金融领域的研究算起,距今已经有差不多100年的历史。而量化投资真正成型大概是从20世纪50年代哈里·马科维茨发表资本资产定价模型(CAPM)理论之后,套利性交易、超额收益等各种新型的投资策略涌现。整个过程中,有超过12位诺贝尔经济学奖的获得者做出了非常卓越的贡献,包括最近几年越来越火的深度学习、因果推理中,也有多位的图灵奖的获得者的身影,为这个领域注入了诸多的活力。
随着技术的发展,量化投资产业快速发展,整个产业的形态也在快速进化。郭健将最早期的量化投资定义为Quant 1.0,它可能是一个哈佛、麻省理工的教授,带着几个学生、小作坊式的就做起来了,是一种精英小作坊式生产。精英公司有一个天然的问题,就是稳定性会比较差,因为它过分依赖个人的天赋。
为了解决这个问题,10余年前,美国出现了一家公司叫World Quant,标志着Quant 2.0时代的到来。这家公司被称作对冲基金行业的富士康,进行工厂流水线式的生产。这家公司在全球雇佣了成千上万人来做所谓的量化策略,然后总部大概有100个基金经理把这些策略融合在一起。它的好处就是告别了精英小作坊式的模式,可以进行快速更替,据说它在过去10年积累了超过1000万个金融信号,对其金融系统的稳定性带来一定的帮助。但很快新的问题出现了,就是边际效用递减,因为不是说人越多投资做得越好。经营上会有一个平衡点,随着雇佣人数增多,加上行业薪资水涨船高,总有一天成本会撑不住。
为了解决这个问题,近年如深度学习等越来越多的新技术应用到了量化投资的领域,特别是日线T 1交易、日内的T 0、或者中高频的交易,这些比较适合深度学习的任务,因为此时已经积累了足够多的样本。Quant 3.0时代由此开启。机器学习可以从大量重复的样本中找到很多历史的规律,并将历史规律应用于未来的预测。
最近三年这一应用效果不错,但是Quant 3.0很快遇到新的问题。问题有三:第一是它的成本依然非常高,相当于是以算力换人力,但算力成本也非常高,第二就是调大模型的人力成本比挖掘因子的人力更贵,所以相当成本转嫁,并没有特别显著的降低成本。而且深度学习是黑盒子,你也说不清楚为什么赚钱,为什么赔钱。第三就是这种模式只适合中频到中高频的交易,但它这类交易的市场容量是很有限的。
因而,包括像价值投资、全球宏观等大规模的资产配置产品如何更好应用AI技术,这是下一代量化投资应该重点考虑的,所以郭健提出了Quant 4.0这个新的概念,并相应做了很多的系统性研究工作。
Quant 4.0:下一代人工智能投资工具
Quant 4.0为了解决前面三个问题,分别对应三个要素:第一是自动化AI,让AI建模本身自动化,取代人工的建模,从而降低成本。第二叫可解释AI,可以让看不见、摸不着的系统,变得对投资人或者背后的LP(有限合伙)来讲是透明的,可靠的,可信的。第三就是面向未来,如何将价值投资,或者像VC、PE等长期投资机构分析的逻辑很好地融合到AI的技术中,而不是简单的机器学习。比如有没有可能说,AI的技术通过学习到大量的世界顶级分析师的分析方法论,使它具备智能?
Quant 4.0第一个要素就是自动化AI。自动化AI本质上要解决一个问题,就是算法生成算法,模型创造模型。传统的量化投资,简而言之就是数据预处理,因子挖掘、建模,然后进行投资组合的优化,再进行交易,实盘拆单、交易执行、产品优化,最后是风险暴露、风险分析。现在要把整个流程实现自动化,这里面有两个关键的环节,一个就是足够快,系统必须得比现有量化系统至少再快两到三个数量级,才能够形成具有实用价值的全流程的自动化。第二个就是说,你挖掘的空间、数据的容量得非常大,以因子挖掘为例,现在除了传统的量价、高频数量外,越来越多的另类数据也被包括进来,像基本面分析,如新闻舆情、公告文本,和公司上下游产业链等等。如何进行快速的预处理,系统如何可以自动的从数据中挖掘出好的金融信号,是Quant 4.0面临的问题。
这一过程本质上也是在模拟人思考,或者人在做量化投资分析的过程。因为研究的英文叫research,拆开就是叫repeat的search,就是反复的搜索,郭健表示其采用的技术也是,用系统、用算力模拟人思考,在一个空间里反复搜索,这样来提升整个量化投研的效率。
一旦有了好的金融信号,通过深度学习或者其他的机器学习模型,合并成可以用以交易的策略,这个过程,郭健表示也进行了大量的自动化优化。人在进行手工建模的时候,大量的调参,大量的数据测试,这些工作不应该由分析师和投研人员来浪费时间,应该把它交给系统,系统在底层自动化地高效地完成。
人的作用是什么?人的作用就是启发这个系统,让它朝着最有价值的方向去进行搜索,然后去进行发现。所以郭健表示,也做了一个AlphaGPT,这里的Alpha是指投资信号的α(超额收益 )。人与大模型、人与AI之间通过互动交流,反复的多轮的思考,快速地构建出所需要的金融信号和金融的模型。
Quant 4.0 另两大特点
Quant 4.0第二个要素就是可解释AI,金融行业尤其需要可解释,不然赚了钱还好说,亏了都搞不清楚怎么赔的。
可解释AI,就是把这个黑盒子打开,打开的本质是什么?郭健表示,要打开的是这些难以解释的技术。如深度学习模型,它可能光参数量就有上亿个甚至几十亿个,这么多的参数是不可能解释的。所谓的可解释,不是说你有一个线性模型就叫可解释,可解释是说模型的性能、预测能力强的前提下,能把可解释的部分来进行解释。
郭健表示,其构建的系统搭建了很多可解释的底层技术,并且把它融入到系统里面,从宏观到微观进行多层面的可解释。比如说对追踪龙头股等可理解的行为特征来进行解释,能对黑盒子模型产生的结果有一个更好的理解,来降低投资的风险。
第三个就是面对更大容量的量化投资,特别是像更长周期的价值投资怎么做?这里面有一个明显的问题就是,价值投资属于低频投资,低频投资什么意思?你持仓可能是一年、两年,甚至更长时间,投资追求的是基本面本身的增长,这会导致没有足够样本。因为价值投资可能两年才会产生一个投资的样本,这就导致深度学习、机器学习没有办法学。
郭健在此提出的理念,就叫数据不够、知识来凑。传统上,机器学习在高频上追求的是数据的深度,所谓的深度就是说同样一个交易行为反复的出现,根据统计学的大数定律,你找出其中的规律,把规律用于其中的预测,这个胜率就会比较可靠。但是,当你没有足够多历史数据,就要通过横向的扩张来拓展数据的宽度,这个宽度就来自于各种类型的非传统的应用数据,包括各种另类数据,包括其构建的大型金融行为的知识图谱。
知识图谱其实就是一张巨大的网络,这些节点就是各种金融的实体,可以是上市公司,与这个公司有关的贷款银行,有业务往来的上下游产业链企业,或者公司背后的股东、公司的法人,或者与公司正在打官司的其他的公司,公司的竞争对手等等,都可以融入到这一张巨大的图谱里。郭健表示,现在已经做出了一个有1.6亿个节点组成的巨大的网络。
实际上,通过把大模型技术与知识图谱技术相融合,让它在一定程度上达到一个初级的金融分析师的思考逻辑,比如说进行行业穿透式的分析。传统大模型像ChatGPT难以做深度思考,所谓的深度思考就是需要一个很长的推理链,来完成对市场的理解,但融合了知识图谱技术之后就可以做到。
知识图谱通过这种大模型,在巨大的网络上来进行推理,一步一步地把结果推出来,形成对未来市场的分析和看法。郭健指出,这个过程要说它推得有多准,目前从技术上还难以保证。至少可以保证的是,它推理过程在逻辑上是自洽的,从而可以形成多条推理链,给金融分析师提供参考,分析师再通过自己对市场真正的理解结合与大模型的互动,优化大模型推理的结果。
不过,现在Quant 4.0还面临诸多挑战。挑战之一就是系统层面的复杂性,整个系统从底层的算力系统,到数据体系、知识图谱、推理引擎及最后应用的层面都比较复杂。郭健表示,如果要融合海量知识,并且对于这些海量知识进行快速推理,这对系统背后的系统低延时性、高并发性、系统吞吐量、系统本身智能化的算法要求是非常高的,这也导致开发的成本比较高。
但是,面向未来体量巨大的价值投资市场,量化交易的投入产出比还是比较划算的。其它一系列的问题还包括基础设施上面临的问题,数据、算法以及建模上的挑战等等。未来最大的一个挑战之一是算力本身的问题,需要通过不断对算力的增持和优化来解决问题。
(文章来源:中国基金报)