乔总:您好!
前些日子你我的共同朋友潘总,推荐您来聊聊将ChatGPT应用于量化投资的合作。在与您及您的团队进行了超过2个多小时的沟通后,恕我直言,不客气地说,感觉您的团队对人工智能技术几乎是空白。为了让您的团队对人工智能技术有一个更真实的了解,而不是“人云亦云”,特意将一些人工智能的真实信息写成技术型文章,作为对您的回复。作为普通的科学工作者和一个纯粹的程序员,历来说话直来直去,其中有冒昧之处请谅解。
本文中的很多内容仅仅是扼要介绍,如需详情,再叙。
一、真实的人工智能
1.1 人工智能的派别与简史
人工智能技术发展了几十年,实际上至今(2023年)从未取得突破性的进展,其根本原因是计算机器的“存算不均衡”。目前的计算机技术过渡依赖于“算”,而导致无法获得实质性突破。笔者对于“存算均衡”有过人的思考与想法,以后有机会再叙。本文主要关注于如何将人工智能技术应用于“量化投资”领域,并力求取得实际效果。
人工智能技术分为“逻辑派”与“经验派”。这两个派别自AI诞生起,就存在。专家系统是典型的逻辑派。ChatGPT是典型的经验派。逻辑派认为人类智能主要体现于知识与逻辑推理,因而期望构造严格的规则与逻辑关系来重现人类的智能。经验派则基于数据统计,认为人类的智能主要是训练出来的,只要有足够的数据,训练即可重现人类的智能。在ChatGPT等诞生之前的很多年,就已经出现过不少经验派的产品,但大多波澜不惊。
以美国IBM为首的逻辑派,长时间在医疗领域进行艰苦的尝试,最终以失败告一个段落(不是告终)。以互联网企业为主的经验派,在天生的大数据环境下,自然而然地进行了经验派的新尝试,创造出了轰动一时的ChatGPT这样的大玩具,是“大力出奇迹”的典型代表。
经验派的产品,基于统计学原理,在声、光(图片、照片、视频)、电等确定性物理数据范围内,是可以取得不错的应用效果的。但在基于文化、知识、情感等等非统计学范畴,甚至人自身都无法良好管控的领域,是无法取得实质性进步的。ChatGPT对于预测更是毫无价值。
经验派之所以短暂的成功在于其充分利用了唾手可得的大数据,而经验派目前之所以无法再前进一步也是有因为囹圄于大数据。ChatGPT已经走入死胡同了。
1.2 飞蛾扑火
国内的大模型无非更是在浪费资金与时间,因为:(1)算法就那么一个;无论怎么改进,无非是装修工程;(2)数据集也都差不多。无非是互联网数据(国内+国外)。
最要命的是,做过大数据的人都知道,互联网数据的质量实际上极其低下,千万分之一的数据可能才是有价值的,其他都是凑数而已。100T的数据,经过清洗,真正有用的不过GB级别。有些大模型号称是自有数据,比如医疗。然而,事实是,这些数据不是完整的“数据链”,没有证据也没有技术手段保证这些数据的可信。总之,就是一个“凑数”。没有好的数据,谈何训练?谈何推理?
飞蛾扑火一般地投入ChatGPT热潮的无非是机会主义者。
马上2024年了,现在还在跟风ChatGPT者,智商和前途都堪忧。
1.3 杞人忧天
参加过几次的人工智能会议,有不少学者(一般都不是数学、计算机方面的),唾沫横飞地谈论AI的风险、伦理等等。这个就是古人“杞人忧天”的重现。在ChatGPT等等的智能都达不到受精卵的程度,没有什么可以担心的。而且,事实是,这样的担心,在AI历史上,被假学者们炒作无数次了。
炒作风险与伦理者,无非是蹭热度写文章谋取不当之名利而已。
1.4 未来属于逻辑派
逻辑派是人工智能的唯一希望。
当然不是目前意义的专家系统级别的逻辑产品。以经验派产品为工具,对数据进行清洗与标注,提高知识到规则的自动转换效率是逻辑派未来的主要发展思路。
您是量化投资的翘楚,咱们就以量化投资为例,来简单描绘未来的人工智能系统在量化投资领域的应用前景和实现途径。
咱们先叙述几个事实:
(1)统计学是基于过去的数据;是过去式;是预测未来的基础;是辅助,不是核心;
(2)投资策略是人的智能;是日积月累的真智能;是预测未来的核心内容;
(3)但一个人的智能有限,如何快速、方便地集成团队成员的智能是主要挑战;
(4)投资策略不是万能的,精确无误的推理反而是不能的;基于模糊逻辑的推理是其中的内核;
可见,如果咱们能够获得国家、行业、企业的大量历史数据,进行基于统计学、NLP的数据清洗与预分析,结合数据与团队智能,就可以进行良好的投资策略计算。
二、量化投资的大数据与大数据应用
2.1 数据来源
量化投资依赖于各种各样的大数据。包括但不限于:
2.1.1 宏观数据
(1)全球及主要经济体 经济(总)数据;
(2)全球及主要经济体 金融市场数据;
(3)全球及主要经济体 大宗交易数据;
(4)全球及主要经济体 能源/交通——数据;
(5)全球及主要经济体 生产力数据;
(6)相关舆情数据;
2.1.2 实时数据
(1)金融市场数据;
(2)大宗交易数据;
(3)其他数据;
2.2 数据加工
各分系统获得的数据,无法直接用于决策与投资策略的计算;必须经过各种方式与算法的清洗与分析。
2.2.1 数据清洗
(1)金融数据 清洗;
(2)工业数据 清洗;
(3)舆情数据 清洗;
2.2.2 数据分析
(1)主资金 流向分析;
(2)模型 提取与分析;
(3)金融大模型 训练;
(4)工业大模型 训练;
(5)投资规则 人机互补库;
三、量化投资与人工智能
量化投资的人工智能应用主要有:
(1)投资策略 智能推理;
(2)长期投资 辅助决策;
(3)短期投资 辅助决策;
(4)实时投资 辅助决策
四、量化投资AI系统的集群架构
4.1 团队架构
人工智能项目中,人的智能比人工智能(算法)要重要千万倍,因此请务必在人员架构方面舍得投资。
量化投资AI系统的核心成员有:
(1)有经验的量化投资顾问或实操专家;
(2)指定投资策略数据分析、标注的专家;
(3)基于逻辑推理的人工智能系统专家;
(4)大数据清洗专家;
4.2 系统架构
量化投资AI系统的核心包括大数据系统与AI系统。
大数据系统需要按集群设计,获取与清洗是重头;基于逻辑与推理的AI系统,无需大数据的训练,负担较轻;实时投资系统对网络与系统性能要求极高,另外给您提供资料。
系统架构的示意图在文章开头,可供参考。
4.3 系统预算
数据获取、清洗需要较多的服务器与网络带宽;其他的费用不算太多。
一般而言,这样的系统固定资产投资额在 5000-10000 万之间,每年的费用在1000万左右。
以上价格非常宽泛,仅供参考。
联高软件
2023.12