(作者:牟牧云 2016/6/27)
股市具有高度混沌的特性,是一个复杂非线性动力系统。如同其他复杂性系统一样,想要进行长期的预测近乎是不可能的,和天气预报类似。但对于短期的预测却是有可能的,不仅是理论上存在这种可能性,现实中的投资机构在对这种预测做不断地尝试,提高回报率。,在投资领域这是属于量化投资的范畴。
股市投资按照时间长短大致可分为长线,中线,短线投资。做长线投资的一般对应的是价值投资,其中以巴菲特林奇为代表的传统价值投资理念。而近期发展比较火的量化投资则在短线或超短线交易中表现的不错。
正如前面所说,股市是一个非线性复杂系统,可以看作一个复杂网络,这个网络受到非常多的因素所影响,输出的是股票价格的时间序列。之所以说股市是难以预测的,不仅是它受众多因素影响,更重要的是这些因素之间也会相互影响,互为因果,正如三体问题一样,即使知道了各个初始条件和作用规律也没法进行长期预测(初始条件的一点点误差便会导致结果的巨大差异),这也是股市的混沌特性。因此长期预测在理论上就被否决了。但长期预测不可行不代表短期也不行,这也是混沌系统的有趣之处,(虽然天气预报的准确性经常被吐槽,但短期内的预测还是较为准确的)
虽然对于股市影响因素的这个网络影响因素有很多,但是他们的分布并不是均匀分布的,或者说他们的重要性并不是均等的,这一点不难理解。比如天气因素对股票价格的影响可能比不上政府新公布的一道政策(顺便吐槽一下,在中国尤其这样)。值得注意的是,这种信息(影响因素)的不均匀对于预测是十分重要的,影响股票的因素有很多,我们不可能把他们都提取出来进行建模,我们能够提取的信息始终是一小部分。仅仅知道系统的一部分信息是没法对系统的运行进行预测的,但我们不需要知道系统是怎样运行的,我们所关心的只是运行的结果。所以我们不去模拟系统的运行,而只是找到这些因素与结果之间的相关性,如果某些因素与结果具有较强的相关性,那么这些影响因素就能够用来预测了。我们这样做的理由是基于以下两点假设:
1. 历史的相关性在一定程度上能反应未来的情况。
2. 仅靠部分因素(或信息)能够与结果建立较好的相关性。
接下来对以上两个假设进行展开说明:
对于第一点,这样的假设不是没有道理的,前提是系统的运行机制没有发生改变。只要运行机制没有发生规则,也就是投资机构或散户还是按照之前的模式进行投资(或基本面分析或技术面分析),之前的统计规律就依然成立,这是一个大概率事件。但一旦市场运行机制发生改变,当前的预测模型就失灵了,举个例子,假设大量的投资机构都转向量化投资模型来进行投资取代了之前人的分析,那么用来预测的历史数据所反映的基于人的投资规律就不能反应出量化投资模型的规律。或者大家都用这个预测模型去投资后,这个模型也会失效,之因为对系统的预测干扰了系统的运行。
至于第二点,这一点是很值得好好研究的,这是对复杂非线性系统进行预测的关键。我们始终应该知道的一点是对复杂非线性系统进行精确预测是不可能的,所以通常说的股市预测的意思是找出比较大概率的股票走势。进而我们的目的可以归结为从已知数据与结果中找到好的相关性,我觉得对于复杂系统而言相关性和因果性之间的界限是比较模糊的,我们很难说清是什么导致了什么,因为这些因素是互相影响相互关联的,去讨论这之间的因果性的意义并不大。或者说因果性可以被归纳到强相关性一类。对于股市的三种投资理念:基本面 技术面 消息面分析方式。这三种分析方式可以看作都是运用部分信息对股市做的一个预测。基本面注重上市公司的内在价值,分析宏观经济数据,行业前景和公司财务报表等数据偏向于长线投资;技术面则分形股票价格走势数据,包含对各种指标的分析;消息面则是根据消息来分析股票,比如公司换CEO的新闻可能对股票的影响之类。在实际中这些方法通常是综合起来进行分析的,叫做综合面。其实这些方法的区别就是对影响因素(信息)的侧重不同。不管是公司财务报表还是股票价格数据都是这个股市中的部分信息,但这些信息往往是分布在网络中的各个地方,虽然占整个网络信息的一小部分,但起着一种类似于检测的作用,有点类似于气象监测站。虽然影响股市的因素有很多,但他们的重要性并不是相同的,部分信息能够建立较好的相关性的条件是这些信息是较为重要的,可以看成是网络中的局部中心节点。在实际中,通过人们的观察与分析总结出了一些经验,知道哪些因素是较为重要的(也就是前面说的财务报表,技术指标之类的东西)。
通过算法可以将这些经验进行量化,更重要的是,结合一些机器学习方法能够让算法自己从大量数据中去发现相关性。下面简单描述一下运用支持向量机(SVM)来实现预测的方法:
SVM是一种用来实现分类的工具,它通过升维将线性不可分问题变为线性可分问题。首先选取一些特征(直接用一些技术指标作为特征会比较方便),对样本(历史数据,每个样本对应了一组特征值)实现分类(为了简化,将分类结果分为上涨和下跌两类)。
算法和数据都很关键,二者缺一不可。对于这两者,都有很多要研究的地方,算法方面,目前主流的是机器学习方法,深度学习在理论上看似不错,但实践起来较为麻烦(有点玄学的感觉)。而对于数据挖掘,需要探索的空间就很大了,很多数据都可以用来做预测,比如新闻,各个股票的数据也可以用来对某一支股票进行预测。
上述的预测是对某一支股票而言的,假设预测的准确率有80%(只对上涨下跌进行预测),这样还是需要承担很大的风险(如果遇到暴跌损失就比较大了),解决方法是通过组合投资来降低风险,即选取一组预测结果较好的股票买进,专业名词叫统计套利。
在实际情况下还需要考虑中国股票的T+1模式,即买了一支股票的第二天才能卖出,还有每完成一笔交易需要交2.5‰左右的手续费,不足5元的按5元计算。这些条件也限制了在中国进行高频交易的可能。
(转载请注明出处)