-
(一)人工智能选股框架及经典算法简介2017.6.1
-
机器学习的基本流程
数据获取、特征提取、数据转换、模型训练、模型选择、模型预测。
-
数据获取
大量、高质量。
现有接口:雅虎财经、新浪财经、万得终端。
爬虫数据源:新闻网站、财经论坛、自媒体平台、聊天软件
-
特征提取
情报隐藏于信息中。原始数据格式和类型无法直接用于训练。
自然语言识别:Word Embedding将文字转化为数值向量
图像识别:从图片提取出三原色、亮度等
多因子选股:从原始量化数据提取出各种因子
-
数据转换
缺失值的删、补
数据预处理:去极值、标准化、中性化…
降维:避免特征之间相关性的影响,避免维数灾难
-
模型训练
适合模型预判
-
模型选择
对于任何问题,都可以存在各种备选模型,如何选择取决于交叉验证、度量指标
-
交互验证
方差:表示使用不同训练集时模型表现的差异。描述的是稳定性、鲁棒性。不同数据集会影响模型性能,在于模型抓取了数据集本身的特性。
偏差:表示实际模型与理想模型的差别。描述的是准确性,适当提高模型复杂度会提升模型表现性能,也会导致过拟合。避免过拟合最重要的方法是交互验证。
-
交互验证
交互验证是指使用不曾在训练中出现过的数据进行验证。如果模型在验证时性能和训练时大致相同,可以确信模型真的“学会”了如何发现数据中的一般规律,而不是“记住”训练样本。
交互验证的核心就是将样本划分为训练集和验证集。
K折交叉验证、留一法、留N法…
-
模型评价
回归问题:均方误差越小越好
分类问题:分类正确率
正确率Accuracy、召回率Recall、精确率Precision、ROC、AUC…
-
模型预测
确定最优模型及参数后,最后一步是使用模型对未来做预测。
-
机器学习方法介绍
-
广义线性模型
线性回归(Linear Regression)是传统多因子模型中常见的套路。
岭回归(Ridge Regression,L2正则化)
Lasso回归(L1正则化)
逻辑回归(Logistic Regression)分类问题
多分类问题:有序多酚类、OvR策略
-
显性判别分析和二次判别分析
线性判别法分析(linear discriminant analysis,LDA)
二次判别分析(quadratic discriminant analysis,QDA)
-
支持向量机
支持向量机(support vector machine,SVM):增加新维度看待问题
-
决策树和随机森林
决策树(decision tree)
Bootstrap 和 和 Bagging( Bootstrap Aggregating)
随机森林(random forest)
AdaBoost(adaptive boosting)
-
神经网络和深度学习
神经网络(neural networks)
深度学习(deep learning)
递归神经网络(recursive neural networks,RNN)
长短记忆网络(long short-term memory,LSTM)
生成对抗网络(generative adversarial nets,GAN)
-
K最近邻算法
K 最近邻(K-nearest neighbor,KNN)算法
-
聚类
聚类(clustering)是一种无监督的学习
K 均值聚类(K-means clustering)
-
降维
主成分分析(principal component analysis,PCA)
偏最小二乘法(partial least squares,PLS)
Fisher 线性判别法
局部线性嵌入(local linear embedding,LLE)
测地距离(isomap)
拉普拉斯特征映射(Laplacian eigenmaps)