论文部分内容阅读
在我国证券市场发展的二十余年中,市场的规模不断扩大和运行机制日趋完善,越来越多机构投资者和个人投资者参与到股市当中。“预测股票回报率”对于投资者来说是一个永恒的命题,不管是实务者还是研究学者都从未停止过对其追求的步伐,并由此产生了许多股票回报率预测的理论方法。机器学习相关算法作为兴起的预测分析技术,能够处理大量的结构化或非结构化的数据,具有避免过拟合的参数估计机制以及强大的自适应学习能力,能够对数据背后蕴含的有用信息进行深度挖掘。本文将应用其中的一种分类算法对股票回报率高低分类预测问题进行建模分析和策略应用。相对于其他分类方法,支持向量机算法有着其独特的优点:首先,Support Vector Machine(SVM)在小样本集的情况下仍然具有较高的分类性能;其次,在理论上,基于结构风险最小化的SVM得到的是全局最优解,避免了陷入局部极值。最后,SVM通过将非线性问题转化为高维空间的线性问题,利用核函数替代高维空间中的内积运算,从而巧妙的解决了复杂计算问题,并且有效的克服了“维数灾难”。支持向量机强大的泛化能力和核函数非线性映射能力使其可以作为一种新的股票回报率预测方法。基于支持向量机的股票回报率高低分类预测模型的构建一般分为五个基本流程。一是选定样本目标和样本区间,在此基础上构造学习器的特征数据和对应的目标数据;二是数据预处理,为了保证用于学习训练的数据集的准确性和完备性,需要对其进行异常值处理、缺失值处理和数据标准化等操作;三是特征降维,从原始特征维度中提取新的更简约的维度或剔除不相关的特征能够使模型更加的简单有效;四是核函数选取和参数寻优,选择合适的核函数解决高维空间的非线性映射问题,并对模型的超参数进行学习优化。五是模型的评估和选择,使用准确率、查准率和查全率指标以及混淆矩阵对模型的分类性能进行衡量,在训练集和测试集中引入交叉验证寻找最优性能的分类器。本文对初始的因子数据进行预处理和标准化后,通过因子有效性检验以及因子相关性分析从26种异象因子最终挑选出14个可用于分类预测模型的输入特征。对股票回报率进行排序,取前后30%作为回报率高低的类别标签,而每一期的学习训练样本选取样本区间内最长的历史数据集。首先,利用支持向量对特征数据和目标数据进行学习,在训练中引入网格搜索结合交叉验证的方法进行模型超参数的自动寻优,得到分类精度较高、泛化能力较强的学习器,数据表明在95%的置信水平下,分类预测模型的实际样本外预测的准确率达到70%,显著高于随机性的50%;然后,将基于支持向量机的股票回报率高低分类预测模型归结为一种多因子的选股方法,根据回报率高低类别的概率估计构建股票投资组合,形成基于股票回报率高低分类预测模型的多因子选股策略,回溯分析表明SVM多因子选股策略的投资组合业绩具有高回报率和高夏普比率的特性;接着从“考虑交易成本”、“夏普概率值”和“门槛样本量”三个角度对策略投资组合业绩进一步评价,实证结果表明:从统计学意义上看,在交易成本较好控制下,SVM多因子选股策略的夏普比率显著高于市场基准是可信可靠的。最后,将SVM多因子选股策略与单因子策略、传统多因子策略以及机器学习其他分类算法策略进行对比分析,实证结果表明相比于单因子,SVM多因子能够容纳变量非线性的特征,提升多个因子的组合运用效率,而与传统多因子和机器学习其他分类算法的对比中,SVM多因子在评估策略投资组合业绩时更胜一筹。