论文部分内容阅读
随着中国经济的高速发展,截止到2017年12月19日整个A股总市值达到了60多万亿元,其中流通市值超过了44万亿元。全A股市场的股票数量超过了3400只,每天产生大量的金融数据。人的精力是有限的,如果投资者使用基本面分析法,3400多只股票的财务数据不会全部分析;同样每天也不会看3400多只股票的技术图形和技术指标。电子科学与信息技术的发展推动了计算机与互联网的普及,使量化投资进入了投资者的视线。量化投资是用现代金融学、数学、统计学、计算机科学等科学技术将投资者的投资理念程序化的过程。众所周知股票市场是一个多噪声的复杂系统[35],影响股票价格的因素有很多,同时这些因素大多是非线性的,使得传统的线性模型不能很好的解决这类问题。2017年A股市场上大盘股表现更好,漂亮50与白马股一路高歌,然而许多量化基金的业绩却表现平平,让一度热捧的量化基金受到考验。原因是2017年的这种市场行情让一些因子失效或所选因子不能识别行情。近两年人工智能站在了风口上,机器学习算法在大数据挖掘上日趋成熟,恰好机器学习中的许多算法能解决非线性问题。因此,本文采用机器学习中的随机森林算法,对纯技术指标建立的数据集进行分析,构建量化选股模型。本文研究工作有:从Wind终端提取KDJ、MACD、RSI、ROC、布林线等技术指标数据,建立22个技术因子;在Anaconda Navigator平台上采用python语言将技术指标与机器学习专用模块(sklearn)中的随机森林算法相结合,构建一个多因子选股模型。以回测年份开始日期为基准,向前推两年的数据作为随机森林模型的训练数据,并对训练数据集做10折交叉验证;用网格搜索优化参数,对模型中的可设置的参数测试与分析;每周的技术因子数据通过随机森林进行预测,选取上涨概率最高的10、20、30、40只股票作为组合进行投资。因为创业板2010年才上市,最终选取2010年至2017年中证500成份股为研究对象。通过回测,发现此种方法构建的模型适合中国的A股市场,选取投资组合从2012至2017年取得了一定的收益,累积收益能够跑赢中证500指数。对爱好股票投资者而言有一定的参考意义。文中也阐述了技术分析理论及技术指标,随机森林相关知识。