随机森林在技术指标量化选股中的应用

来源 :电子科技大学 | 被引量 : 20次 | 上传用户:qwertys
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中国经济的高速发展,截止到2017年12月19日整个A股总市值达到了60多万亿元,其中流通市值超过了44万亿元。全A股市场的股票数量超过了3400只,每天产生大量的金融数据。人的精力是有限的,如果投资者使用基本面分析法,3400多只股票的财务数据不会全部分析;同样每天也不会看3400多只股票的技术图形和技术指标。电子科学与信息技术的发展推动了计算机与互联网的普及,使量化投资进入了投资者的视线。量化投资是用现代金融学、数学、统计学、计算机科学等科学技术将投资者的投资理念程序化的过程。众所周知股票市场是一个多噪声的复杂系统[35],影响股票价格的因素有很多,同时这些因素大多是非线性的,使得传统的线性模型不能很好的解决这类问题。2017年A股市场上大盘股表现更好,漂亮50与白马股一路高歌,然而许多量化基金的业绩却表现平平,让一度热捧的量化基金受到考验。原因是2017年的这种市场行情让一些因子失效或所选因子不能识别行情。近两年人工智能站在了风口上,机器学习算法在大数据挖掘上日趋成熟,恰好机器学习中的许多算法能解决非线性问题。因此,本文采用机器学习中的随机森林算法,对纯技术指标建立的数据集进行分析,构建量化选股模型。本文研究工作有:从Wind终端提取KDJ、MACD、RSI、ROC、布林线等技术指标数据,建立22个技术因子;在Anaconda Navigator平台上采用python语言将技术指标与机器学习专用模块(sklearn)中的随机森林算法相结合,构建一个多因子选股模型。以回测年份开始日期为基准,向前推两年的数据作为随机森林模型的训练数据,并对训练数据集做10折交叉验证;用网格搜索优化参数,对模型中的可设置的参数测试与分析;每周的技术因子数据通过随机森林进行预测,选取上涨概率最高的10、20、30、40只股票作为组合进行投资。因为创业板2010年才上市,最终选取2010年至2017年中证500成份股为研究对象。通过回测,发现此种方法构建的模型适合中国的A股市场,选取投资组合从2012至2017年取得了一定的收益,累积收益能够跑赢中证500指数。对爱好股票投资者而言有一定的参考意义。文中也阐述了技术分析理论及技术指标,随机森林相关知识。
其他文献
随着社会经济、科技的不断发展与进步,IT行业与人们工作、生活的关系越来越密切。IT行业的蓬勃发展使得数据中心的数量越来越多,但是大小林立的数据中心在为人们提供服务的同时
以斜沟矿18205高位回风措施巷为工程背景,分析了影响工作面回风巷围岩稳定的原因,提出了两回风巷合理间距确定原则,通过数值模拟方法确定了工作面回风巷与高位回风措施巷之间
为了研究斜沟矿地应力分布规律,采用小孔径水压致裂地应力测量方法对斜沟矿地应力进行了测试,得出了斜沟矿主应力量级、分采区主应力场类型和主应力方向,分析了地应力方向同
引言 在连续波染料激光器里激光场通常以驻波形式在谐振腔内运行,驻波辐射场会使激活介质产生空间烧孔效应.这将给染料激光器的单纵模工作造成困难。利用环形谐振腔的行波激光
《阿诗玛》是云南省石林彝族自治县彝族撒尼支系民间流传的一部叙事长诗。建国前,由于撒尼社会基本上是一个自治的社会,作为民间习惯法的一部分,它被建构了起来,并在撒尼民间
<正>先兆子痫为晚期妊娠中毒症的一种特有疾病,多发生于初产妇、双胎、羊水过多等产妇,是发展为妊娠子痫的过渡阶段。产程开始后,由于子宫收缩,产妇精神紧张,血压及易升高,应
滚动轴承作为旋转机械设备的关键部件,一旦发生故障会严重影响机械设备的安全稳定运行。振动信号的时频分析是实现滚动轴承故障特征分析的有效手段,但经时频分析得到的初始特