基于R和Hadoop的大规模数据主成分分析

来源 :信息技术与信息化 | 被引量 : 0次 | 上传用户:hzwn001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
R软件具有强大的统计分析功能,Hadoop平台能够存储和处理TB级别以上的大规模数据,将R与Hadoop相结合,在目前阶段是一种比较好的处理分析大规模数据的方案.本文利用RHadoop项目中的rhdfs和rmr2两个包,以及MapReduce编程模型,设计出能够针对大规模数据进行主成分分析的函数,并对纽约股票市场部分股票价格数据进行主成分分析,以验证其可行性.
其他文献
目的:检测宫颈鳞状细胞癌(SCC)组织中Survivin、Fas及FasL蛋白的表达。方法:采用免疫组化法检测8例正常宫颈组织、13例不典型增生(CIN)组织和36例SCC组织中Survivin、Fas与FasL蛋白
因王肃与司马氏结为姻亲,于是人们多认为王肃结党于司马氏。从仕职变迁来看,司马氏掌权十六七年间时,王肃官位并没有实质性的提升。在一系列重大政治事件中,如高平陵政变、迎
随着现代科学技术的不断发展以及4G移动通信技术的普及不断提高,人们对移动通信有了更高层次追求,因此移动通信势必会发展到5G。5G作为网络第五代的传输网络,其峰值的传输速
企业品牌传播的“共创论”转向是当今社会化媒体时代的研究焦点。文章通过文献计量方法对“品牌共创论”范式进行梳理和省思,发现中国的品牌共创研究以企业管理为起点,逐渐转
认知诗学是赏析诗歌的一种方法或技巧,其重视读者自身解读。文章对认知诗学的缘起、发展及主要研究领域进行了简要回顾,运用认知诗学的四个主要理论:概念隐喻、可能世界、图