论文部分内容阅读
2016年1月,RightScale对全球1000多个企业用户进行了关于公有云、私有云和混合云的使用情况调查,该调查报告结果显示95%的受访者正在使用云。现实世界中,不确定因素普遍存在于各种现象中。在云计算环境下,云数据中心中云数据、虚拟机的迁移、调度等问题都具有不确定性。对于不确定性数据处理,目前已有很多成果,多集中在实体数据的不确定性,对现实中一些实际问题覆盖还不够。对于实体间关系的非确定性处理,已有文献运用随机和模糊理论解决近邻查询处理问题。而实体间关系有时还表现为主观不确定性,这种主观不确定性既不是随机的也不是模糊的。现实中,很多问题无法获得历史数据,从而无法用概率论求解事件发生的频率,此时必须依据专家经验对事件可能发生的信度进行评估,此方法使得信度的方差远远大于频率。为了处理云数据的主观不确定性,将采用不确定理论对云数据的处理技术展开研究。本文致力于云数据查询处理、查询优化关键技术的研究,由于异构性、隐私性、隐私保护、数据不完整、数据不精确等原因,云数据中心的数据存在不确定性,借鉴和吸收不确定理论的相关研究,将云数据中心抽象为不确定图。根据不确定图的路径查询算法,对云数据的查询处理、查询优化进行深入的探讨,本文的主要工作和贡献可以归纳为:(1)提出了云数据安全防护框架。该框架主要包括物理安全、虚拟网络安全、云操作系统安全、虚拟集群安全、数据安全、SaaS/PaaS/IaaS安全、安全管理与安全运维等层次模块。该框架在安全目标、系统资源类型、基础安全技术方面与传统安全是相同的,而又有其特有的安全问题,主要包括:虚拟化安全问题和与云计算分租服务模式相关的一些安全问题。该框架在虚拟化安全、数据安全和隐私保护等方面具有更好的安全性和保护能力。(2)提出了基于云数据安全防护框架的不确定随机故障树风险分析方法。该方法基于不确定理论和机会理论,对故障树进行构建和分析。故障树由基于底事件之间的逻辑关系构成。若底事件的故障率由历史数据获得,则被表征为随机变量:若没有历史数据,但可从专家主观判断得到,则被表征为不确定变量。除此之外事件发生的机会是不确定的随机变量,因此构建了混合仿真算法来计算顶事件发生的机会。通过不确定随机故障树分析法对所提出的云数据安全防护框架进行风险分析。(3)提出了不确定网络条件可信近邻查询方法。该方法包括可信距离的计算(CMCD)算法,可达路径长度计算(CMFP)算法,可达路径期望长度计算(CMDLFP)算法,条件可信k近邻查询(QMCCK)算法。将不确定网络建模为不确定赋权图,定义不确定图的样本图,样本图指数,基础网络,可达路径长度及可达路径期望长度,并给出基于不确定理论的高效不确定条件可信近邻查询算法。将不确定网络上的近邻查询等价地转化为基础网络上的近临查询问题。该可信近邻查询算法能够从非确定角度解决不确定网络环境下的近邻查询问题。(4)提出了基于不确定理论的不确定性数据Top-k查询算法。将不确定性数据集中的元组建模为不确定网络,将有序元组的Top-k查询等价转化为相应样本图中边的不确定测度关系,并对样本图依据所包含边的排序位置进行分类,该算法避免计算所有元组在样本图中的排名不确定测度值,提高了不确定性数据的Top-k查询计算效率。将不确定性数据中,基于参数化排名函数的Top-k查询等价转换为依Top-k值不同的有限查询,并结合Spark Map-Reduce编程框架完成了系统实现。