论文部分内容阅读
偏好挖掘是数据挖掘中的重要研究内容,条件偏好网络(Conditional Preference Networks,CP-nets)作为条件偏好关系的重要表达模型,可用于描述用户的条件偏好关系。目前,其主要研究内容集中于二值CP-nets学习,如启发式算法、进化算法、精确P值、G~2检验等学习方法。由于数据量急剧增大及流式数据的产生,一些分时段、分区段的流式数据模型学习方法被采用,减少了模型学习时间并解决了在线学习问题。但在实际应用中,二值属性在真实偏好的表达上会有偏差和损失,且随着属性个数增多,模型学习的时间复杂度呈指数型增长。基于该问题,本文提出基于关联规则及贝叶斯-遗传算法的多值CP-nets学习方法,主要研究内容如下:(1)基于Apriori算法的CP-nets学习研究提出基于关联规则的多值无环CP-nets学习算法。首先,根据条件偏好确定不同父属性取值下的一致性评分,并将其作为属性间父子关系判定的依据。然后,确定父子关系候选项集,采用Apriori算法去除矛盾和不存在的父子关系,完成剪枝操作。之后,通过评分函数对所学CP-nets结构进行去环,完成无环CP-nets学习。实验结果表明,本算法有效提高了模型的相似度与相容度,并降低了算法的计算时间。(2)基于贝叶斯-遗传算法的CP-nets学习研究针对多父属性条件下多值条件偏好计算问题,提出基于贝叶斯-遗传方法的CP-nets学习算法。在偏好处理上,以多值属性的完整偏序关系作为条件偏好,进行相关性关系判定。基于贝叶斯方法,构建相关性关系数据库,记录单一父属性相关性关系,以单一父属性推导多父属性的相关性关系,缩减计算过程。采用遗传算法在CP-nets结构空间中进行搜索,以贝叶斯方法计算单一结构的评分,求取最优结构。通过Delink算法进行去环,完成无环CP-nets学习。实验表明,本算法有效减少了模型学习计算时间,并能够在有限时间内习得局部最优无环CP-nets。综上所述,基于Apriori算法的CP-nets学习通过相关性关系间的矛盾进行剪枝,提高了计算效率;基于贝叶斯-遗传算法的CP-nets学习以贝叶斯算法为基础,通过单一父属性对多父属性的相关性关系进行推导,缩减了多父属性的计算过程。通过实验对比,表明了本文方法具有较高的相似度、相容度指标和较低的时间复杂度。最后总结了本文的主要研究内容,并展望了未来研究方向。