论文部分内容阅读
半结构化数据的模式抽取对于半结构化数据查询、优化及异构数据的集成具有重要的意义。结合标签路径及标签路径的目标集概念,提出了基于OEM(Object Exchange Model)模型的半结构化数据最小化模式抽取新方法,并给出了与标签路径目标集、支持度计算相关的两个定理。算法的基本思路:依据文中的两个定理,采用宽度优先自顶向下的遍历策略依次求出各标签路径的最后一个标签的目标集及支持度,标签支持度大的目标集优先映射为对应的模式节点。对同一半结构数据实例,算法抽取的模式与其他算法得到的模式相比规模小、算法