论文部分内容阅读
企业日益重视Internet上信息的获取和利用,信息获取能力成为竞争力的构成要素之一,然而,由于信息获取工具的低效,企业难以从Internet上迅速找到需要的信息,开发企业级应用的智能化信息获取工具成为当务之急,知识订阅系统应运而生。知识订阅系统是具有一定智能的企业级信息获取平台。它由三个部分组成:输入初始化模块、web挖掘模块和意见归纳模块。在已有的研究基础上,本文重点探讨了知识订阅系统中Web挖掘模块的模型设计及其关键技术。首先,针对企业的信息需求特点,将Web挖掘技术应用于知识订阅系统,提出了Web挖掘模块的功能模型,定义了用户接口,查询关键字预处理,文档收集,文档聚类,个性化模式挖掘,群体模式识别6个功能模块,并给出了各个模块的详细功能描述。然后,依照 Web挖掘模块的功能模型,采用智能Agent技术来设计Web挖掘系统,将Web挖掘模块分解成为10个智能协同Agent实现系统功能。使该模型具有主动、智能、分布式、易扩展的特点,能够很好适应复杂的Web挖掘环境。最后,探讨了其Web挖掘模型中一些关键技术,重点分析了系统中部分关键Agent的技术可能性和合理性,依据功能要求,结合现有的Web挖掘、人工智能、神经网络、自然语言理解、搜索引擎等多种技术,合理选择算法解决问题,详细描述算法的原理和应用思路。最后,本文在现有工作的基础之上,对进一步完善知识订阅系统中的Web挖掘模块提出了意见和改进的方向。