论文部分内容阅读
主题新闻门户提供个性化的新闻信息集成服务,是现在企业级信息化应用的一个热点。实现了一个无需人工干预的主题新闻系统。它基于元搜索技术获得主题相关的新闻索引,之后构造分装器和采用启发式算法准确提取双层页面中的结构化信息;同时设计了结合URL和标题的新闻重复检测策略,提高抓取质量。原型系统运行以来得到了较优异的实验效果。