分块布局下的主题型网页的内容抽取

来源 :情报学报 | 被引量 : 0次 | 上传用户:znaddh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本篇论文以去除网页噪声,整合网页内容为目标,提出了面向主题型网页,根据网页规划布局抽取网页内容的方法。算法首先分析原始网页的DOM结构生成标签树,再根据标签分类和对应节点的信息对标签树自底向上进行划分,并依据划分块的文字密度,链接密度及图片密度,分类信息块。进一步,提炼网页主题的文本特征向量,采用基于词条空间的文本相似度计算,获取划分块的主题相关度,以主题相关度为量化基准剔除噪声,识别网页主旨内容,重构页面描述。这一算法被应用于面向人才资讯的信息采集项目中,实验表明,算法适用于主题型网页的“去噪”及内容提
其他文献
目的探讨改善乙型肝炎患者心理健康状况的护理对策。方法将我院2017年7月—2018年7月接受治疗的乙型肝炎患者86例按照入院时间先后分为2组,试验组进行常规护理与心理护理干预
清华大学中国与世界经济研究中心主任李稻葵在2017金融街论坛上表示,中国经济增速未来五年将逐步回升,有望重回7%时代。  他表示,今年全年中国经济增速预计为6.9%,明年將有望达到7.0%或7.1%。经济增速回升的最主要原因是,经过三四年艰苦调整後,去产能工作已逐步发挥作用,尤其钢铁、水泥、煤炭等主要工业品去产能工作推进顺利。  李稻葵认为,在宏观经济稳定、实体经济恢复、重视风险防控的大前提下,中
土壤干旱是北方地区杨树人工林生长和生态效益的重要限制因子。以群众杨(Populus×popularis‘35-44’)扦插苗为研究材料,采用盆栽称重法控制土壤水分,设置正常供水、中度干旱、重度干旱3种水分梯度。分别于2016年9月与2017年9月测定叶片气体交换参数、各器官干重、根冠比、叶经济性状等指标,研究了持续2年干旱胁迫下群众杨扦插苗光合特性与器官干物质分配的变化规律,分析了土壤干旱程度、树