中文网页分类特征提取算法探讨

来源 :中山大学 | 被引量 : 0次 | 上传用户:q344494
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的迅猛发展使得网页分类技术的应用越来越广。这种技术通过将web网页进行分类、组织和检索,达到有效组织处理海量网页的目的,它是主题搜索、个性化信息检索、搜索引擎的目录导航以及信息过滤等领域的核心技术。   网页提供的特征通常多达数万个,直接基于这数万个变量的建模难度相当大,这就使得特征提取成为网页分类的一个关键步骤。但是,传统特征提取方法存在两个明显的不足:其一,传统的MI度量方法过分倾向于低频词和小样本类别,降低了抽取出的特征的代表性。其二,传统的特征选择方法只是简单地按特征度量的分值依次选取具有最大分值的特征,忽略了特征的组合对类别的偏向程度,导致单个特征较优,但组合起来却未必最优,从而降低了分类器的性能。   本文的主要创新之处在于,在MI(互信息)度量的基础上提出一种新的度量-MIDN特征度量(定义见4.2.2节),并提出两种新的特征选择方法:BBS_S(BiasBalanced Selection by Score)和BBS_N(Bias Balanced Selection by Number)算法(见4.3.2节)。这两种方法分别以每个类别获得的类偏向度、特征个数的方差最小为目标,修正了传统方法造成的特征对类别的偏向程度不一致的问题。在搜狐门户网站的新闻库数据上的实验证明,本文提出的两种新算法,比传统算法的分类性能要更好。
其他文献
“新鲜”是大家选择蔬菜时的首要标准,而挑南瓜时却未必如此。  其实,不同于多数蔬菜,南瓜是越老越好。因为南瓜越老,里面所含的水分就越少,这样的南瓜筋少,口感又面又沙,不论是蒸、煮、炸,或者制作主食、甜品或汤粥,味道都格外好。另外,经过充足的日照后,南瓜的甜度会变高,营养相对较好。  要想挑到好南瓜,要从以下几个方面入手。首先要看,从外皮颜色上来说,金黄色的南瓜,颜色越深黄,条纹越清楚粗重越成熟;绿
本文基于L-稳定的Runge-Kutta方法构造Riemann-Liouville分数阶导数的高阶逼近格式,构造了求解非线性分数阶微分方程的L-稳定的Runge-Kutta方法,并给出了该方法的相容性、收敛
[4:8:8] 铺砌为平面上由正方形和正八边形生成的阿基米德双铺砌,现记[4:8:8] 铺砌的顶点集为D,其中的点称为D-点.本文将利用数的几何中讨论格点性质的相关手法探讨[4:8:8] 铺
本文研究了一类浅水波方程Cauchy问题的局部适定性,强解的爆破机制和爆破,强解的整体存在性以及整体弱解的存在性和唯一性等相关的问题。这些相关的浅水波方程来源于现代力学和