基于多层面文体特征的博客作者身份识别研究

来源 :情报学报 | 被引量 : 0次 | 上传用户:Calvin521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的文体风格特征模型不适用于当前大量涌现的网络文本。本文针对以博客为代表的网络文本篇幅短小、表达方式丰富灵活的特点,以内容无关为原则,分别抽取字符特征、词汇特征、句法特征和文本布局等特征,建立了由词汇特征、浅层句法特征、深层句法特征和结构特征组成的多层面文体风格特征模型,并选取朴素贝叶斯、决策树、序列最小优化支持向量机和大规模线性分类支持向量机算法在公开博客语料上进行对照实验。实验结果验证了各个层面特征在作者身份识别中的作用,表明了本文方法的准确性、通用性及其在短文本上的鲁棒性。
其他文献
蓝无界,境自远。蓝色散发着浓郁的艺术和人文气息。蓝色代表着“蓝海”,“蓝海”象征着生生不息、波澜壮阔和放眼天下。这正是浙江卫视“中国蓝”这一形象的深刻涵义。浙江卫视
<正>袁宏明:"过去的一年,中国经济进入新常态,汽车亏业步入微增长时代。转型升级带来的巨大阵痛,国家相关政策的持续推进,使行业面临重新洗牌。在骤然遇冷的大环境中,陕汽人
<正>润滑油中常常会有外来入侵和内部产生的污染物存在,而这些污染物将影响到内燃机的正常使用寿命,使其早期失效而不能工作,因此,对污染物应予以充分的重视。"即使污染物的
目的探索在人工耳蜗电极表面制备高分子载药膜的方法,描述其材料特性并评估听力保护作用。方法在室温下将乙交酯丙交酯高分子共聚物(Poly Lactic-co-Glycolic Acid,PLGA)溶解