基于树核函数的中文语义角色标注研究

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户：magihao

【摘要】

：

目前使用特征方法进行语义角色标注研究已经遇到发展瓶颈，性能难以进一步提高;而基于核函数的方法可以充分利用特征方法无法表示的结构化信息，有进一步研究的空间。本文使用SVM提供的卷积树核函数构造了—个中文语义角色标注系统，该系统以依存关系作为标注单元进行中文语义角色标注。本文重点描述了通过不同的裁剪方法来获得依存树的结构化信息，裁剪后的依存树分别为最短路径树和最小树。在中文ProDBank和NomBa

【作者】

：

王步康王红玲袁晓虹周国栋

【机构】

：

苏州大学计算机科学与技术学院江苏苏州 215006 江苏省计算机信息处理技术重点实验室,江苏

【出处】

：

中国中文信息学会

【发表日期】

：

2010年8期

【关键词】

：

语义角色标注树核依存关系

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

中国古代“散文”概念发生及其二宋文人的文体观念革命

中国传统文论面临失语的困境，面对这种困境，我们能够做的工作，一方面是研究失语的个案，另—方面是激活这些传统话语，赋予它新的生命.在这个方面，散文散语是一个典型的个案，一方面它具有近现代文体学上的纯粹意义，另一方面它在宋代出现，被大量广泛使用，研究它无疑具有解剖标本的作用.通过散文散语的现代文体意义，我们可以归纳演绎出，唐宋时代文人的文体观念已经发生了革命性变革，现代文体中的诗歌、散文、小说、戏剧四

会议

宋代上梁文演进中的类型化与个性化

上梁文是—种源远流长的建筑民俗文体.宋代是上梁文创体变革的重要时期，该期上梁文的创作倾向主要表现为类型化与个陆化两种范式。一方面，类型化为上梁文确立了规范的文体样式，使其正式成为一类独立的应用文体;另一方面，随着宋代上梁文的发辰，“以文为戏”的上梁文异军突起，极大地丰富了文体功能和文学表现力，呈现出鲜明的个性化特色.就文体学意义而言，宋代上梁文演进中的这两种创作倾向，揭示了中国古代“文体正变”观念

会议

宋代上梁文类型化个性化

八股文的源流

八股文的来源非常复杂，其直接渊源是宋代科举考试中的经义，间接渊源则有经典注疏、律赋、试帖诗和古文等。本文试图把八股文放到具体的历史语境中，结合科举考试、经学演变和文学变迁等多种因素进行动态的分析，考察明代的四书文是如何融会其他文体的因素，在宋代经义的基础上逐步演化成明代的八股文的。

会议

八股文渊源科举考试经学文学

尊崇：清人八股文情感的另一极——以乾嘉道三朝为中心

现代学术研究主要集中于对古代批判材料的梳理，彰显20世纪的批判所来有自。这种一边倒的现象造成了对另—种声音的严重遮蔽.本文尝试着以几个代表性人物为中心，在八股文历史意见的消极面背景下透视积极意见的另一面.本文认为：八股文取士制度不如人意的现实使得八股文的维护方有强辩之嫌，所以在功能之争上，以路德为代表的推尊八股文者处于下风.着眼文体本身体性特征是尊体八股文最为有效的途径.姚鼐、阮元、焦循、王芑孙等

会议

“文章缘起类”文献简论——《文章缘起》续、补、注、订误著作研究

任昉《文章缘起》记录秦汉以来从经学著作脱胎并独立发展起来的85个文章体类，标举其始作时代、作者和篇名，简约而完整地勾勒出中国文章学发展初期的文章谱系.后世学者对该书进行续、补、注、订误，形成一个“文章缘起类”批评体系，这些后续著作增补了后世新发展出来的上百个文体，充实了《文章缘起》的文章谱系.从这一系列“文章缘起类”文献，可以见出中国传统文章形态的发展概貌及延续至晚清的“大文章”观.

会议

文章缘起类《文章缘起注》《续文章缘起》《文章缘起订误》《文章缘起补》文章谱系

南宋遗民词群体习语研究

南宋遗民词的话语系统中存在着群体习语现象.中国古代士大夫文化是南宋遗民词群体习语形成的文化基础;创作主体的遗民生涯是其形成的现实基础;遗民之间的交游与唱和是其迅速形成的重要条件.南宋遗民词群体习语可分为典故类、自然物象类和心绪感受类，具有悲怨绝望的情感特征、幽孤袁凄的美感特征和真切平实的语言特征。

会议

南宋遗民词群体习语

基于最大熵短语重排序模型的特征抽取算法改进

本文针对统计机器翻译中基于最大熵短语重排序模型特征抽取算法。提出一种改进算法。该算法能够抽取出更多准确的短语重排序信息，特别是逆序短语的特征信息，解决了原算法中最大熵训练时特征数据不平衡问题，即保序短语特征信息数量远超过逆序短语信息数量，提高了翻译中短语重排序的准确率。本文以NIST MT 05作为汉语到英语翻译的测试集，实验结果表明改进后的系统BLEU值比原系统提高0.65％。

会议

最大熵特征抽取统计机器翻译重排序模型

LDA主题驱动的中文多文档自动文摘方法

多文档自动文摘能够帮助人们自动、快速地获取信息，本文实现了一个基于主题模型的中文多文档自动文摘系统，其中主题模型采用浅层狄利赫雷分配(LatentDirichlet Allocation，LDA)，该模型是—个多层的产生式概率模型，能够检测文档中的主题分布。该方法使用LDA为多文档集合建模，通过计算句子在不同主题上的概率分布之间的相似度作为句子的重要度，并根据句子重要度进行文摘句的抽取。实验结果表

会议

中文自动文摘主题模型LDA多文档

特定主题概念关联的挖掘及其表示式的实现

本文提出了一种特定主题概念关联知识挖掘的方法。在实际特定主题的语料基础上，本文使用了信息增益的方法选取出主题关键词，并对关键词所对应的关联概念进行统计，结合对应关键词的重要程度值，赋予这些关联概念以权重值，从而根据权重值得到特定主题下的概念关联知识及其表达式。通过实验证明，该方法是有效的。

会议

概念关联主题关键词信息增益

基于概率潜在语义分析的词汇情感倾向判别

本文利用概率潜在语义分析，给出了两种用于判别词汇的情感倾向的方法。一种是使用概率潜在语义分析获得每个目标词和基准词之间的相似度矩阵，再利用投票法决定每个目标词的情感倾向;二是利用概率潜在语义分析对目标词进行语义聚类和扩展，自动找到每个目标词的同义词，然后采用基于同义词的词汇情感倾向判别方法对目标词的情感倾向做出判别。这两种方法的优点均在没有外部资源的条件下，可以实现情感倾向的判别。

会议

概率潜在语义分析数据稀疏语义聚类情感倾向

基于树核函数的中文语义角色标注研究

与本文相关的学术论文