论文部分内容阅读
本论文的研究领域是自然语言的自动处理(TALN),目的在于建立起一个能够对法语文章进行自动分析和生成的处理模型。该模型的构思建立在东西合璧的理论基础之上,借鉴了西方的语义网络、语义基元和各种知识表达体系以及我国上个世纪90年代末中科院声学研究所黄曾阳先生等人提出的句类分析理论和五元组思想(HNC,概念层次网络理论)。我们要建立的模型不以直接的商业应用为目的,而旨在为法语的自动处理生成提供一个新的研究思路。为了具体直观地阐释该理论模式,我们选取了一篇法语童话作为应用例文。诚然,该模型仅能在一篇简单例文的基础上生成一段小型的人机对话,在对话规模和选文难度上都不足为道。但从另外一个角度来说,这样的处理模式可以进一步应用到更为广阔的领域,如智能检索、信息过滤和信息萃取等。因为这些热门的应用课题都可以依赖这样一个共同的理论基础,即对文章的自动理解:以动词语义块为核心建立起句类格式,从而提供一条理解句子的途径。该理论的创新之处主要在于五元组的概念表述方法。简单而言,五元组是一组用来表达抽象概念特性的五个元素:动态(v)、静态(g)、属性(u)、值(z)和效应(r)。跟现存的其他语义分类相比,五元组可以更好地保存概念问的天然联系,有利于联想脉络的建立。如此一来,传统的语法划分(动词、名词、形容词等)被语义语用性质的划分方式所替代,符号化的表述系统很好地迎合了机器编程的需求。除了概念表述以外,该理论在句子层面也有一个不可忽视的创新点,那就是句类分析理论。考虑机器处理的特性,HNC用语义层面的句类划分替代了传统的语法分类。以动词语义块为中心建立起句类以及对应的句类格式,根据预先建立的判定条件和语义块标志,从而可以获取其他语义块的信息和处理整个句子。而且通过预先设立的整个符号体系,处理的句子可以转换成固定的符号表达式,因此方便了机器的认知和处理。正如其他人机对话模型,我们要建立的处理模型同样包括基本的两大步骤:问题处理和答案生成。与文本的处理程序类似,问题经过分析处理最终会转化成同性质的符号表达式。那么在兼容的表述模式的支持下,问题和文本之间便可以进行搜索和匹配。需要说明的是这样的匹配程序不仅仅局限于找出相同的词或句,而是能在理解的基础上近似计算出语义距离,从而体现了智能处理的优势。就目前的研究阶段,答案的生成还不是最主要的研究目的。相对于问题针对的信息,只要答案提供的信息是有意义的,那么这个答案便可以被认可,暂不作文体方面的考虑。也就是说,更高层次的语言要求(语言层次、修辞等)都在不列入考虑范畴。此外,针对自然语言处理中不可避免的问题,例如断句分词(segmentation)、替代现象(anaphore)、语义消歧(desambiguisation)和语义注解(annotation)等,我们也会做出一定的分析和说明:分析该问题的实质和现状;说明我们在现阶段所采取的处理方法。总之,这篇论文工作要建立的模型只是实验性质的,旨在为法语文本的自动处理提供一条新的思路,而不企图能即刻投入实际的应用领域。希望这样的新思路能为其他的研究者提供有益的参考。在个人研究的条件下,我们只能设立较近的工作目标,而且只能建立有限的词库、处理简单的句子和文本。但若能有团队合作的支持,我们便能够建立更大的词库、预设更复杂的句式,从而将该处理模式应用到其他领域,例如智能信息搜索、敏感信息过滤、远程教学等。任何大容量词库的建设、大范围句类的研究以及编程的具体实现都需要大力的人力、财力和技术保障才能实现。