语料库中语言知识的标记问题

来源 :中国科学院 | 被引量 : 0次 | 上传用户:presk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语料库具有五种基本性质,知识标记是语料库的重要内容,其中语言知识标记是语料库深加工的核心内容。应广泛搜集已有的语言学文献,将其数字化为语言知识数据库,以大力支持语料库的语言知识的标记,迅速提升计算机的语言智慧。应有计划地开发基于语料库的语言研究软件,方便学者利用语料库,推进语言研究手段的现代化,促进"基于统计"的和"基于规则"的两种语言研究路向的交流与合作。
其他文献
语音学习是每一位英语学习者学习英语都要面临的第一个问题。本文在教学过程中深入调查了所任课的两个班级学生的语音学习,发现语音学习既有由于英汉语系的差异而引起的共性的问题,又有由于学生生活、学习环境而造成的个性的问题,并对语音教学提出了建议:针对学生不同的学习背景和环境,提出语音学习个性化,为学生建立语音学习档案;应用多样的教学手法和渠道激发学生的兴趣,学习材料趣味化从而最大程度地发挥学生的主体作用;
本研究考察了基频因素对北京话阴平、阳平声调在双音节中感知的作用,采用PSOLA合成语音的方法制作语音样本,并进行听辨实验。实验结果显示,被试对位于前一音节的阴平、阳平声调的判断会受到后一音节起点、终点、拐点和整体基频变化的影响,二者之间的关系可以分为四种类型;其次,发生听辨错误的声调多数落在上声,这和上声“低”的特征有关。
本文通过实验和统计方法,对比了广州普通话和标准普通话的单字调和两音节连读声调组合模式,考察广州人在习得普通话时出现的声调偏误。实验结果发现,广州人在习得标准普通话的单字调和二音节连续词时,照搬了广州话中听感与之接近的四个声调(下阴平,阴上,阳平,下阴平)的声调模式,出现习得中阴平调音高偏低,阳平调头比标准普通话偏低,上声曲折调没有曲折,去声调尾比标准普通话偏高等偏误。
本文介绍了一种普通话舌面音和舌尖音的区别特征参数。从语图上可以看出两个辅音在频率上的能量分布的不同,进一步通过计算美尔频谱能量可以发现他们,舌面音与舌尖音的变化走势在低频段是类似的,但他们在中高频段的走势却各有不同。由此可以得到两个用于区别舌面音和舌尖音的特征频率带,计算这两个特征频率带的能量的斜率比值,发现舌面音与舌尖音的k值分布在不同范围内,通过选定k值可以用来区分这两类声母。
本研究以Halliday(1967)及Crystal(1975)关于重音分布与信息传递的关系理论为基础,运用纵贯研究的方法,通过对14名英语专业学生四年跟踪朗读语音材料的标注和分析,揭示大学生英语重音分布的发展规律。研究结果表明:重音分布与信息传递的正确率四年中呈现高原现象,这证实了学习是遵循负增长学习曲线的过程。1)简单句和含副词语的复合句中,多重音现象显著减少,列举句式中多重音现象则显著增加。
法庭话者识别技术引入我国迄今已有二十多年,目前该技术已经广泛应用于各类刑事和民事案件中。纵观世界各国的法庭证据评判体系,除了DNA以外,法庭证据检验鉴定结论的表述通常有三种:同一认定、否定排除和倾向性意见。简单的肯定和否定结论存在很大的弊端,就是过分估计了证据的力度和价值,因而不可避免地造成一些错案。鉴于此,国外一些学者提出在证据结论的表述和价值评判上引入基于贝叶斯理论的“似然率”方法。本文结合目
汉语的连续变调形式极其丰富繁杂,不同的方言有不同的连续变调形式和不同的变化规则,但当代音系理论认为,在表层复杂多样的连续变调背后,一定有一个简单共同的音系机制。本文运用特征几何理论,分析底层声调特征在绍兴方言二字结构连续变调中的行为规律,发现表层声调连续变调的不同形式是由底层声调特征的扩散和(或)脱落产生的结果所致。声调特征的行为规律是绍兴方言连续变调的音系机制。
计算机辅助翻译具有很强的实用性,它对于提高全自动翻译系统的性能大有裨益。本文拟从翻译实践角度出发,主要以分析基于翻译记忆技术的机器辅助翻译模式为主线,着重讨论助译系统中关于语言的语义知识处理和系统功能层次的实现策略。
HNC认为,语言之间的翻译需要一个过渡处理的过程,句类转换是六项过渡处理中的一个环节。本文通过对428句经过标注的汉英对照语料的分析,对E块省略句类简明状态句S04J在汉英机器翻译中的句类转换规律进行了一些探索和总结,着重对! 0S04句进行了讨论。
语料库作为自然语言处理及语言学其他分支学科的研究和实验对象,越来越受到重视。其实从揭示语言规律的角度看,语料一直受到研究者的重视。随着计算机技术的发展与普及,获得并处理海量的语料已经变得简单容易了,语料库已经成为一种常规的工具。黄曾阳先生曾经形象地将语料库比喻为农业时代的耕地和工业时代的工厂。从语料库建设角度看,语料库的规模,静态或动态,平衡等方面无疑是重要的影响因素。然而从研究的角度讲,语料库所