基于深度学习的蒙汉法律文书辅助判决预测研究

来源 :中央民族大学 | 被引量 : 0次 | 上传用户:lichangsong3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会发展,我国的法制建设进一步加强。面对各类案件数量的增长,给法律从事人员带来了一定的挑战,能否维护公平公正是一个难题。在此背景下,辅助判决预测技术应运而生。辅助判决预测任务主要是给定一个案件的事实描述,对其中的关键信息进行分析,最后给出一个判决结果。这样,既保证了司法人员向同案同判的方向考虑,也为群众提供了一个有效的咨询手段,为司法智能化和和保证法律公平公正都提供了有效支撑。当前,辅助判决预测主要集中在中英文领域。然而,在少数民族语言方面,辅助判决预测相关研究却相对较少,如针对蒙古语的辅助判决预测研究仍有待探索。首先,相比于中英文丰富的语料资源,蒙古语目前未发现有公开的语料。另外,蒙古语也存在歧义的问题,采用传统的词向量表示方法无法对不同语境下词汇的意义进行区分。基于以上问题,本文通过构建一定规模的蒙古语语料库,研究基于卷积神经网络(Convolutional Neural Network,CNN)、长短时记忆网络(Long Short Term Memory,LSTM)等模型的辅助判决预测,主要工作总结如下:(1)基于规则的蒙汉刑事判决文书自动标注抽取:语料是进行自然语言处理任务的关键,其质量决定着能否展开进一步的研究。而当前尚未发现有关蒙古语辅助判决预测的公开语料,为了展开进一步的研究,本文通过从“中国裁判文书网”爬取相关数据,结合现有的刑事判决文书标签体系,利用规则的方法对汉语和蒙古语数据进行标注抽取,构建语料库。实验证明,该方法能够有效地抽取出判决文书中的关键信息,而且在汉语测试集上F1值达到了 92.88%,在蒙古语测试集上F1值达到了 93.14%。(2)针对汉语容易出现歧义等问题,本文通过提出在编码端融入词性特征,然后训练词向量,经过在CNN和LSTM模型中实验,实验证明融入词性特征能够有效缓解汉语歧义问题,有效提高模型效果。而针对刑事案件中易混淆案件容易出现误判的问题,本文提出结合注意力机制(Attention)到CNN和LSTM模型中。实验证明结合注意力机制后,模型针对易混淆案件出现误判的情况有所缓解,进一步提高了模型的效果。最终表现最好的是融合了词性特征和注意力机制的LSTM模型,相比于未调优之前的模型,在法条预测任务中F1达到了 78.00%,提升了 1.42%,罪名预测任务中F1达到了 82.10%,提升了 0.75%,刑期预测任务中F1则达到了 33.02%,提升了 1.57%。(3)针对蒙古语语言特点,我们采取了针对该语言的特定处理。针对当前词向量训练方式的多样化,我们探究了在不同方式下蒙古语词向量对于蒙古语辅助判决预测任务的影响。表现最好的是基于fastText的LSTM模型,在法条预测任务中F1达到了 60.62%,罪名预测任务中F1达到了 60.46%,刑期预测任务中达到了 25.26%。而辅助判决预测任务中子任务间存在共享信息,我们采用基于拓扑依赖关系的模型进行辅助判决预测任务,然后对比CNN、LSTM模型以及拓扑依赖模型在蒙古语语料中的效果,表现最好的是基于拓扑依赖的模型,在法条预测任务中F1达到了 61.47%,罪名预测任务中F1达到了61.20%,刑期预测任务中达到了 25.70%。
其他文献
与基于插值或者重建的机器学习方法相比,深度学习在超分辨率(Super-Resolution,SR)任务上显示出其独特的优势。然而,人工设计一个性能优秀的超分辨率网络往往需要耗费大量的人力物力。除此之外,随着人工设计的神经网络越来越复杂,想要人工设计出一个表现不错的神经网络成为一个挑战。为了减少人工设计神经网络所花费的人力物力,神经网络架构搜索(Neural Architecture Search,
近年来,随着人工智能技术的不断革新,国家对各行各业越来越注重信息化的投入。自然语言处理作为文本信息化的一种重要方式,将其与司法文书相结合使得司法办公自动化必将成为大势所趋。本文主要研究的民事案件法律文本中命名实体识别任务,是司法领域信息化的基础工作之一,对后续的司法案件信息提取、案情辅助研判等一系列应用具有促进作用。本文在基于民事案件法律文书的命名实体识别研究中,完成了以下工作:1)构建司法领域命
场景文本检测是指从图像中定位出文本位置,该技术在图像检索、机器人导航、工业自动化和实时翻译等场景中有广泛使用,具有非常广阔的研究与应用价值。自然场景中文本的大小、排列方向和对比度等有很大差异,而且还受到噪声干扰、拍摄角度和光照变化等因素的影响,受这些因素影响,传统的文本检测方法对场景文本的检测效果较差,无法适用于复杂的场景文本检测。随着深度学习的兴起,基于深度学习的场景文本检测方法取得了重大突破,
微课是指教师在教学过程中,围绕某一知识点精心设计的以视频为载体的教学活动,具有简短灵活、便捷共享的特点。《普通高中物理课程标准(2017版)》中强调深化信息技术在物理教学中的应用,促进信息技术与物理学科的融合,因此物理微课也越来越受到教育工作者们的关注。如何让微课设计更加合理、在保证科学性的基础上充分发挥其辅助作用成为了研究重点。本文引入美国学者凯勒提出的ARCS动机模型,以此模型为基础将对应动机
民族高等教育是我国高等教育的重要组成部分,肩负着传承民族文化、培养少数民族人才、促进民族地区发展等多重任务。教师是振兴教育的希望,当前民族高校青年教师是教学和科研的主体力量,但民族高校青年教师在专业发展的过程中受到多种压力和影响。因此,了解民族高校青年教师专业发展现状,探究民族高校青年教师专业发展的影响因素是促进其专业发展的前提。本研究是以民族高校青年教师作为研究对象,采用问卷调查法和访谈法在青年
随着互联网技术的迅速发展,互联网对于人们的生活、学习、工作等方方面面,越来越不可或缺。多文档自动文本摘要任务的目标是从多个文本中,总结提炼出用户最关注的信息,从而减少用户搜寻相关信息的时间,提高用户获取信息的效率。朝鲜族是我国56个民族之一,朝鲜语是我国具有文字的少数民族语言之一。我国一直致力于朝鲜语信息技术标准化的研究工作。中英文自动摘要任务目前已经取得了显著的成果,但目前国内朝鲜语自动文摘技术
在安静环境中,语音识别模型能够达到95%以上的准确率,然而在现实环境中使用还是会有诸多问题,比如环境噪音的干扰,远场麦克风采集的音频信息信噪比过低等问题,以至于音频信号不能够满足进行语音识别的要求。这时就需要其他模态信号对音频信号进行补充。与音频信号相比,视觉信息不易受到背景噪音的影响,在说话过程中,人的脸部各个器官也会随之做出相应的变化,恰好可以对音频信息做出一定的补充。根据目前已有资料,多模态
本文主要研究了连续最大流图像分割改进模型及模型的快速算法的数值实现.在图像分割中,通过CV模型进行图像分割,耗时长,迭代次数多,我们在研究CV模型的时候,采用对偶的思想将CV模型的原始能量泛函进行一系列的推导,简化得出连续最大流模型的能量泛函,然后给出了最大流模型在图论中的解释.连续最大流图像分割模型其分割结果易受参数和步长的影响,过分割会产生大量阶梯效应的伪影,而且纹理特征不明显.所以针对这种情
视觉目标追踪是计算机视觉重要研究领域之一,算法通过考察连续视频帧中目标的上下文信息,对被追踪目标的运动信息进行建模,然后基于所建立的模型对目标运动状态进行预测,并定位目标的位置。近年来,随着计算机技术、图像与视频处理技术及人工智能技术的迅速发展,视觉目标追踪广泛应用于智能视频监控、智能交通系统、智能视觉导航等领域,具有广阔的应用前景,已成为人们生活不可或缺的重要组成部分。基于相关滤波的追踪在速度和
“问题链”教学模式是一种以学生为主体,问题为主线的教学模式。教师在课堂上提出一连串由浅入深、环环递进的问题,学生通过分组讨论得到解决方案,以此来培养学生的物理学科核心素养。本文在高中电磁学课堂上应用“问题链”教学模式,对高二部分的电磁学课程进行教学设计和实践,并在教学实践前后对学生进行物理概念的前后测,通过学生的正确率来了解其概念转化情况,通过对学生和教师的访谈,了解他们对“问题链”教学模式评价和