论文部分内容阅读
随着深度学习技术的飞速发展和在医疗领域的广泛应用,智慧医疗在我们生活中扮演着越来越重要的角色,逐渐形成了新的技术革命。然而现阶段,我国误诊病历每年平均约有5700万例,误诊率高达27.8%。其次,我国医生资源短缺的现象也非常严重,每人平均仅拥有0.0021位医生,尤其是在偏远地区,医疗资源更是分配不平衡,不仅医疗器械和日常药物匮乏,有临床经验的医生专家更是屈指可数。如果能让计算机自动实现病人症状的疾病辅助诊断,将使偏远地区病人不出家门就可以享受到专家级的诊疗,就会极大缓解医疗资源短缺等问题。因此,本文研究基于深度学习的医疗辅助诊断关键技术旨在提高计算机辅助诊断的准确性。本文所研究的医疗辅助诊断技术是通过医疗辅助诊断模型完成的,患者可根据主诉获得自身所患疾病的概率,可以有效地辅助医生针对病人主诉信息进行判断。本文采用深度学习技术来构建医疗辅助诊断模型并对患者主诉进行分析,即医疗文本分类工作,然而传统的深度学习算法存在以下不足:1)双向门限循环网络模型虽然训练效果较好,但对于句子的可解释性不够;2)TextCNN算法能有效地对文本进行分类,但存在过拟合和特征信息丢失的问题。针对上述问题,本论文提出了以下三种模型:一、提出了基于双向门限循环网络和自注意力机制相结合的医疗辅助诊断模型。双向门限循环网络模型(Bidirectional Gated Recurrent Unit,BiGRU)性能较好,且参数较少收敛更快,但是缺乏对句子的可解释性,而自注意力机制(Self-Attention Mechanism)可以获取更多需要关注的疾病症状信息,而抑制其他与症状无关的信息,增强对句子的可解释性,所以将自注意力机制与双向门限循环网络进行结合,提出BiGRU-SA模型对医疗文本数据进行分类,提高诊断准确率。二、提出了基于F-TextCNN的医疗辅助诊断模型。传统TextCNN模型在进行文本分类时采用卷积神经网络实现,其最大特点是网络机构简单,从而具有参数数目较少、计算量少、训练速度快等优点,但该模型的池化层使用最大池化法进行池化操作,从而会造成疾病症状特征信息的丢失。本文提出将池化层中的最大池化法改进为全部特征相连接的形式,可以有效提高模型的训练速度及准确率,对医疗文本数据的分类效果提升显著。三、提出一种基于BiGRU-SA和F-TextCNN相结合的医疗辅助诊断混合模型。该模型是将上述两个模型的输出结果进行融合,并采用加权平均法来得到最终结果。可以有效地平衡两个模型带来的负面作用,让准确率、召回率和F1-评测值保持在一个相对均衡、合理的水平。在最后,本文采用了准确率、召回率、F1-评测值这三项指标为评估标准,针对理论部分设计了相应实验。实验分析表明本文对模型所进行的改进是合理且有效的。