论文部分内容阅读
计算机辅助医学信息处理属于计算机科学和医学的交叉研究,如何对文本与图像进行高精度标注是制约医学信息处理发展的技术难题,有效获取文本与图像的空间上下文联系能够有效解决该难题。条件随机场模型(Conditional Random Fields,CRFs)是适用于分类及标注结构化数据的概率图模型,其主要优势是可以描述大尺度空间上下文信息和直接后验概率建模,有效提高文本与图像的标注精度。基于CRFs理论的优势,本文针对当前中文文本病历识别与医学图像标注中存在的问题,进行基于空间上下文特征的CRFs模型的研究。研究的主要内容及创新点如下:1、针对中文文本病历的特点,提出了构建层叠CRFs模型对文本病历中的命名实体进行识别。首先在低层CRFs模型中对两类简单命名实体进行识别,即身体基本部位名称与基本疾病名称;然后将得到的标注结果传送到第二层CRFs模型,并加入一个根据文本病历特点设计的特征序列,这个自定义特征序列由词性特征和实体特征交互融合而成,在论文中我们称之为自定义组合特征。实体特征是指第一层CRFs模型的标注结果。第二层CRFs模型的输入数据不仅包含有观测序列,还包含第一层模型识别后的标注结果,这为进一步识别最终实体类别——复杂疾病名称及临床症状提供更可靠的依据。通过对在医生指导下构建的中文文本病历语料库进行多组封闭与开放测试表明,基于自定义组合特征的层叠CRFs模型比未加入自定义组合特征的层叠CRFs模型,F值提高3%,比单层CRFs模型,F值提高7%,其他各项评测指标及总体性能均有显著提高。即便是对那些训练语料中未曾出现的实体名称,也能够进行准确地识别。此外,它还有效地解决了具有嵌套构词特点的中文文本病历命名实体在标注识别中产生歧义性的问题。2、针对骨肉瘤MRI图像的各组织之间结构复杂,提出基于CRFs模型的骨肉瘤MRI图像中多类目标分类标注方法。由于骨肉瘤MRI图像中每一个像素属于某个类别的概率不仅与其自身特征有关,还与其周围像素的信息分布紧密相关。因此在对骨肉瘤MRI各类目标(肌肉、骨组织、脂肪、肿瘤等)纹理特征建模的同时,也对能够表达各类间相互约束关系的特征进行建模。模型充分考虑各类目标的空间关系,提升特征的区分度。通过在相关图像纹理上定义纹理空间滤波器,得到更加具有区分度的纹理、形状、相对位置、上下文信息等重要特征,本文将其称之为上下文环境特征。然后采用基于这些特征的JointBoost分类器来构建CRFs模型的一元势函数,对标注样本进行训练。经过实验表明,该算法实现了骨肉瘤MRI图像中同时对多类目标进行分类标注的目标,特别是在结构不规则且多变化的肿瘤识别方面,基于上下文环境特征的CRFs模型相对完善,准确率相比现有的骨肉瘤MRI图像识别算法有提高,可作为临床借鉴。3、针对基于CRFs模型的骨肉瘤MRI图像时间复杂度高的问题,提出基于区域CRFs模型的骨肉瘤MRI图像标注方法。该方法首先利用一种基于图结构的过分割算法将骨肉瘤MRI图像分割成若干小的均匀区域,然后将区域作为图的节点、用边连接相邻节点构建图模型。相对以像素为节点建模,该方法减少了图模型中的节点数目,减小了图的规模。实验结果表明,相比以像素为节点的方法,基于区域的CRFs模型缩短了运行时间,并实现对骨肉瘤MRI图像中多类目标同时分类标注的目的。本文采用的医学文本和医学图像数据来源于XX省肿瘤医院及XX大学第X医院,每组数据均经过临床医生及放射科医生的审核确认。