论文部分内容阅读
不明原发灶的颈淋巴结转移癌(Metastatic cervical carcinoma from unknown primary,MCCUP)是指在经充分的检查后仍没有任何原发肿瘤的证据的发生在颈淋巴结的转移性疾病,占所有头颈部肿瘤的1-4%。鳞状细胞癌是其主要病理类型,占75%~90%。确定MCCUP的原发部位目前仍是一项挑战,尽管根据头颈部淋巴的区域引流特征,提示MCCUP可能来源头颈部(口咽、喉、舌)或胸部(气管、支气管、肺、食管)。因此,开发一种新的有效的方法来确定MCCUP中的原发部位是非常迫切的。高通量和新一代测序技术的迅速发展使我们对癌症发生发展的分子机制的认识有了更深一步的认识。有高通量研究表明鳞状细胞癌(Squamous cell carcinoma,SCC)具有一定的共同组织学特征和分子标记。这使得鉴定病理类型以鳞状细胞癌为主的MCCUP的原发灶更困难。另一项高通量实验表明食管鳞状细胞癌(Esophageal squamous cell carcinoma,ESCC)与头颈部鳞状细胞癌(Head and neck squamous cell carcinoma,HNSCC)有着很强的相似性,而此两种鳞状细胞癌均为MCCUP的两个重要潜在的原发部位。因此在本研究中,我们通过研究一种新的方法来鉴别这两种鳞状细胞癌来辅助MCCUP的原发灶的诊断。我们从公共数据库下载了食管鳞状细胞癌和头颈部鳞状细胞癌的基因芯片数据集,使用R语言导入这些芯片数据并进行预处理后得到表达谱矩阵,行差异分析得到各个芯片的差异基因,再分别对食管鳞状细胞癌和头颈部鳞状细胞的芯片取交集作为这两种癌症各自的差异基因,然后对这两种鳞状细胞癌的差异基因进行集合运算得到它们的交集和差集(差集代表了这两种鳞状细胞癌的各自特有的差异基因,交集代表了它们的共同差异基因)。我们分别对这两种鳞状细胞癌的共同和各自特有的基因进行了 GO、KEGG通路和蛋白-蛋白相互作用网络(PPI)等分析,最后我们基于HNSCC与ESCC的各自特有差异基因,我们使用随机选择的方法提取特征进行特征选择,分别使用K近邻、随机森林、支持向量机等算法训练模型来预测和判断肿瘤组织类型。我们发现了这两种鳞状细胞癌的共同和各自特有的基因在GO、KEGG通路富集到功能和通路具有很多相同也有一些不同,蛋白-蛋白相互作用网络(PPI)分析亦是如此。基于三种机器学习算法建立的模型,我们使用一个独立的数据集进行验证发现由5个基因组成的支持向量机模型的准确率最高。通过本研究我们探索了食管鳞状细胞癌和头颈部鳞状细胞癌的差异基因不论是在相似度上,还是在所富集的GO功能、KEGG通路和PPI网络上都有诸多相似性同时也存在一些差异。由5个基因组成的支持向量机模型能有效的区分两种鳞状细胞癌,这可能有助于MCCUP患者的精确诊断。