基于图半监督学习范文的疾病关联miRNA预测方法研究

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:42366 论文编号:sb2020101113572233376 日期:2020-10-31 来源:硕博论文网
人类疾病有着密切的关系。因此,预测 miRNAs 与疾病之间的关系成为一个热门话题。尽管传统的实验方法是可靠的,但它们只能识别有限数量的关联,因为它们通常实验周期长并且实验成本高。因此,基于计算方法对可靠的疾病相关 miRNAs进行了有效的预测。在本文中,我们提出了四种计算方法对该问题展开研究。

第一章 绪论

1.1 研究背景和意义
microRNA(miRNA)是生物基因的重要组成成分,其由大约 20-24 个核苷酸组成,它能够控制基因的表达从而控制生物过程。根据研究数据发现,在各种复杂疾病的发生与发展过程中,都与 miRNA 有着紧密相关的联系,因此挖掘潜在的疾病和 miRNA 的关联关系不仅能够为发掘复杂疾病的发病机理提供新的线索,同时也有益于未来指导临床药物的研发。自从首次在线虫中发现 lin-4 和 let-7 两种 RNA[1, 2],miRNA 作为一个全新的分子进入人们的视野,人们对 miRNA 的研究也拉开了序幕,研究表明其在基因表达水平上发挥着至关重要的作用[3-6]。随着研究的不断深入,越来越多的研究结果也表明,miRNA 和人类疾病有着密切的联系,且在人类疾病的形成、发展、诊疗和评估的过程中起到特殊的关键性作用。而且通过癌症相关工作的测定,许多特定癌症相关的 miRNA 在其癌症细胞与正常细胞中的基因表达情况差别很大,这个结果也表明 miRNA 与癌症的产生和发展是密切相关的[7-9]。
对于人类疾病的治疗和预防,是医务工作者和学者们一直以来的重要探索内容[10]。运用生物信息学的方法来分析大数据时代产生的海量生物数据,其能够将生物数据转化为有意义的医学诊断和治疗信息,从而促进社会医疗事业的发展与进步。所以,发掘 miRNA-疾病的潜在关联信息对于疾病的治疗和新药物的研发都具有举足轻重的作用。
随着大数据时代的到来,各种生物数据也在日益增长,人们对于疾病相关的 miRNA的研究工作也给予了很高的期望。在前些年,所能挖掘到的 miRNA 与疾病有关联信息的方法一直都是代价高且实验周期长的传统生物实验方法,这些缺点严重阻碍了研究的步伐[11, 12]。随着社会的进步和信息技术的发展,生物医学数据呈爆炸式增长,临床医生将面临浩如烟海的医疗数据以及医疗知识,如何有效分析这些数据,挖掘疾病预防、诊断知识是21 世纪生物医学和信息学面临的严峻挑战。基于遗传信息的疾病预测支持系统、辅助临床医师解释分子标记数据的疾病诊断系统将成为临床医生必不可少的工具。
...........................

1.2 国内外研究现状
虽然传统的生物实验的方法(如 qRT-PCR)已经为探究 miRNA 和疾病的关系已经做出了巨大的贡献,然而,代价高且周期较长的传统实验方法并不能满足大数据量的预测和需求。因此,研发出能够适用于大规模挖掘 miRNA-疾病关联关系的高效预测模型是迫切需要的。
在过去的几年间,学者们提出了许多不同的预测方法来完成疾病相关的 miRNA 的预测任务,并取得了不错的预测性能。Jiang 等人[18]提出了首个超几何分布的计算模型用来预测了潜在的 miRNA 与疾病之间的关联关系,这一几何模型的预测也证实了与功能相关的 miRNA 往往与表型相似的疾病有关。然而,这个计算方法具有较高的假阳性和假阴性,这严重的影响到了方法的可靠性和鲁棒性。Xuan 等人[17]首先考虑通过 miRNA 的聚类信息来计算 miRNA 的功能相似性,然后根据加权 K 近邻算法来预测疾病相关的 miRNA。 然而,他们的方法不能应用于没有任何已知相关 miRNA 的疾病。 为了解决这个问题,他们提出了另一种基于双层随机游走模型的 MIDPE 方法,其中不同类别的节点被分配了不同的过渡权重[18]。Mork 等人将 miRNA 与蛋白质的信息考虑进来去预测 miRNA 与疾病的关系,这个方法不仅可以预测 miRNA 与疾病的关系,而且可以预测蛋白质与疾病的关系[19]。随后,Chen 等人又提出了名为 WBSMDA 的方法,通过整合 miRNA 的功能相似性,疾病的语义相似性,miRNA 和疾病的高斯核相似性以及已知的 miRNA 与疾病的关联关系来计算出一个最终的关联性得分[20]。
最近,有学者已经提出了几种利用网络拓扑结构的基于路径的方法来预测 miRNA-疾病关联信息。Sun 等人提出了一种称为 NTSMDA 的方法,该方法仅利用 miRNA-疾病网络拓扑相似性来预测与疾病相关的 miRNA[21]。然而,由于 NTSMDA 过度的依赖网络拓扑结构,它不能够用来预测没有任何关联 miRNA 的疾病。You 等人首先构建了一个异构网络,然后通过在异构网络上执行深度优先搜索算法来推断与疾病相关的 miRNA[22]。与NTSMDA 相比,You 等人的方法明显优势在于它可以应用于新的疾病和新的 miRNA,这极大地提高了他们方法的实用性和可靠性。最近,Chen 等人也提出了基于网络距离的NDAMDA 方法来预测 miRNA-疾病关联[23]。NDAMDA 不仅考虑了两种 miRNA 或疾病之间的直接网络距离,还将其各自的平均网络距离考虑到所有其他 miRNA 或疾病中。
...............................

第二章 疾病关联 miRNA 的预测方法

2.1 miRNA 及其功能相似性网络
miRNA 是一种单链的微小 RNA,其通过抑制信使 RNA 的翻译从而来达到调控生物过程的功能。miRNA 可以通过单个形式或者通过组合形式来精准调控某个基因的表达。首次被发现的 lin-4 和 let7 两种 miRNA 是以一种未知方式诱发 mRNA 功能异常使得蛋白质翻译受到抑制,从而调控线虫发育进程。随着研究的深入,不少的学者们慢慢发现,像mir-14 和 mir-23 等这种类型的 miRNA 在细胞的分化和组织的发育过程中都起着尤为重要的作用。还有部分学者表明,在生物细胞的繁殖、生物细胞的发育、生物细胞的凋亡、生物细胞的死亡、生物细胞的代谢、生物细胞的分化这些生命过程中,miRNA 都有参与其中。截止到目前为止,科学家们发现共有 28645 个 miRNA 分子存在与动物植物以及病毒中,这也表明了 miRNA 在生物体内具有不可代替的重要功能。
2.1.1 miRNA 简介
MiRNA 是一类长度约为 20-50 个核苷酸组成的非编码 RNA,其通过碱基互补的方式影响信使 RNA(mRNA)的功能,从而参与多个生物过程。到目前为止,科学家们在动物,植物以及人体中都发现了 miRNA 并且确认了 miRNA 的生物调控功能。更有研究表明,miRNA 与多种人体疾病有着密切的联系。例如,调节细胞周期的 hsa- let-7 家族和诱导细胞死亡和细胞增殖的 hsa-mir-200 家族在肺癌的肿瘤细胞中均有差异表达,hsa-mir-101 的异位表达可显著抑制肝癌细胞生长的能力。miRNA 与疾病的关联关系的研究推动了人类疾病的发生、发展、诊疗、评估以及对其相应的治疗药物的研制,因此挖掘 miRNA-疾病的关联关系对于人类健康事业的发展和人类疾病的治疗都非常重要。
图 2.1 miRNA 的功能相似性网络模型及其数据表示
.............................
2.2 疾病及其语义相似性网络
Mesh 数据库也是一个开源的数据库,记录了权威的疾病分类信息,我们可以从网上直接下载数据集(http://www.nlm.nih.gov/)。它为研究疾病之间的关系提供了巨大的便利,疾病的分布情况如图 2.2 所示。每一种疾病均可以被表示为 DAG(Directed Acyclic Graph),每种疾病的 DAG 由多个节点和多条边构成[27]。每一个节点代表着一种疾病,连线表示他们之间的关系。如图 2.3 所示,这是 Liver neoplasms 的 DAG 图。
疾病 D 可以被表示成一个 DAG 图模型,其定义为:DAGD=(D,TD,ED),其中 TD 表示该疾病的祖先节点,
ED 表示所有疾病之间的关联关系。GD(t)表示疾病 t 对疾病 D 的贡献度,可以通过下列式子进行计算[27]:
图 2.2 HMDD V2.0 数据集中疾病的分布图
...........................
第三章 基于全局线性邻居的 mi RNA-疾病关联预测方法............................... 15
3.1 引言................................15
3.2 算法描述....................................16
第四章 基于矩阵恢复和标签传播的 mi RNA-疾病关联预测方法.......................... 29
4.1 引言......................................29
4.2 算法描述.........................30
第五章 基于 L1 范数的图半监督学习方法的 mi RNA-疾病关联预测方法...........................43
5.1 引言.........................43
5.2 算法描述.............................44

第六章 自适应多视图多标记学习用于挖掘疾病相关的 miRNA

6.1 引言
越来越多的证据表明,microRNAs(miRNAs)在各种病理过程中发挥着重要作用,因而与许多复杂的人类疾病密切相关。潜在的疾病相关 miRNAs 的鉴定为了解疾病的病因和发病机制提供了新的机会。虽然已经有许多计算方法被提出来预测可靠的 miRNA 疾病关联,但是它们受到各种限制,影响了预测的准确性和适用性,在前三章中,我们提出了三种不同的方法来预测 miRNA-疾病之间的关联关系,虽然取得了优秀的实验效果,但是这三种方法不能利用多视图数据来完成预测任务,多视图数据之间存在着紧密联系,这些联系对于 miRNA-疾病的关联预测非常重要,但是如何将这些多视图数据放进一个统一的机器学习框架中进行学习是一个难题。在本研究中,我们设计了一种基于自适应多视图多标记学习(AMVML)的方法来挖掘疾病相关的 miRNAs。具体地,考虑到当前数据集中存在的固有噪声,我们从多个相似性信息中自适应地为疾病和 miRNA 学习新的相似图。然后基于多标记学习,同时更新从两个空间预测的 miRNA 疾病关联。特别地,我们从理论上证明了 AMVML 的收敛性。为了充分说明该方法的预测性能,我们比较了 AMVML和四种已有方法在不同验证框架下的预测准确率。实验结果表明我们的方法在不同的评价指标下均取得了较好的性能,这表明我们的方法中用于发现更多真正的 miRNA 疾病关联关系。对甲状腺肿瘤的病例研究进一步确定了该方法的有效性。最后,我们期望我们的方法可以作为一个可靠和有效的工具来发现新的疾病相关的 miRNAs。
图 6.1 AMVML 算法流程图
.................................
 
第七章 总结与展望

7.1 全文总结
MiRNAs 是一类小的非编码 RNA,与多种复杂的生物学过程有关。越来越多的研究表明,miRNAs 与许多人类疾病有着密切的关系。因此,预测 miRNAs 与疾病之间的关系成为一个热门话题。尽管传统的实验方法是可靠的,但它们只能识别有限数量的关联,因为它们通常实验周期长并且实验成本高。因此,基于计算方法对可靠的疾病相关 miRNAs进行了有效的预测。在本文中,我们提出了四种计算方法对该问题展开研究。下面对本文工作做一个总结:
我们提出的四种方法都用到了 miRNA 的功能相似性数网络,疾病的语义相似性网络以及人类 miRNA 和疾病的关联网络,并且都是基于 miRNA 与疾病构成的异构图模型,采用半监督学习的方法来进行关联预测。不同的是,为了解决数据噪声问题,GLNMDA采用全局线性重构算法重构了 miRNA 的功能相似性数据和疾病的语义相似性数据,然后采用标签传播算法来完成预测任务。考虑到高斯核相似性是度量 miRNA 和疾病相似性的有效方法,MCLPMDA 首先采用矩阵恢复算法来解决数据集不完整的问题,然后分别计算 miRNA 和疾病的高斯核相似性,然后将高斯核相似性和矩阵恢复算法恢复的完整相似性以及其恢复之前的相似性进行融合,最后采用标签传播算法来预测 miRNA 和疾病之间的关联信息。由于 L1 范数可以产生稀疏解,使用 L1 范数的目标函数可以为潜在的 miRNA疾病关联提供更可靠的预测结果,因此我们提出了使用 L1 范数约束的半监督模型(L1SSLMDA)。L1SSLMDA 首先根据最新版本的 MeSH 数据集和 HMDD 重新计算miRNA 功能相似性和疾病语义相似性,然后在 miRNA 空间和疾病空间中迭代更新相似矩阵和关联矩阵,最后分别从 miRNA 空间和疾病空间获得的优化结果以合适的权重整合作为最终的预测结果。为了解决目前数据库中的数据噪声问题,AMVMLMDA 会自适应的去学习一个新的相似性关系图,然后再根据多标记学习获得预测结果。交叉验证结果以及案例分析结果表明这四种方法都可以作为一个有效的工具来挖掘疾病相关的 miRNA 信息。
参考文献(略)


如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217