基于机器学习的甲状腺乳头状癌临床数据分析与诊断模型探讨

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:43522 论文编号:sb2023071421083950728 日期:2023-07-25 来源:硕博论文网

本文是一篇临床医学论文,本文运用了传统医学统计与机器学习相结合的方法对甲状腺乳头状癌(PTC)患者的临床数据进行分析。
第1章 绪论
1.1 研究背景
甲状腺结节是颈部较为常见的肿块性疾病之一,在我国的发病率超过了7%[1]。近些年来,甲状腺结节患者人数一直在增加,甲状腺结节会导致甲状腺的功能发生改变,最终可能发展成为甲状腺癌。在世界最常见的癌症排名中,甲状腺癌居于第16位,并且以每年6.2%的速度增长,成为如今增长最快的恶性肿瘤之一[2]。美国1975年的甲状腺癌的年发病率为4.9/10万,在之后的几年中逐年增高,于2006年达11.0/10万,增长了2倍以上,如若继续保持这种速度增长,甲状腺癌会成为美国第4位最常见的恶性肿瘤[3]。澳大利亚甲状腺癌的发病率从年至年男性人群增长了117.8%,女性人群增长了252.2%[4]。从1999年到2013年期间,韩国的甲状腺癌发病率增长了近10倍,高居韩国恶性肿瘤的首位[5]。我国的现有报道资料也揭示其发病率也在逐渐增高,北京地区对比了1995-2010年甲状腺癌的发病率从1.2/10万人升至9.9/10万人,增长了518.8%[6]。2011年浙江省报告甲状腺癌发病率是2007年的3倍[7]。而甲状腺癌在早期无明显不适,早发现对患者的预后非常重要[8],所以提高早期诊断率刻不容缓。
在甲状腺癌中,又可细分为未分化癌(ATC)、乳头状癌(PTC)、滤泡状癌(FTC)、髓样癌(MTC),后三者又被称作分化癌。其中,又是以PTC最为多见,约占甲状腺癌的80%[9]。现如今,医院对PTC的诊断主要是依靠超声检查、CT、穿刺活检技术。但超声检查对于恶性特征不明显癌瘤的诊断易与良性结节的诊断混淆[10];CT在良恶性结节的图像存在重叠之处,在临床上甲状腺结节患者中有15-30%无法确定是良性还是恶性肿瘤[11]。而穿刺活检是有创操作,难以被患者接纳,其次,在很小的结节行穿刺时难以取样[9]。这三种检测手段并不能很好地区分PTC与良性结节。随着科学技术不断进步,无创、低成本、简单便捷、客观具体的血清标志物逐渐成为了学者们的研究热点[12],但如今仍没有一种标志物能够满足他们对PTC诊断的预期[13-14]。探索一种可以对良性甲状腺结节、PTC进行准确预测分类的新途径,从而进行早期治疗,对降低PTC的死亡率具有非常重要的意义[15]。
...........................
1.2 研究意义
大体说来,单个个体的临床数据存在随机性,但其所在群体的数据会呈现一定的规律性或某种趋势,因此PTC患者的临床数据具有潜在的研究价值。通过数据预处理、描述分析、发掘,可以从纷繁芜杂的数据中探寻有效的信息,揭示PTC的影响因素,为医务人员做出准确的诊断给予指导。
其次,由于PTC发病比较隐匿,在临床上又缺乏公认的PTC血清标志物,难以进行早期筛查和诊断,从而错过了最佳治疗时间,这可能会影响患者的生存状态。因此,本文分别通过传统医学统计方法与机器学习的特征重要度方法对PTC临床数据进行分析,探讨PTC诊断的重要指标。对于医务人员来说,这些指标可拓宽初步诊断PTC参考因素,提高PTC的早期诊断率;最后,基于上述两种方法筛选的指标分别建立五种PTC的诊断模型,并将建立的模型进行比较,探索这些模型与指标对鉴别PTC的诊断价值,从而可以达到指导PTC术前诊断的目的。此外,本研究还可以让医务工作者对相关的检查指标更加警觉与防范,进一步减少漏诊现象的出现。综上,运用机器学习对PTC患者的临床数据进行分析具有着非常重要的现实意义。
......................
第2章 机器学习理论基础
2.1 Logistic回归
2.1.1 Logistic回归介绍
Logistic回归是传统医学中进行数据分析时应用最为广泛的模型之一,它非常巧妙的将回归问题转变为分类问题,比较好的解决了因变量是分类型变量的回归问题,对于不同的研究目的,如:疾病的诊断、预测、寻找影响因素[48]。其要求因变量类型必须为分类变量,因此从本质上来说,它是分类算法[49]。它根据因变量的取值类别的个数可划分为二分类和多分类两种情况[50],在实际应用中,二分类变量更为常见。

临床医学论文怎么写
临床医学论文怎么写

..................................
2.2决策树
2.2.1 决策树简介
决策树可根据最终结果细分为回归树与分类树,顾名思义,前者输出的是一个明确的数值,而后者则会输出类别编号。但在医学领域中,分类树的应用占大多数情况。若要理解决策树,就必须清楚以下三个关键词组:叶节点、中间节点、根节点。根节点是开始节点,数据都存入其中;最终的每个分类结果都能用若干个叶节点表示;而在根节点与叶节点之间的节点称之为中间节点,每一条有向边是一个判断条件。
决策树生成可分为两步:树构建与树剪枝。前者包含阈值的明确以及节点的分裂,通常情况下,树若生长,则代表至少某一节点不纯度较大,我们会将该节点分裂为多个子节点,在这个分裂过程中时,为了保证分类效果最佳,我们就要选取恰当的阈值,低于该阈值时,树就会停止生长。后者则是为了防止模型太过于复杂,有的分支仅仅只是展示出数据的孤立值、噪音,这样过拟合就发生了。因此,决策人需要裁剪掉这些‘冗余’分支。
目前,构建决策树模型的算法主要有ID3[53]、C4.5[54]、CART[55],其中ID3是最基础的算法,其余算法都是在ID3算法上进行优化而形成的算法。
..........................
第3章 数据来源及预处理.............................25 
3.1研究对象........................................25
3.2 数据资料收集.....................25
第4章 PTC患者临床数据描述性统计分析........................29
4.1 PTC患者性别、年龄构成........................................29
4.2 PTC患者BMI指数情况分析...........................31
第5章 甲状腺良恶性结节临床指标的对比分析...............................35
5.1指标的正态性检验..................................35
5.2甲状腺结节良恶性组单因素分析........................36 
第6章 PTC诊断指标体系及诊断模型研究
6.1样本平衡检查
在分类模型建立之前,需要检查一下所纳入的样本是否平衡,若发现样本不平衡时,就需要运用欠采样或过采样方法对数据进行处理,否则后续所得结果可能会存在严重的偏差,甚至可能出现与实际相违背的结论。对于本研究来说,目的是建立PTC的诊断预测模型,所以针对Disease进行样本平衡检查,如图6-1所示,恶性组461人,占比51%,良性组450人,占比49%,可知样本是平衡的,可以进行后续的建模分析。

临床医学论文参考
临床医学论文参考

在许多关于PTC的诊断模型的研究中,主要指标仍是在甲功八项指标中筛选出有显著性差异的变量进行Logistic回归分析,而对其他因素进行探讨分析的较少。因此,在接下来的分析中,本文不仅记录了甲功指标还纳入了一些其他指标,以获得更为全面、客观的PTC诊断指标。同时,本文将运用两种筛选指标的方法进行分析,其一是基于传统医学统计筛选指标,另一个则是基于机器学习的重要度方法筛选指标,就二者所得指标分别建立Logistic回归、CART决策树、随机森林、GBDT以及XGBoost五种模型,并对这些模型进行比较,从而选择最优分类模型及其诊断指标。同时,本文对随机森林、GBDT、XGBoost三种模型的n_estimators寻找最优参数。
............................................
第7章 结论
7.1总结
本文运用了传统医学统计与机器学习相结合的方法对甲状腺乳头状癌(PTC)患者的临床数据进行分析,结论如下:
本次共收集911例样本数据,其中461例PTC患者,450例良性结节患者,收集的指标共31个。PTC患者男女比例约为3:7,符合其流行病学特点:PTC好发于女性,这说明数据具有良好的代表性。PTC患者年龄分布可近似看成正态分布,进一步对年龄进行离散化后发现,PTC患者年龄主要集中在30岁-50岁之间,所占比例接近50%,但无论何年龄段,均是女性人数高于男性。就BMI指数而言,在461位PTC患者中,超过半数的PTC患者存在着超重现象,超重人数为251人,其中,男性PTC患者中的超重比例是66.41%,女性PTC患者超重比例是49.85%,男性超重人数最多的年龄段是30-40,有26位患者存在超重情况,女性超重比例最大的年龄段是40-50,该年龄段超重的比例是64.52%,由此推测肥胖可能是PTC发病的危险因素之一。同时,对PTC患者中患有高尿酸血症、高甘油三酯血症、肥胖症、高胆固醇血症进行了统计,高居首位的是高胆固醇血症,所占比例为29.72%,其次是高甘油三酯血症,占比为19.96%,由此推测高胆固醇血症与高甘油三酯血症可能是PTC患者的高发人群。
通过对恶性组与良性组进行单因素分析发现,有年龄、T3等10个指标在两组间存在显著性差异(P<0.05),进一步通过多因素分析发现,年龄、T3等七项指标被纳入了多因素分析模型(P<0.05),其具体结果为:年龄与T4的OR值分别是0.958和0.990均小于1,表明二者同PTC的发病风险呈负相关;T3、FT4、TSH、铁蛋白、BMI的OR值分别是5.315、1.065、1.008、1.002、1.051,OR值均大于1,表明这五项指标与PTC发病风险呈正相关。
参考文献(略)


如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217