首先,提出基于语义和长短期记忆神经网络的医学概念表示方法,利用医学概念之间的相似信息进行细粒度处理,针对医学概念中丰富的子字信息进行建模,将概念映射到向量空间,以获取更具医学语义信息的概念表示。同时建立三种不同的时控 LSTM 模型,添加时控门对序列进行有效建模,以同时捕获病程中出现的时间信息和事件信息,权重性地利用时间信息来模拟患者在临床序列中可能出现件,在不同程度上利用短期病程数据和长期病程数据,有效地提高了预测的准确率。
第一章 绪论
1.1 研究背景及意义
随着医疗信息系统的不断快速发展,电子病历(Electronic Medical Record,EMR) 数据数量与数据维度不断大幅增长,已经被应用于各种领域。电子病历是居民个人在医疗机构历次就诊过程中产生和被记录的完整、详细的临床数据资源,可以抽象为一系列临床事件的集合,包括药物记录、疾病诊断记录、生理指标、化验结果、非文字记录(医学影像、心电图、录音等)、既往史、遗传史、诊疗费用等,几乎囊括了患者过去与现在的所有医疗信息[1],其数量和复杂程度现已接近基因组规模。为推进健康中国建设,党中央、国务院在国家层面提出健康领域的中长期战略规划,颁布了《"健康中国 2030"规划纲要》,提出健康是促进人的全面发展的必然要求,经济社会发展的基础条件。实现国民健康长寿是国家富强、民族振兴的重要标志[2]。
作为医院信息系统的核心数据源,电子病历所能提供的丰富历史诊疗数据对改善医疗质量、确保医疗安全、改善医疗效率有着非常重要的意义。在医院管理方面,能够实现一体化信息管理,大大简化医护工作流程;在宏观人口卫生管理方面,能够帮助实时获取疾病信息,监控流行病、传染病并预测疫情发展趋势,从而实现更早、更有效的控制[3];在医疗护理方面,能够帮助医生直观发现问题,对临床诊断提供更有力的辅助。是推进医疗质量提升的“幕后推手”,也是实现医疗质量管理的重要技术手段与支撑工具,被业内视为医疗质量评价与促进工作的最佳数据源。因此,对电子病历的研究具有重要的理论和应用价值,对人类的发展有着巨大的意义。
随着医疗信息系统的不断快速发展,电子病历(Electronic Medical Record,EMR) 数据数量与数据维度不断大幅增长,已经被应用于各种领域。电子病历是居民个人在医疗机构历次就诊过程中产生和被记录的完整、详细的临床数据资源,可以抽象为一系列临床事件的集合,包括药物记录、疾病诊断记录、生理指标、化验结果、非文字记录(医学影像、心电图、录音等)、既往史、遗传史、诊疗费用等,几乎囊括了患者过去与现在的所有医疗信息[1],其数量和复杂程度现已接近基因组规模。为推进健康中国建设,党中央、国务院在国家层面提出健康领域的中长期战略规划,颁布了《"健康中国 2030"规划纲要》,提出健康是促进人的全面发展的必然要求,经济社会发展的基础条件。实现国民健康长寿是国家富强、民族振兴的重要标志[2]。
作为医院信息系统的核心数据源,电子病历所能提供的丰富历史诊疗数据对改善医疗质量、确保医疗安全、改善医疗效率有着非常重要的意义。在医院管理方面,能够实现一体化信息管理,大大简化医护工作流程;在宏观人口卫生管理方面,能够帮助实时获取疾病信息,监控流行病、传染病并预测疫情发展趋势,从而实现更早、更有效的控制[3];在医疗护理方面,能够帮助医生直观发现问题,对临床诊断提供更有力的辅助。是推进医疗质量提升的“幕后推手”,也是实现医疗质量管理的重要技术手段与支撑工具,被业内视为医疗质量评价与促进工作的最佳数据源。因此,对电子病历的研究具有重要的理论和应用价值,对人类的发展有着巨大的意义。
疾病预测是人工智能—医学交叉领域的重要课题,虽然人工智能[4]技术已广泛应用于疾病预测,但是,目前疾病预测方法仍然存在很多亟待解决的问题[5],首先,用药记录、临床疾病诊断等医学概念包含丰富的潜在关系,仅使用传统独热向量方法无法进行表达,需要进一步改进;其次,各类临床事件稀疏、多维,患者记录序列异构,导致难以采用传统方法进行建模;再次,临床事件时间间隔不规则,采样频率存在很大差异,很多已知研究将时间间隔不等长序列做相同的等间隔处理,忽略了丰富的时间信息。最后,大多数工作集中在单一疾病的诊断和预测上[6][7][8],而很少面向多种疾病进行普遍诊断预测,模型的泛化能力严重不足。因此,如何准确把握患者特征与病程序列特征,进而构建有效的疾病预测模型,提高预测的准确率、精度和泛化能力是目前研究热点之一。
...........................
1.2 国内外研究现状
如上节所述,构建富含语义信息和多维关系的临床事件表示能为后续工作建立良好的基础,面向多维异构临床事件,展开面向多种疾病的诊断预测在人工智能辅助医疗领域有着重要的应用价值。本章从医学概念表示学习与临床事件预测两方面概述研究现状。
1.2.1 医学概念表示学习
典型的电子病历系统中包含多种类型临床事件,可被概括为数值型(生理指标、化验结果等数值记录)、概念型(药物记录、疾病诊断记录等医学概念记录)及自由文本型(医生病情描述)、非文本型(医学影像、心电图、录音等)等。在疾病的早期发现[8]、风险评估[10]、功效比较研究[11]等许多医学信息学研究中,医学概念表示方式直接决定了后续模型的效率和精度[12]。研究者们通常改进医学概念表示,建立患者表示框架,达到优化后续预测任务的目的。针对医学概念表达所呈现的高维、稀疏、语义损失等状况,研究者们做出了离散代码表示、语义信息表示等大量工作,本节着重对其进行了介绍。同时,针对多种类型临床事件同时出现的情况,正在涌现出多种基于关系的异构事件表示方法,非常值得进一步研究。

.......................
...........................
1.2 国内外研究现状
如上节所述,构建富含语义信息和多维关系的临床事件表示能为后续工作建立良好的基础,面向多维异构临床事件,展开面向多种疾病的诊断预测在人工智能辅助医疗领域有着重要的应用价值。本章从医学概念表示学习与临床事件预测两方面概述研究现状。
1.2.1 医学概念表示学习
典型的电子病历系统中包含多种类型临床事件,可被概括为数值型(生理指标、化验结果等数值记录)、概念型(药物记录、疾病诊断记录等医学概念记录)及自由文本型(医生病情描述)、非文本型(医学影像、心电图、录音等)等。在疾病的早期发现[8]、风险评估[10]、功效比较研究[11]等许多医学信息学研究中,医学概念表示方式直接决定了后续模型的效率和精度[12]。研究者们通常改进医学概念表示,建立患者表示框架,达到优化后续预测任务的目的。针对医学概念表达所呈现的高维、稀疏、语义损失等状况,研究者们做出了离散代码表示、语义信息表示等大量工作,本节着重对其进行了介绍。同时,针对多种类型临床事件同时出现的情况,正在涌现出多种基于关系的异构事件表示方法,非常值得进一步研究。

.......................
第二章 基于语义和可变间隔递归网络的医学概念表示方法
2.1 引言
医学概念是指诊断记录、药物记录等以概念形式呈现的临床事件,蕴含着丰富的医学语义信息,是临床事件的重要组成部分,对医学概念进行传统的独热向量编码会丢失丰富的医学信息,需要进行更具语义信息的向量表达。同时,由于电子病历数据拥有强时序特征,因此更适合采用时间序列分析方法对其展开研究。
目前,LSTM 等方法已经被广泛地应用于电子病历序列研究的多个领域,LSTM 是一种带有门控的 RNN,通过记忆单元(memory cell) 保存历史信息,通过输入门 (inputgate),遗忘门(forget gate),输出门(output gate) 更新和利用历史信息。由于 LSTM 具有保存、读取、重置和更新长期历史信息的能力,对具有长时依赖关系的数据能够很好地建模。但是,由于各类临床事件的发生时间存在强烈的非均衡性,晚期事件显然相对早期事件对后续预测有着更加重要的影响,而经典的 LSTM 模型将所有事件等间隔处理,损失了大量的时间信息,因此需要对不同时间间隔建模,以捕获更多信息。
2.1 引言
医学概念是指诊断记录、药物记录等以概念形式呈现的临床事件,蕴含着丰富的医学语义信息,是临床事件的重要组成部分,对医学概念进行传统的独热向量编码会丢失丰富的医学信息,需要进行更具语义信息的向量表达。同时,由于电子病历数据拥有强时序特征,因此更适合采用时间序列分析方法对其展开研究。
目前,LSTM 等方法已经被广泛地应用于电子病历序列研究的多个领域,LSTM 是一种带有门控的 RNN,通过记忆单元(memory cell) 保存历史信息,通过输入门 (inputgate),遗忘门(forget gate),输出门(output gate) 更新和利用历史信息。由于 LSTM 具有保存、读取、重置和更新长期历史信息的能力,对具有长时依赖关系的数据能够很好地建模。但是,由于各类临床事件的发生时间存在强烈的非均衡性,晚期事件显然相对早期事件对后续预测有着更加重要的影响,而经典的 LSTM 模型将所有事件等间隔处理,损失了大量的时间信息,因此需要对不同时间间隔建模,以捕获更多信息。
综上,对概念型医疗事件进行嵌入向量表达能够进一步融合语义信息,对长短时事件进行非等间隔建模,使模型拥有综合患者长短期患病信息的能力。本章首先将概念型临床事件进行细粒度嵌入词向量预处理,其次,在传统 LSTM 模型上添加时控门,进而赋予具有不同时间间隔的医疗事件不同权重,最终对临床事件做出更加科学的预测,最终通过大量实验验证了算法的有效性。
..........................
2.2 基于语义的医学概念表示方法
对于疾病预测问题,模型的输入直接决定了后续预测的精度。针对富含语义信息的概念型医疗事件,本节基于传统自然语言处理方法,提出一种融合细粒度子字信息的医学概念表示方法。
2.2.1 基于自然语言处理的语义表示
Skip-gram 使用选定的目标词汇来预测上下文出现的词汇,即给定单词,Skip-gram选择目标词汇并对其邻居进行预测,如图 2-1 所示。

............................
..........................
2.2 基于语义的医学概念表示方法
对于疾病预测问题,模型的输入直接决定了后续预测的精度。针对富含语义信息的概念型医疗事件,本节基于传统自然语言处理方法,提出一种融合细粒度子字信息的医学概念表示方法。
2.2.1 基于自然语言处理的语义表示
Skip-gram 使用选定的目标词汇来预测上下文出现的词汇,即给定单词,Skip-gram选择目标词汇并对其邻居进行预测,如图 2-1 所示。

............................
第三章 基于语义和时间卷积网络的医学概念表示方法................................31
3.1 引言............................... 31
3.2 基于时间卷积网络的医学概念预测............................. 31
第四章 基于异构图卷积的医学概念表示方法..................................41
4.1 引言................................... 41
4.2 图网络结构............................... 42
第五章 总结与展望.................................. 51
5.1 总结.................................. 51
5.2 展望..................................... 52
第四章 基于异构图卷积的医学概念表示方法
4.1 引言
临床事件之间有着相当复杂的时序依赖关系,呈现出明显的异构性,传统工作一般仅依照专家知识,使用特定事件进行预测建模,避开对异构多类型事件的处理。研究者更应该建立多特征融合的数据集,综合考虑患者的各项临床信息,进行多任务学习。因此,如何对患者多类型异构数据进行表示学习非常重要。
图网络能够表示事件之间的复杂连接信息,挖掘各种事件之间的关系,提取潜在模式。电子病历数据包含患者信息、疾病诊断信息、药物使用情况等多种事件,各种类型事件之间存在强连接性,具备图谱结构,非常适合采用图挖掘方法进行学习。而图卷积神经网络通过网络嵌入的方式,聚集邻居节点的特征信息,将节点的局部结构信息进行融合,将网络节点表示到低维向量空间中,达到保留网络拓扑框架与节点内容信息的目的,从而增加模型的表达能力,使得后续分析任务能够高效进行。
本章将时间控制单元与图卷积神经结构结合,融合时间信息与事件关系开发了一种深度时控图卷积框架。通过图网络结构对所述异构多维数据进行建模,获取各事件之间的依赖关系。通过时控模块捕获不同事件的时序信息,对异构数据的不同频率进行采样,从而实现面向多任务的动态疾病辅助诊断。
....................
4.1 引言
临床事件之间有着相当复杂的时序依赖关系,呈现出明显的异构性,传统工作一般仅依照专家知识,使用特定事件进行预测建模,避开对异构多类型事件的处理。研究者更应该建立多特征融合的数据集,综合考虑患者的各项临床信息,进行多任务学习。因此,如何对患者多类型异构数据进行表示学习非常重要。
图网络能够表示事件之间的复杂连接信息,挖掘各种事件之间的关系,提取潜在模式。电子病历数据包含患者信息、疾病诊断信息、药物使用情况等多种事件,各种类型事件之间存在强连接性,具备图谱结构,非常适合采用图挖掘方法进行学习。而图卷积神经网络通过网络嵌入的方式,聚集邻居节点的特征信息,将节点的局部结构信息进行融合,将网络节点表示到低维向量空间中,达到保留网络拓扑框架与节点内容信息的目的,从而增加模型的表达能力,使得后续分析任务能够高效进行。
本章将时间控制单元与图卷积神经结构结合,融合时间信息与事件关系开发了一种深度时控图卷积框架。通过图网络结构对所述异构多维数据进行建模,获取各事件之间的依赖关系。通过时控模块捕获不同事件的时序信息,对异构数据的不同频率进行采样,从而实现面向多任务的动态疾病辅助诊断。
....................
第五章 总结与展望
5.1 总结
当下,随着电子病历数据的不断丰富,医疗大数据挖掘已经成为新的热点。电子病历中往往存在多种临床事件,而医学概念作为临床事件的重要组成部分,对其进行合理表示是后续工作的关键。本文旨在探索一种医学概念表示方式,能够对医学事件进行高效预测,从而辅助医生进行客观判断分析,以期更早发现潜在患病风险。
首先,提出基于语义和长短期记忆神经网络的医学概念表示方法,利用医学概念之间的相似信息进行细粒度处理,针对医学概念中丰富的子字信息进行建模,将概念映射到向量空间,以获取更具医学语义信息的概念表示。同时建立三种不同的时控 LSTM 模型,添加时控门对序列进行有效建模,以同时捕获病程中出现的时间信息和事件信息,
5.1 总结
当下,随着电子病历数据的不断丰富,医疗大数据挖掘已经成为新的热点。电子病历中往往存在多种临床事件,而医学概念作为临床事件的重要组成部分,对其进行合理表示是后续工作的关键。本文旨在探索一种医学概念表示方式,能够对医学事件进行高效预测,从而辅助医生进行客观判断分析,以期更早发现潜在患病风险。
首先,提出基于语义和长短期记忆神经网络的医学概念表示方法,利用医学概念之间的相似信息进行细粒度处理,针对医学概念中丰富的子字信息进行建模,将概念映射到向量空间,以获取更具医学语义信息的概念表示。同时建立三种不同的时控 LSTM 模型,添加时控门对序列进行有效建模,以同时捕获病程中出现的时间信息和事件信息,
权重性地利用时间信息来模拟患者在临床序列中可能出现件,在不同程度上利用短期病程数据和长期病程数据,有效地提高了预测的准确率。
其次,构建了一种基于语义和时间卷积网络的医学概念表示方法,首先,采用FastText 方法对医学概念进行细粒度表达,捕获更多语义信息。其次,采用因果卷积和扩张卷积结构解决序列预测中的长程依赖问题,采用卷积参数共享机制,减少模型计算量,提取更多有效特征,再次,设置残差连接结构,避免模型过深导致的性能退化问题,使得模型可以提取高维度丰富的特征。基于以上优势,本章对医学概念建立富含语义信息的嵌入表示,采用时间卷积网络捕获事件长时依赖关系,进行建模预测,实验结果表明,基于语义和时间卷积网络方法拥有长时预测能力,使得长序列数据能够得到高效预测,对临床诊断能够起到良好的辅助作用。
其次,构建了一种基于语义和时间卷积网络的医学概念表示方法,首先,采用FastText 方法对医学概念进行细粒度表达,捕获更多语义信息。其次,采用因果卷积和扩张卷积结构解决序列预测中的长程依赖问题,采用卷积参数共享机制,减少模型计算量,提取更多有效特征,再次,设置残差连接结构,避免模型过深导致的性能退化问题,使得模型可以提取高维度丰富的特征。基于以上优势,本章对医学概念建立富含语义信息的嵌入表示,采用时间卷积网络捕获事件长时依赖关系,进行建模预测,实验结果表明,基于语义和时间卷积网络方法拥有长时预测能力,使得长序列数据能够得到高效预测,对临床诊断能够起到良好的辅助作用。
最后,针对电子病历数据多维特点,本文生成基于多维信息的异构图模型,对所述多维数据进行建模;将时间控制单元与图神经结构结合,构建深度时控图卷积模型,使得模型能够处理带有时间信息的多维电子病历数据。
通过在真实数据集上进行大量对比实验,结果表明,所提出的三种方法皆取得了更具竞争力的结果,对医学信息研究有着极大意义。
参考文献(略)
通过在真实数据集上进行大量对比实验,结果表明,所提出的三种方法皆取得了更具竞争力的结果,对医学信息研究有着极大意义。
参考文献(略)