英语论文艺术论文会计审计论文土建类论文农业科学论文代写论文专区公文范文代发论文代写作业论文检索代写论文价格论文格式留学生论文高中教学论文哲学论文政治论文经济学论文理工科学论文护理学论文管理科学论文教育学论文其他资料计算机科学论文医药学论文法律论文日本语论文文学媒体论文文化历史学论文社会学论文代写体育论文

英语翻译论文英美文学论文英语语言学论文英语其它商务英语论文英美文化论文

学科教育论文信息技术论文德育管理论文素质教育论文图书馆学论文教育心理学论文小学语文高效课堂论文小学语文电教论文小学英语电教论文小学数学电教论文中学英语电教论文中学音乐电教论文小学电教教育论文小学科学电教论文中学数学电教论文初中数学电教论文生物自然教学论文历史教学论文地理教学论文教育理论论文教育管理论文基础教育论文中等教育论文高等教育论文职业教育论文英语教学论文语文教学论文政治教育论文数学教学论文物理教学论文化学教学论文体育教学论文美术论文音乐论文中学化学电教论文

药学论文医学论文题目医学论文投稿医学论文格式医学其他泌尿科论文眼科论文外科论文医学硕士论文呼吸消化论文医院管理论文临床医学论文中医学论文医患关系论文

建筑工程论文土木工程论文城市规划论文建筑论文

工商管理论文管理基本理论论文成本管理论文档案管理论文企业研究论文管理理论论文企业文化论文项目管理论文MPA论文经济管理论文风险管理论文行政管理论文图书馆管理论文公共管理论文工程管理论文旅游管理论文市场营销论文人力资源管理论文秘书文书论文物流供应链管理论文信息管理论文电子商务论文战略管理论文代写mba论文

财政税收论文技术经济学论文农业经济论文债务市场论文投资决策论文融资决策论文宏观经济论文经济相关论文货币银行论文保险论文金融证券论文国际贸易论文中国经济论文经济学理论论文行业经济论文国际经济论文发展战略论文国民经济核算论文

财务分析论文MPACC论文财务控制论文会计研究论文财务管理体制论文成本会计论文审计论文电算化会计论文CPA行业论文管理会计论文会计理论论文会计毕业论文

国际法论文法学史论文公司法论文合同法论文经济法论文知识产权法论文司法制度论文法学理论论文国际商法论文宪法论文行政法论文刑法论文民法论文诉讼法论文

软件工程论文计算机网络论文计算机应用论文计算机安全论文计算机专业论文计算机论文范文

汉语言学论文古代文学论文现当代文学论文新闻传播学论文

中国古代史论文中国近代史论文传统文化论文文化战略论文宗教文化论文

农村研究论文人口问题论文伦理道德论文心理学论文社会其他民俗学论文

民主制度论文毛泽东思想论文政治学论文国际关系论文科学发展观论文马克思主义论文资本主义论文社会主义论文政治哲学论文邓小平理论论文

逻辑学论文中国哲学论文西方哲学论文国学论文美学哲学论文

音乐舞蹈论文环境艺术设计论文园林艺术论文网页设计论文室内设计论文戏剧论文动漫设计论文平面设计论文美学论文艺术理论论文电影电视论文美术绘画论文传播学论文

癌症发展分期的生物组学标志物检测算法研究

时间:2018-11-21 17:51来源:硕士论文作者:lgg 点击:
本文是一篇计算机专业论文,计算机的应用在中国越来越普遍,改革开放以后,中国计算机用户的数量不断攀升,应用水平不断提高,特别是互联网、通信、多媒体等领域的应用取得了不错。
本文是一篇计算机专业论文,计算机的应用在中国越来越普遍,改革开放以后,中国计算机用户的数量不断攀升,应用水平不断提高,特别是互联网、通信、多媒体等领域的应用取得了不错的成绩。(以上内容来自百度百科)今天为大家推荐一篇计算机专业论文,供大家参考。
 
第一章 绪 论
 
1.1 课题研究背景和意义
癌症是一种在几千年前就被人们认识的疾病,但是对于癌症的治疗方案和用药却是延迟的。150 年前,人们认为癌症就是一些细胞形态不同于正常细胞的细胞老化或是基因的一些转变而导致的疾病。癌症起初多发于老龄化人群,死亡率仅次于心脏病居于世界第二位,人们预测癌症的死亡率将超过心脏病成为世界上死亡率最高的疾病。随着人类社会的进步,生物医学的发展,信息的逐步融合和开放,在许多生物和医学领域中都可以利用先进的技术去解答医学问题,尤其是在 21 世纪,高通量测序技术得到了长足的发展,人们对癌症的认识也逐步加深。现在人们认识到,多数的癌症起源于环境因素、代谢障碍、体细胞突变和其他病理生理过程,其余一部分归因于基因突变和遗传因素。虽然人们对于癌症的认识逐步的深入,但目前为止在临床上并没有彻底治愈的方法。对于癌症的发现和治疗还是遵循着三步:早期筛查、临床治疗、预后。早期筛查是定期检测,比如 HPV 筛查可以有效的减少宫颈癌的风险。临床治疗包括放化疗、免疫治疗等。预后是指医生根据经验对于某种疾病结局的一种概率预测。近年来,肿瘤的预后是评价癌症治疗是否有效的最常用手段。有两个指标常常被作为评价的标准:一个是五年生存率,一个是死亡率。如果一个病人在五年以内没有复发,我们就认为这个病人被治愈了。癌症的分期是被日本的科学家Yamagiwa 和 Ichikawa 在 20 世纪初首先提出来。癌症分期代表着肿瘤浸染的程度,标志着肿瘤发展的阶段以及是否有扩散和转移。现代实践根据是否浸染到其他器官、扩散到多少附近的淋巴结、是否扩散到邻近的位置,把肿瘤分期划分为I 到 IV 期,一般来说 I 期和 II 期属于早期,治疗后痊愈的机会大,III 期和 IV期属于晚期,五年生存率较低。
.........
 
1.2 本文主要研究内容
本文主要研究了肺癌和肾癌在多组学数据的分期标志物预测问题,针对甲基化组这种高维数据提出了一系列比较机器学习算法,同时针对肺癌的蛋白质组数据也进行了特有的机器学习算法建模和预测,分别都有良好的性能和生物发现。在癌症研究过程中发现,因为不同的癌症具有特异性,所以应该设计不同的算法进行研究,一套算法应用在肺癌数据上效果好,应用在肾癌数据上效果则可能不好,所以我们应根据肾癌的特点,在建模时考虑到性别的因素,结果非常具有指导意义。本文首先对两种肺癌亚型肺腺癌和肺鳞状细胞癌进行了全面的蛋白质生物标志物的筛选,这些标志物可以用来预测肺癌的发展分期。通过对两个亚型的蛋白质组数据进行一系列综合的筛选后,得到如下结果:肺腺癌三分类识别模型用了 28 个蛋白生物标志物达到了 86.51%的分类准确率,肺鳞状细胞癌三分类识别模型用了 41 个蛋白生物标志物达到了 89.47%的分类准确率。本文还设计了同转录组数据和甲基化组数据的比较实验,说明了文中提出的蛋白标志物对于肿瘤分期的预测具有很好的辨识能力,并且随着大规模蛋白质组测序技术的进步,将会有更多的有用信息被挖掘出来。
.........
 
第二章 组学数据及标志物检测相关问题
 
2.1 生物大数据概述
随着科学技术的发展,各行业都涌现出了大量的数据,人们称之为大数据。本文研究的是健康大数据,来源往往是临床采集、研究所采集还有一些专门的机构比如基因组研究所等,采用的技术都是基于高通量测序技术,从而得到生命科学领域的组学数据,包括转录组学、蛋白质组学、表型组学等。生物大数据之所以大,有四个方面可以说明,分别是大量的数据、快速的处理数据、易变的数据源、准确的数据质量。现在产生的生物大数据,数据规模已经远远超过PB级别(petabyte),甚至超过EB级别(exabyte)。美国在这方面做的比较好,已经建立了很多的肿瘤数据库供科学家进行研究和数据挖掘等分析,并且目前为止,大多数都是免费的。中国也在着手建立自己的生物医学数据库,世界级超算中心,以便于我们完全独立自主的进行科学研究。转录组是指在生物中心法则中转录的过程,即 DNA 向 RNA 转变过程中细胞内所有产物的集合,包括信使 RNA,转录 RNA 等[8], 根据不同的技术我们可以知道具体测的是哪种 RNA。转录组数据是目前生物信息学研究基因组水平上生物分子变化最常用和最直接的手段。本文数据是从癌症基因组图谱(TCGA)上下载的,基于的是 RNA-Seq 测序技术[9]得到的全基因组转录组数据。全基因组测序技术是生物信息学一项十分重要的技术,他不是简单的化学或者物理实验,而是多学科结合的一种技术,涉及到将基因打碎、拼接、组装、比对等一系列问题,所以包括了化学实验、计算机算法等,目前已经发展的十分完备,是一个系统的研究方向,因为本文重点是解决肿瘤相关标志物问题,在此不赘述,如果感兴趣可以查阅相关材料。
........
 
2.2 生物标志物检测发展现状
随着基因组图谱技术和可选分子靶向治疗方法的兴起,生物标志物在癌症患者的临床管理中扮演着越来越重要的角色。单个基因或者蛋白的标志物已经被用来衡量特定的分子通路失调,同时作为预测的生物标志物可以指导治疗方案。基于基因组的预后生物标志物在一些癌症中也已经出现用来指导预后或者临床分期系统。然而,最初的生物标志物发现研究与他们的临床转换之间仍然有很大的鸿沟,这是由肿瘤标志物发展过程中的一些挑战决定的。目前寻找高灵敏度和特异度的肿瘤标志物是大家研究的热点问题之一。生物标志物在疾病探测和治疗随访中发挥重要的作用。注意到很重要的一点是疾病早期患者通常会以最大的成功率得到治疗。从体液中(比如血液或者尿液)检测标志物是一个早期诊断和治疗非常有力的医疗工具[16]。但是,由于目前检测生物标志物的技术存在各种技术难题[17],生物标志物的潜力并没有完全被挖掘出来。因此,方法和技术的发展可以提高探测早期肿瘤标志物的准确率。有很多的生物分子被用来当做生物标志物,比方说抗原、DNA、信使 RNA、小 RNA、非编码 RNA 和酶。然而,蛋白标志物是医学诊断生物标志物中最普遍的形式。标志物存在于肿瘤组织、血浆还有其他体液当中。研究者最终的目标就是要开发一个可靠的、费用合理的、有效的检测工具用在预后、诊断和监控某一特定疾病的复发率上。
..........
 
第三章 健康大数据挖掘算法........13
3.1 特征选择算法 .......13
3.1.1 特征选择概述 .........13
3.1.2 特征选择分类 .........15
3.1.3 几种常见的特征选择算法 .......17
3.2 机器学习算法 .......22
第四章 肺癌发展分期蛋白标志物识别..........31
4.1 本章提要 ......31
4.2 研究背景 ......31
4.3 数据和方法 ...........33
4.4 结果和讨论 ...........37
4.5 本章小结 ......43
第五章 肾透明细胞癌发展分期甲基化标志物性别特异性研究......45
5.1 本章提要 ......45
5.2 研究背景 ......45
5.3 数据和方法 ...........46
5.4 结果和讨论 ...........48
5.5 本章小结 ......58
 
第五章 肾透明细胞癌发展分期甲基化标志物性别特异性研究
 
5.1 本章提要
从分子水平到表观遗传水平,两性之间的差异是一直存在的。性激素有可能是性别特异性分子机制的驱动因素。饮食习惯和生活习惯也可能大大加剧了性别差异。但是大多数现有的大数据建模研究并没有将性别这一重要信息加入到数学建模过程中去。本研究对 7 个特征选择算法和 7 个分类算法进行了全面的比较,所采用的数据集是性别特异数据集(男性数据和女性数据)以及全性别数据集,如图 5.1。研究结果显示,简单的将全性别数据集分成性别特异的男性数据集和女性数据集,并采用基于 T 检验的递增特征选择策略,有效的改善了支持向量机的分类性能。除支持向量机以外,采用基于 T 检验的增量特征选择策略也有效地改善了 6 个其他的分类器算法。6 个特征选择算法的评估数据也支持性别特异性的发现。研究实验数据表明,使用 TriVote 算法选择的特征训练出的 LR 模型在本章使用的甲基化数据集上表现得最好。一个性别数据训练的模型应用在另一个性别的数据上效果并不好。
.......
 
总结
 
癌症标志物预测问题在肿瘤研究中是一个非常重要的问题,它可以起到指导靶向用药,辅助治疗方案,改善预后等作用。采用多组学数据进行分析突破了普遍的基因组学研究,将研究的层次加深了,更加便于生物学家根据具体的数据分析癌症内在机理并寻找药物靶点。作为机器学习的常用算法,特征选择算法和有监督学习算法,在实验中得到很好的改进和运用。文章将肿瘤研究最前沿课题与猜想同机器学习最新算法结合,证明新设计的 BackFS 算法等在数据集上表现优秀,对肿瘤生物标志物预测和肿瘤特异性研究提供更有力的计算支撑。本文的工作总结如下:采用 SVM-RFE 算法对蛋白质组数据进行三分类建模,进而使用穷举法向后 k步搜索算法 backFS 进行进一步的特征筛选,在有限的数据维度(仅仅 218 个特征)情况下,蛋白质组学数据集的三分类表现在两种肺癌亚型肺腺癌和肺鳞状细胞癌上分别为 86.51%和 89.47%。对照实验转录组和甲基化组的样本数据具有远远高于 218 的万级维度,然而生成两种肺癌亚型对应的模型分别达到了转录组99.2%和 100%,甲基化组 93%和 89%的分类性能。说明蛋白质组数据对于模型的解释能力很强,相信随着蛋白质组测量技术的进步,有望获得更多的指导临床的有用信息。所以蛋白质组学数据是从疾病诊断和预后模型获取生物标志物信息的一个不错的选择。
..........
参考文献(略)
(责任编辑:gufeng)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
论文代写请联系:

论文代写电话:
论文代写电话:
email:@qq.com
论文代写qq:

\
论文代写 价格合理
QQ在线客服
中华论文网
咨询QQ
2628487918
15221741752