人工智能技术在生物信息学中的应用研究课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《人工智能技术在生物信息学中的应用研究课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 技术 生物 信息学 中的 应用 研究 课件
- 资源描述:
-
1、人工智能技术在生物信息学人工智能技术在生物信息学中的应用研究中的应用研究刘滨内容内容l生物信息学概述l生物知识lDNA介绍l蛋白质介绍l人工智能和自然语言处理技术在生物信息学中的应用l蛋白质序列和自然语言的相似性l蛋白质相互作用位点预测l远程同源性和折叠检测l资源l数据库l工具定义定义lBioinformatics由来l生物信息学之父Hwa A.Lim博士lCompBio bioinformatique bio-informatics(bio/informatics)bioinformatics意义意义198519901995200020052010010k20k30k40k50k Numbe
2、r of entries in PDB蛋白质序列蛋白质结构数据指数级增长增长的不平衡性研究方向研究方向lDNA序列分析l基因识别l系统发生行为分析(进化树)l蛋白质结构和功能预测l基因芯片l数据挖掘和基因表达调控信息分析l基因组功能预测l支撑蛋白质组学和各种“组学”研究l利用生物分子的结构信息参与创新药物的设计l生物学虚拟实验模型的构件数据源数据源数据量数据量生物信息学任务生物信息学任务DNA序列3000万条序列 400.0 亿个碱基分离编码与非编码区域 识别内含子与外显子 基因产物预测 基因功能注释 基因调控信息分析 蛋白质序列100万条序列 序列比较 多重序列比对 识别保守的序列模式 进化
3、分析 大分子结构 2.5 万个结构二级结构、空间结构预测 三维结构比对 蛋白质几何学度量 表面和形态计算 分子间相互作用分析 分子模拟 基因组1300个基因组(其中大量是病毒和微生物基因组)标注重复序列 基因结构分析 系统发生分析 基因与疾病的连锁分析 基因组比较 遗传语言分析基因表达海量基因表达模式相关分析 基因调控网络分析 表达调控信息分析DNA介绍介绍碱碱 基基DNARNA碱基腺嘌呤(adennine,A)鸟嘌呤(guanine,G)胞嘧啶(cytosine,C)胸腺嘧啶(thymine,T)腺嘌呤鸟嘌呤胞嘧啶尿嘧啶(Uracil,U)戊糖脱氧核糖核糖磷酸磷酸磷酸碱 基 配 对DNA的空
4、间结构的空间结构蛋白质介绍蛋白质介绍20种标准氨基酸的英文简写氨基酸名氨基酸名称称英文缩写英文缩写简简 写写氨基酸名称氨基酸名称英文缩英文缩写写简简 写写甘氨酸GlyG丝氨酸SerS丙氨酸AlaA苏氨酸ThrT缬氨酸ValV天冬酰胺AsnN异亮氨酸IleI谷酰胺GlnQ亮氨酸LeuL酪氨酸TyrY苯丙氨酸PheF组氨酸HisH脯氨酸ProP天冬氨酸AspD甲硫氨酸MetM谷氨酸GluE色氨酸TrpW赖氨酸LysK半胱氨酸CysC精氨酸ArgR肽键肽键本实验室的人工智能技术和自然语言本实验室的人工智能技术和自然语言处理技术在生物信息学中的应用处理技术在生物信息学中的应用l采用Ngram寻找蛋白白
5、质序列和自然语言的相似性l采用条件随即域(CRF)解决蛋白质相互作用位点预测问题。l采用N-gram,binary profile和N-nary profile模型结合支持向量(SVM)机解决蛋白质远程同源性和折叠识别的问题。l采用潜在语义分析(LSA)提高远程同源性检测效果。蛋白质序列和自然语言的相似性蛋白质序列和自然语言的相似性蛋白质序列和自然语言的相似性蛋白质序列和自然语言的相似性lDong et al.N-gram Statistics and Linguistic Featrues Analysis of Whole Genome Protein Sequences.Journal
6、of Harbin Institute of Technology.2004 l在此论文中,探索了蛋白质和自然语言之间的关系。N-gram例子:SVYDA其中包含的3-gram为:SVYVYDYDAN-gram 比较分析(人)比较分析(人)N-gram 比较分析(褐家鼠)比较分析(褐家鼠)蛋白质组的蛋白质组的Zipf定律分析定律分析lZipf定律:l对数形式的Zipf定律为:rCxr)log(logrcxrZipf定律分析定律分析(人)(人)蛋白质序列和自然语言的关系蛋白质序列和自然语言的关系语言生物原始文本文档主题语义基因组序列生物系统的复杂相互作用蛋白质的结构和功能映射提取总结蛋白质相互作
7、用位点预测蛋白质相互作用位点预测基于CRF的蛋白质相互作用位点预测l蛋白质相互作用位点预测研究内容l蛋白质相互作用位点预测的意义l为什么采用CRF进行相互作用位点预测lCRF模型l实验结果分析蛋白质相互作用位点预测研究内容蛋白质相互作用位点预测研究内容相互作用位点预测的任务相互作用位点预测的任务A R N D C Q E G H I L K M F P S T W Y V.0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 蛋白质相互作用位点预测的意义蛋白质相互作用位点预测的意义l识别相互作用的位点可以帮助构建蛋白质复合体的分子结构模型。与此同时,蛋白质相互作用位点
8、的研究对理解生物体活动机制、蛋白质功能研究、疾病诊断和药物研究有重要意义。为什么采用为什么采用CRF进行相互作用位点预测进行相互作用位点预测l蛋白质一级结构是一个序列l传统的相互作用位点预测方法都是基于分类的方法,忽略了序列相邻的或者空间相邻的残基对于形成相互作用的接口具有相似的倾向。l为了引入相邻残基间的相互影响的信息,采用了基于序列标记的方法(CRF)。CRF模型模型yi-1yiyi+1X(x1,x2,xi-1,xi,xi+1,xn)链状条件随机域模型 11111(|)exp(,)()1exp(,)(,)()nkkiiiknk kiikkiikp Y Xfyy X iZ Xtyy X is
9、y X iZ X11()exp(,)nkkiiikZ Xfyy X i1(,)kiityy X i转移特征(,)kisy X i状态特征 特征定义特征定义l转移特征l序列谱状态特征l残基的溶剂可接触面积状态特征l残基的保守性状态特征 1,11ifand(,)0otherwise iiy yiiyyyytyy X i,(,)if(,)0otherwisekiproy aaikscale PSSM x aayysy x i()if(,)0otherwisekiASAyikASA xyysy x i()/10if(,)0otherwisekiconyikgrade xyysy x i实验结果分析:实
10、验结果分析:预测示例预测示例SMC1HD:SCC1-C复合体 CRF预测结果 支持向量机预测结果 正确位点 实验结果分析:实验结果分析:预测示例预测示例Ribosomal subunit 30S复合体 CRF预测结果 支持向量机预测结果 正确位点 实验结果分析:实验结果分析:预测示例预测示例Sreptococcal pyrogenic enterotoxin C(SpeC)复合体 CRF预测结果 支持向量机预测结果 正确位点 远程同源性和折叠检测远程同源性和折叠检测远程同源性和折叠检测研究内容远程同源性和折叠检测研究内容l蛋白质可按其结构和进化关系进行分类。目前广泛使用SCOP 数据库定义的分
11、类体系,包含三个主要层次:家族(family)、超家族(superfamily)和折叠(fold)。l依靠蛋白质一级结构将其按照结构和进化关系进行分类。意义意义l在比较建模和折叠识别中,都需要识别和待测序列具有同源性的蛋白质作为模板。因此根据序列来探测蛋白质的同源性是蛋白质结构预测中的重要步骤。蛋白质同源性检测方法示意图蛋白质向量化方法蛋白质向量化方法lN-gramslBinary profileslN-nary profilesBinary profilesQTSVSPSKVILPRGGSVLVTCSTSCDQPKLLGIETPLPKKELLLPGNNEI.IH.P.A.I.LR.P.I.R
12、KTTF.L.V.N.E.VS-R.P.W.FL.D.EIN.L.V.IH.TEAF.Q.P.S.EDEN.L.NWM.D.S-S.H.W.LFK.DIG.R.L.FE.GTTPSI-BLASTD:0.26A:0.03C:0.002Y:0.03W:0.02V:0.02T:0.03S:0.03R:0.11Q:0.02P:0.18N:0.01M:0.02L:0.05K:0.01I:0.01H:0.07G:0.01F:0.01E:0.06DPILVAmino acid sequenceMultiple sequence alignmentFrequency profileBinary profile
展开阅读全文