书签 分享 收藏 举报 版权申诉 / 60
上传文档赚钱

类型人工智能技术za生物信息学与课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4350556
  • 上传时间:2022-12-01
  • 格式:PPT
  • 页数:60
  • 大小:2.52MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《人工智能技术za生物信息学与课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    人工智能 技术 za 生物 信息学 课件
    资源描述:

    1、人工智能技术在生物信息学人工智能技术在生物信息学中的应用研究中的应用研究刘滨内容内容l生物信息学概述l生物知识lDNA介绍l蛋白质介绍l人工智能和自然语言处理技术在生物信息学中的应用l蛋白质序列和自然语言的相似性l蛋白质相互作用位点预测l远程同源性和折叠检测l资源l数据库l工具定义定义lBioinformatics由来l生物信息学之父Hwa A.Lim博士lCompBio bioinformatique bio-informatics(bio/informatics)bioinformatics意义意义198519901995200020052010010k20k30k40k50k Numbe

    2、r of entries in PDB蛋白质序列蛋白质结构数据指数级增长增长的不平衡性研究方向研究方向lDNA序列分析l基因识别l系统发生行为分析(进化树)l蛋白质结构和功能预测l基因芯片l数据挖掘和基因表达调控信息分析l基因组功能预测l支撑蛋白质组学和各种“组学”研究l利用生物分子的结构信息参与创新药物的设计l生物学虚拟实验模型的构件数据源数据源数据量数据量生物信息学任务生物信息学任务DNA序列3000万条序列 400.0 亿个碱基分离编码与非编码区域 识别内含子与外显子 基因产物预测 基因功能注释 基因调控信息分析 蛋白质序列100万条序列 序列比较 多重序列比对 识别保守的序列模式 进化

    3、分析 大分子结构 2.5 万个结构二级结构、空间结构预测 三维结构比对 蛋白质几何学度量 表面和形态计算 分子间相互作用分析 分子模拟 基因组1300个基因组(其中大量是病毒和微生物基因组)标注重复序列 基因结构分析 系统发生分析 基因与疾病的连锁分析 基因组比较 遗传语言分析基因表达海量基因表达模式相关分析 基因调控网络分析 表达调控信息分析DNA介绍介绍碱碱 基基DNARNA碱基腺嘌呤(adennine,A)鸟嘌呤(guanine,G)胞嘧啶(cytosine,C)胸腺嘧啶(thymine,T)腺嘌呤鸟嘌呤胞嘧啶尿嘧啶(Uracil,U)戊糖脱氧核糖核糖磷酸磷酸磷酸碱 基 配 对DNA的空

    4、间结构的空间结构蛋白质介绍蛋白质介绍20种标准氨基酸的英文简写氨基酸名氨基酸名称称英文缩写英文缩写简简 写写氨基酸名称氨基酸名称英文缩英文缩写写简简 写写甘氨酸GlyG丝氨酸SerS丙氨酸AlaA苏氨酸ThrT缬氨酸ValV天冬酰胺AsnN异亮氨酸IleI谷酰胺GlnQ亮氨酸LeuL酪氨酸TyrY苯丙氨酸PheF组氨酸HisH脯氨酸ProP天冬氨酸AspD甲硫氨酸MetM谷氨酸GluE色氨酸TrpW赖氨酸LysK半胱氨酸CysC精氨酸ArgR肽键肽键本实验室的人工智能技术和自然语言本实验室的人工智能技术和自然语言处理技术在生物信息学中的应用处理技术在生物信息学中的应用l采用Ngram寻找蛋白白

    5、质序列和自然语言的相似性l采用条件随即域(CRF)解决蛋白质相互作用位点预测问题。l采用N-gram,binary profile和N-nary profile模型结合支持向量(SVM)机解决蛋白质远程同源性和折叠识别的问题。l采用潜在语义分析(LSA)提高远程同源性检测效果。蛋白质序列和自然语言的相似性蛋白质序列和自然语言的相似性蛋白质序列和自然语言的相似性蛋白质序列和自然语言的相似性lDong et al.N-gram Statistics and Linguistic Featrues Analysis of Whole Genome Protein Sequences.Journal

    6、of Harbin Institute of Technology.2004 l在此论文中,探索了蛋白质和自然语言之间的关系。N-gram例子:SVYDA其中包含的3-gram为:SVYVYDYDAN-gram 比较分析(人)比较分析(人)N-gram 比较分析(褐家鼠)比较分析(褐家鼠)蛋白质组的蛋白质组的Zipf定律分析定律分析lZipf定律:l对数形式的Zipf定律为:rCxr)log(logrcxrZipf定律分析定律分析(人)(人)蛋白质序列和自然语言的关系蛋白质序列和自然语言的关系语言生物原始文本文档主题语义基因组序列生物系统的复杂相互作用蛋白质的结构和功能映射提取总结蛋白质相互作

    7、用位点预测蛋白质相互作用位点预测基于CRF的蛋白质相互作用位点预测l蛋白质相互作用位点预测研究内容l蛋白质相互作用位点预测的意义l为什么采用CRF进行相互作用位点预测lCRF模型l实验结果分析蛋白质相互作用位点预测研究内容蛋白质相互作用位点预测研究内容相互作用位点预测的任务相互作用位点预测的任务A R N D C Q E G H I L K M F P S T W Y V.0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 蛋白质相互作用位点预测的意义蛋白质相互作用位点预测的意义l识别相互作用的位点可以帮助构建蛋白质复合体的分子结构模型。与此同时,蛋白质相互作用位点

    8、的研究对理解生物体活动机制、蛋白质功能研究、疾病诊断和药物研究有重要意义。为什么采用为什么采用CRF进行相互作用位点预测进行相互作用位点预测l蛋白质一级结构是一个序列l传统的相互作用位点预测方法都是基于分类的方法,忽略了序列相邻的或者空间相邻的残基对于形成相互作用的接口具有相似的倾向。l为了引入相邻残基间的相互影响的信息,采用了基于序列标记的方法(CRF)。CRF模型模型yi-1yiyi+1X(x1,x2,xi-1,xi,xi+1,xn)链状条件随机域模型 11111(|)exp(,)()1exp(,)(,)()nkkiiiknk kiikkiikp Y Xfyy X iZ Xtyy X is

    9、y X iZ X11()exp(,)nkkiiikZ Xfyy X i1(,)kiityy X i转移特征(,)kisy X i状态特征 特征定义特征定义l转移特征l序列谱状态特征l残基的溶剂可接触面积状态特征l残基的保守性状态特征 1,11ifand(,)0otherwise iiy yiiyyyytyy X i,(,)if(,)0otherwisekiproy aaikscale PSSM x aayysy x i()if(,)0otherwisekiASAyikASA xyysy x i()/10if(,)0otherwisekiconyikgrade xyysy x i实验结果分析:实

    10、验结果分析:预测示例预测示例SMC1HD:SCC1-C复合体 CRF预测结果 支持向量机预测结果 正确位点 实验结果分析:实验结果分析:预测示例预测示例Ribosomal subunit 30S复合体 CRF预测结果 支持向量机预测结果 正确位点 实验结果分析:实验结果分析:预测示例预测示例Sreptococcal pyrogenic enterotoxin C(SpeC)复合体 CRF预测结果 支持向量机预测结果 正确位点 远程同源性和折叠检测远程同源性和折叠检测远程同源性和折叠检测研究内容远程同源性和折叠检测研究内容l蛋白质可按其结构和进化关系进行分类。目前广泛使用SCOP 数据库定义的分

    11、类体系,包含三个主要层次:家族(family)、超家族(superfamily)和折叠(fold)。l依靠蛋白质一级结构将其按照结构和进化关系进行分类。意义意义l在比较建模和折叠识别中,都需要识别和待测序列具有同源性的蛋白质作为模板。因此根据序列来探测蛋白质的同源性是蛋白质结构预测中的重要步骤。蛋白质同源性检测方法示意图蛋白质向量化方法蛋白质向量化方法lN-gramslBinary profileslN-nary profilesBinary profilesQTSVSPSKVILPRGGSVLVTCSTSCDQPKLLGIETPLPKKELLLPGNNEI.IH.P.A.I.LR.P.I.R

    12、KTTF.L.V.N.E.VS-R.P.W.FL.D.EIN.L.V.IH.TEAF.Q.P.S.EDEN.L.NWM.D.S-S.H.W.LFK.DIG.R.L.FE.GTTPSI-BLASTD:0.26A:0.03C:0.002Y:0.03W:0.02V:0.02T:0.03S:0.03R:0.11Q:0.02P:0.18N:0.01M:0.02L:0.05K:0.01I:0.01H:0.07G:0.01F:0.01E:0.06DPILVAmino acid sequenceMultiple sequence alignmentFrequency profileBinary profile

    13、Amino acid combinationD:0.04A:0.06C:0.004Y:0.002W:0.002V:0.17T:0.05S:0.002R:0.06Q:0.02P:0.02N:0.05M:0.01L:0.18K:0.03I:0.2H:0.02G:0.02F:0.03E:0.03D:1A:0C:0Y:0W:0V:0T:0S:0R:0Q:0P:1N:0M:0L:0K:0I:0H:0G:0F:0E:0D:0A:0C:0Y:0W:0V:1T:0S:0R:0Q:0P:0N:0M:0L:1K:0I:1H:0G:0F:0E:0Frequency threshold 0.17N-nary prof

    14、iles 统计方法l 统计方法可衡量特征t和类别c之间的相关性。特征t相对于类别c的 值定义如下 2)()()()()(),(22DCBADBCABCDANctmiiiravgctcPt122),()()(22潜在语义分析(潜在语义分析(LSA)l用于自动实现知识提取和表示的理论和方法,通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。TWUSVTWUSVTWUSVTWUSVTUSVA TWUSV采用采用LSA的可能性的可能性实验结果分析(远程同源性检测结果)实验结果分析(远程同源性检测结果)实验结果分析(折叠检测结果)实验结果分析(折叠检测结果)远程同源性检测结果远程同源性检测

    15、结果(roc50分布分布)折叠检测结果(折叠检测结果(roc50分布)分布)核酸序列数据库核酸序列数据库 (cont.)(cont.)l国际上权威的核酸序列数据库(1)欧洲分子生物学实验室的EMBL http:/www.embl-heidelberg.de (2)美国生物技术信息中心的GenBank http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html (3)日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/l人类基因组数据库lGDB http:/www.gdb.org/lEnsembl http:/www.ensembl

    16、.org/l其他模式生物基因组数据库l鼠基因组数据库 MGD http:/www.informatics.jax.org/l酵母基因组数据库 SGD http:/genome-www.stanford.edu/Saccharomyces/l表达序列标记数据库dbEST http:/www.ncbi.nlm.nih.gov/dbEST/l序列标记位点数据库 dbSTS http:/www.ncbi.nlm.nih.gov/dbSTS/l面向基因聚类数据库UniGene http:/www.ncbi.nlm.nih.gov/UniGene/蛋白质序列数据库蛋白质序列数据库lPIRlhttp:/pi

    17、r.georgetown.edu/lSWISS-PROTlhttp:/www.expasy.ch/sprot/sprot-top.html lTrEMBLlhttp:/www.ebi.ac.uk/trembl/lUniProtlIncludes PIR,SWISS-PROT,TrEMBLlhttp:/www.uniprot.org/生物大分子结构数据库生物大分子结构数据库lPDBlhttp:/www.rcsb.org/pdb/home/home.do lMMDBlhttp:/130.14.29.110/Structure/MMDB/mmdb.shtml PDB其他生物分子数据库其他生物分子数据

    18、库l单碱基多态性数据库dbSNP http:/www3.ncbi.nlm.nih.gov/SNP/l蛋白质结构分类数据库SCOP http:/scop.mrc-lmb.cam.ac.uk/scop/l蛋白质二级结构数据库DSSP http:/www.sander.embl-heidelberg.de/dssp/l蛋白质同源序列比对数据库HSSP http:/www.sander.embl-heidelberg.de/hssp/l人类遗传数据库OMIM http:/www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=OMIM l蛋白质指纹数据库PRINTS

    19、http:/www.bioinf.man.ac.uk/dbbrowser/PRINTS/l基因启动子数据库EPD http:/www.epd.isb-sib.ch/l转录调控区域数据库TRRD http:/wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/l转录因子数据库TRANSFAC http:/transfac.gbf.de/l基因本体数据库GO http:/www.geneontology.org/l生物、医学文献数据库PubMed http:/www.ncbi.nlm.nih.gov/l人、鼠基因表达数据库BODYMAP http:/bodymap.ims.u-to

    20、kyo.ac.jp/l序列模式数据库PROSITE http:/www.expasy.ch/prosite/l目录数据库DBCat http:/www.infobiogen.fr/services/dbcat/其他资源其他资源北京大学生物信息中心(欧洲分子生物学网络EMBNet的中国节点和亚太生物信息学网络(APBioNet)中国节点)http:/ The Canadian Bioinformatics Resourcehttp:/www.cbr.nrc.ca/Human Genome Working Drafthttp:/genome.ucsc.edu/TIGR(The Institute

    21、for Genomics Research)http:/www.tigr.org/Celerahttp:/ specific information:Yeast:http:/genome-www.stanford.edu/Saccharomyces/Arabidopis:http:/www.tair.org/Mouse:http:/www.jax.org/Fruitfly:http:/www.fruitfly.org/Nematode:http:/www.wormbase.org/Nucleic Acids Research Database Issuehttp:/nar.oupjournal

    22、s.org/(First issue every year)常用软件常用软件Database interfacesGenbank/EMBL/DDBJ,Medline,SwissProt,PDB,Sequence alignmentBLAST,FASTAMultiple sequence alignmentClustal,MultAlin,DiAlign,PSI-BlastGene findingGenscan,GenomeScan,GeneMark,GRAILProtein Domain analysis and identificationpfam,BLOCKS,ProDom,Pattern

    23、 Identification/CharacterizationGibbs Sampler,AlignACE,MEMEProtein Folding predictionPredictProtein,SwissModeler研究中的一些体会研究中的一些体会l发现问题l紧紧围绕实验室的技术l在试验中发现问题,解决问题。Sun说过“没有失败的试验,只有放弃的试验”。相关文章相关文章lDong Qiwen,Wang Xiaolong,Lin Lei.N-gram Statistics and Linguistic Features Analysis of Whole Genome Protein S

    24、equences.Journal of Harbin Institute of Technology.2004.lLi MH,Lin L,Wang XL,Liu T:Protein-protein interaction site prediction based on conditional random fields.Bioinformatics(2007).lDong QW.,Wang XL.and Lin L.:Application of Latent Semantic Analysis to Protein Remote Homology Detection.Bioinformatics.22,285-290(2006).lLiu B,Lin L,Wang XL,Dong QW,Wang X:A discriminative method for protein remote homology detection based on N-nary profiles.BIRD08(2008).l孙之荣译,后基因组信息学,清华大学出版社.谢谢!谢谢!欢迎您的批评指正

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:人工智能技术za生物信息学与课件.ppt
    链接地址:https://www.163wenku.com/p-4350556.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库