书签 分享 收藏 举报 版权申诉 / 30
上传文档赚钱

类型生物信息学的算法课件.ppt

  • 上传人(卖家):ziliao2023
  • 文档编号:5766631
  • 上传时间:2023-05-07
  • 格式:PPT
  • 页数:30
  • 大小:1.32MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《生物信息学的算法课件.ppt》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    生物 信息学 算法 课件
    资源描述:

    1、.初级层面初级层面中级层面中级层面高级层面高级层面.初级层面初级层面基于现有的生物信息数据库和资源,利用成熟的生物信息学工基于现有的生物信息数据库和资源,利用成熟的生物信息学工具(专业网站、软件)解决生物信息学问题具(专业网站、软件)解决生物信息学问题生物信息数据库生物信息数据库(NCBI、EBI等)等)基因组序列分析、序列比对软件基因组序列分析、序列比对软件(GCG、BLAST、CLUSTAL等)等)系统发育树构造软件系统发育树构造软件(PHYLIP、PALM、MEGA等)等)分子动力学模拟软件分子动力学模拟软件(GROMACS、NAMD等)等)搜集、整理有特色的生物信息学数据集搜集、整理有

    2、特色的生物信息学数据集.中级层面中级层面利用数值计算方法、数理统计方法和相关的工具,研究生物信利用数值计算方法、数理统计方法和相关的工具,研究生物信息学问题息学问题概率、数理统计基础概率、数理统计基础科学计算基础科学计算基础现有的数理统计和科学计算工具现有的数理统计和科学计算工具(EXCELEXCEL、SPSSSPSS、SASSAS、MATLABMATLAB等)等)建立有特色的生物信息学数据库建立有特色的生物信息学数据库.高级层面高级层面提出有重要意义的生物信息学问题;自主创新,发展新型方法,提出有重要意义的生物信息学问题;自主创新,发展新型方法,开发新型工具,引领生物信息学领域研究方向。开发

    3、新型工具,引领生物信息学领域研究方向。面向生物学领域,解决生物学问题面向生物学领域,解决生物学问题数学、物理、化学、计算科学等思想和方法数学、物理、化学、计算科学等思想和方法建立模型,发展算法建立模型,发展算法自行编程,开发软件,建立网页自行编程,开发软件,建立网页(LinuxLinux系统、系统、C/C+C/C+、PERLPERL、数据库技术)数据库技术).从事从事生物信息学研究生物信息学研究应具备多方面的科学基础:应具备多方面的科学基础:(1)、一定的计算能力,包括相应的软、硬设备。要有各种)、一定的计算能力,包括相应的软、硬设备。要有各种数据库或者能与国际、国内的数据库系统进行有效的交流

    4、。数据库或者能与国际、国内的数据库系统进行有效的交流。要有发达、稳定的互联网络系统;要有发达、稳定的互联网络系统;(2)、强有力的创新算法和软件。没有算法创新,生物信息)、强有力的创新算法和软件。没有算法创新,生物信息学就无法获得持续的发展;学就无法获得持续的发展;(3)、与实验科学,特别是与自动化的大规模高通量的生物)、与实验科学,特别是与自动化的大规模高通量的生物学研究方法学研究方法与平台技术建立广泛、紧密的联系。这些技术,与平台技术建立广泛、紧密的联系。这些技术,既是产生生物信息数据的主要方法,又是验证既是产生生物信息数据的主要方法,又是验证生物信息学研生物信息学研究究结果的关键手段。结

    5、果的关键手段。从事从事生物信息学研究生物信息学研究的人员必须具备多学科交叉的知识。的人员必须具备多学科交叉的知识。.(1)要掌握生物信息数据库及要掌握生物信息数据库及其查询搜索方法其查询搜索方法(Database&searching)对分子生物信息数据库的种类以及某些具体数据库的掌握和了解对分子生物信息数据库的种类以及某些具体数据库的掌握和了解从现有数据库中熟练获得需要的数据信息(尤其是二级数据库)从现有数据库中熟练获得需要的数据信息(尤其是二级数据库)能熟练地进行数据库查询和数据库搜索(数据库查询系统能熟练地进行数据库查询和数据库搜索(数据库查询系统Entrez、SRS;搜索工具;搜索工具B

    6、LAST等)等)数据库技术、互联网技术数据库技术、互联网技术.(2)要学会生物信息学软件和要学会生物信息学软件和工具的应用工具的应用(Software&application)利用成熟的生物信息学工具(专业网站、软件)解决生物信息学问题利用成熟的生物信息学工具(专业网站、软件)解决生物信息学问题基因组序列分析、序列比对软件(基因组序列分析、序列比对软件(GCG、BLAST、CLUSTAL等)等)系统发育树构造软件(系统发育树构造软件(PHYLIP、PALM等等)基因芯片检测分析软件(商业软件基因芯片检测分析软件(商业软件ScanArray、Array-Pro等等)分子动力学模拟软件(分子动力学

    7、模拟软件(GROMACS、NAMD等等).(3)概率论基础概率论基础(Probability theory)随机事件、概率随机事件、概率随机变量、概率分布随机变量、概率分布大数定律、中心极限定理大数定律、中心极限定理几乎用于生物信息学的各个方面几乎用于生物信息学的各个方面“Most of the problems in computational sequence analysis are essentially statistical.”“Biological sequence analysis”.(4)数理统计基础数理统计基础(Statistical methods)样本和统计量(方差、均

    8、值样本和统计量(方差、均值)参数估计、假设检验参数估计、假设检验基本的统计分析(方差分析、协方差分析、回归分析)基本的统计分析(方差分析、协方差分析、回归分析)常用统计软件的运用(常用统计软件的运用(SPSS、SAS)几乎用于生物信息学的各个方面几乎用于生物信息学的各个方面.(5)基于频率的组分分析方法基于频率的组分分析方法和权重矩阵方法和权重矩阵方法(Composition analysis&weight matrix method)符号(如碱基)频率反映具有生物学意义的序列特征,如内含子剪接符号(如碱基)频率反映具有生物学意义的序列特征,如内含子剪接位点的发现,位点的发现,KOZAK规则的

    9、发现等规则的发现等核酸组分、氨基酸组分、密码子使用频率核酸组分、氨基酸组分、密码子使用频率主要用于具有特定生物学意义的序列特征的分析主要用于具有特定生物学意义的序列特征的分析.权重矩阵分析方法举例权重矩阵分析方法举例针对序列信号(一段核酸、蛋白),计算每一位点所使用的词汇或叫针对序列信号(一段核酸、蛋白),计算每一位点所使用的词汇或叫符号(符号(碱基、氨基酸碱基、氨基酸)频率,频率的偏好性反映信号的序列特征)频率,频率的偏好性反映信号的序列特征(sequence pattern)。)。例:人类基例:人类基因内含子因内含子/外外显子剪接位显子剪接位点的序列特点的序列特征分析征分析R=A or G

    10、Y=C or UN=A,G,C or U供体位点供体位点受体位点受体位点.)()|()()|()()|()|(nonsitePnonsitePsitePsitePsitePsitePsiteP volumesassociatedat properties )()|(logsitePsitePBayesian打分函数打分函数用于剪接位点预测的公式用于剪接位点预测的公式The likelihood that a property value v(of a new structure)is drawn from the splicing site is:Score for the overall l

    11、ikelihood of the query sequence being a site is:P(S|splice site)P(S|background)Say we have a sequence S=S1S2Sn.Then one need to calculateSo to look for a donor site in the sequence,we might calculate.(6)信息论方法信息论方法(Information method)信息熵信息熵lo giiiHpp 信息的度量:是信息的度量:是信息符号信息符号出现何种出现何种状态状态的一种不确定性程度,信息的的一种

    12、不确定性程度,信息的获得要对不确定性进行否定。获得要对不确定性进行否定。生物信息的符号如生物信息的符号如ACGT四种符号,状态空间即其所有可能的排列四种符号,状态空间即其所有可能的排列用于结构预测用于结构预测信息熵信息熵H刻画了由刻画了由pi表示的随机试验结果的先验不确定性,或观察表示的随机试验结果的先验不确定性,或观察到输出时所获得的信息量。到输出时所获得的信息量。.(7)期望最大化(期望最大化(EM)方法)方法(Expectation Maximization)EM算法是一种在不完全数据情况下计算极大似然估计或者后验分布的迭算法是一种在不完全数据情况下计算极大似然估计或者后验分布的迭代算法

    13、。代算法。适用于具有隐变量的模型和问题,适用于具有隐变量的模型和问题,用于结构的识别,用于结构的识别,如如Motif识别识别的的MEME方法、方法、HMM中的中的Baum-Welch算法算法.(8)动态规划方法动态规划方法(Dynamic Programming)一种常用的多阶段决策的寻优算法一种常用的多阶段决策的寻优算法动态规划动态规划用用得最多的方面是得最多的方面是DNA序列或者蛋白质序列比对序列或者蛋白质序列比对.(9)迭代方法迭代方法(Iteration)迭代的目的通常是在状态空间找到目标函数收敛的稳定解迭代的目的通常是在状态空间找到目标函数收敛的稳定解在运用模式识别方法时,对系统参数

    14、的学习通常要经过迭代来实现在运用模式识别方法时,对系统参数的学习通常要经过迭代来实现迭代必须能够不断逼近稳定解迭代必须能够不断逼近稳定解用于上述某些方法的方法用于上述某些方法的方法.(10)回归、拟合、相关性分析、回归、拟合、相关性分析、关联分析关联分析(Regression,fitting,correlation&association)经典的统计分析方法经典的统计分析方法主要目的:描述和预测自变量与因变量间的关系主要目的:描述和预测自变量与因变量间的关系用于上述某些方法的方法用于上述某些方法的方法.(11)判别分析方法判别分析方法(Discriminant analysis)用于判别样品所

    15、属类型的统计分析方法用于判别样品所属类型的统计分析方法 条件:已知研究对象总体的类别数目及其特征(如:分布规律,或各条件:已知研究对象总体的类别数目及其特征(如:分布规律,或各类的训练样本)类的训练样本)目的:判断未知类别的样本的归属类别目的:判断未知类别的样本的归属类别用于基因识别、医学诊断、人类考古学用于基因识别、医学诊断、人类考古学.(12)聚类分析方法聚类分析方法(Clustering method)聚类分析(群分析)是实用多元统计分析的一个新分支,正处于发展聚类分析(群分析)是实用多元统计分析的一个新分支,正处于发展阶段。理论上尚未完善,但应用十分广泛。实质上是一种分类问题,目的阶段

    16、。理论上尚未完善,但应用十分广泛。实质上是一种分类问题,目的是建立一种分类方法,将一批数据按照特征的亲疏、相似程度进行分类。是建立一种分类方法,将一批数据按照特征的亲疏、相似程度进行分类。条件:研究对象总体的类别数目未知,也不知总体样本的具体分类情条件:研究对象总体的类别数目未知,也不知总体样本的具体分类情况况目的:通过分析,选定描述个体相似程度的统计量、确定总体分类数目的:通过分析,选定描述个体相似程度的统计量、确定总体分类数目、建立分类方法;对研究对象给出合理的分类。目、建立分类方法;对研究对象给出合理的分类。(“物以类聚物以类聚”是聚类分是聚类分析的基本出发点析的基本出发点).定性、经验

    17、的分类的局限定性、经验的分类的局限 分类较粗、数据量小、凭借经验分类较粗、数据量小、凭借经验谱系聚类法(系统聚类法)、动态聚类法、模糊聚类法谱系聚类法(系统聚类法)、动态聚类法、模糊聚类法生物信息学中的聚类分析问题:生物信息学中的聚类分析问题:根据根据DNA芯片获得的基因表达数据进行基因聚类(数据量庞大)芯片获得的基因表达数据进行基因聚类(数据量庞大)蛋白质相互作用网络的分类蛋白质相互作用网络的分类 根据不同物种的大分子序列进行相似性比较并构建系统发育树根据不同物种的大分子序列进行相似性比较并构建系统发育树X(1)X(2)X(3)X(4)X(5)GibbonSymphalangusHumanG

    18、orillaChimpanzee黑猩猩猩猩猿猴.(13)Markov模型的应用模型的应用(Markov model)Markov过程:从一种状态转移到另一种状态时,过程仅取决于前面过程:从一种状态转移到另一种状态时,过程仅取决于前面n种状态,是一种有序种状态,是一种有序n模型。模型。n是影响下一个状态选择的状态数。是影响下一个状态选择的状态数。最简单的最简单的Markov过程是一阶过程,状态的选择完全取决于前一状态,过程是一阶过程,状态的选择完全取决于前一状态,这种选择是依照概率来选择的。这种选择是依照概率来选择的。状态的选择是概率的,而非确定的。故状态的选择是概率的,而非确定的。故Marko

    19、v过程本质上是一种随机过程本质上是一种随机过程。过程。.(14)隐隐Markov模型方法模型方法(HMM method)将核苷酸序列看成一个随机序列,将核苷酸序列看成一个随机序列,DNA序列的编码部分与非编码部序列的编码部分与非编码部分在核苷酸的选用频率上对应着不同的分在核苷酸的选用频率上对应着不同的Markov模型。由于这些模型。由于这些Markov模型的统计规律是未知模型的统计规律是未知的,而的,而HMM能够自动能够自动寻找出它们隐藏的统计寻找出它们隐藏的统计规律。对于高等生物这规律。对于高等生物这样复杂的样复杂的DNA序列,序列,HMM必须学习不同的必须学习不同的基因结构的信号。基因结构

    20、的信号。.隐隐Markov模型模型(HMM)(1)序列比较与搜寻(尤其是多序列比对)序列比较与搜寻(尤其是多序列比对)(2)基因及信号的识别、预测)基因及信号的识别、预测(包括(包括DNA编码与非编码区的识别、编码与非编码区的识别、真核基因剪接位点信号识别、非编码区的转录调控信号识别、信号肽识真核基因剪接位点信号识别、非编码区的转录调控信号识别、信号肽识别别)(3)蛋白质二级结构、家族、超家族预测、分类等)蛋白质二级结构、家族、超家族预测、分类等.(15)感知器与人工神经网络方感知器与人工神经网络方法法(Perceptron&ANN method)计算机人工神经网络是对大脑神经网络的模拟,在生

    21、物信息学研究中,无论计算机人工神经网络是对大脑神经网络的模拟,在生物信息学研究中,无论是基因识别还是蛋白质结构预测,神经网络都取得了比其它方法更为准确的结果。是基因识别还是蛋白质结构预测,神经网络都取得了比其它方法更为准确的结果。.(16)决策树、支持向量机及其决策树、支持向量机及其它模式识别方法它模式识别方法(Decision tree&SVM method)模式识别是在输入样本中寻找特征并识别对象的一种方法。模式识别是在输入样本中寻找特征并识别对象的一种方法。模式识别主要有两种方法,一种是根据统计特征进行识别,另一种是模式识别主要有两种方法,一种是根据统计特征进行识别,另一种是根据对象的结

    22、构特征进行识别,而后者常用的方法为句法识别。根据对象的结构特征进行识别,而后者常用的方法为句法识别。在基因识别中,对于在基因识别中,对于DNA序列上的功能位点和特征信号的识别都需序列上的功能位点和特征信号的识别都需要用到模式识别。要用到模式识别。.(17)微分方程的数值方法微分方程的数值方法(Numerical methods)分子动力学模拟:研究生物大分子的构象,主要还是用基于半经验势分子动力学模拟:研究生物大分子的构象,主要还是用基于半经验势函数的分子动力学方法,而量子力学则在确定势函数的参数和研究局部性函数的分子动力学方法,而量子力学则在确定势函数的参数和研究局部性质时起作用。对蛋白质进行动力学研究是利用计算机进行模拟实验的基础。质时起作用。对蛋白质进行动力学研究是利用计算机进行模拟实验的基础。分子动力学得到一组动力学微分方程,要求得到初值问题的解。分子动力学得到一组动力学微分方程,要求得到初值问题的解。微分方程的数值求解:有限差分法、有限元法微分方程的数值求解:有限差分法、有限元法.(18)最终要诀:各类方法综合最终要诀:各类方法综合运用运用All in one!综合运用不同的研究方法综合运用不同的研究方法始终面向生物学问题始终面向生物学问题知识和技能的学习方法知识和技能的学习方法文献的查阅和阅读方法文献的查阅和阅读方法中、英文论文的写作方法中、英文论文的写作方法

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:生物信息学的算法课件.ppt
    链接地址:https://www.163wenku.com/p-5766631.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库