生物信息学的算法课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《生物信息学的算法课件.ppt》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 算法 课件
- 资源描述:
-
1、.初级层面初级层面中级层面中级层面高级层面高级层面.初级层面初级层面基于现有的生物信息数据库和资源,利用成熟的生物信息学工基于现有的生物信息数据库和资源,利用成熟的生物信息学工具(专业网站、软件)解决生物信息学问题具(专业网站、软件)解决生物信息学问题生物信息数据库生物信息数据库(NCBI、EBI等)等)基因组序列分析、序列比对软件基因组序列分析、序列比对软件(GCG、BLAST、CLUSTAL等)等)系统发育树构造软件系统发育树构造软件(PHYLIP、PALM、MEGA等)等)分子动力学模拟软件分子动力学模拟软件(GROMACS、NAMD等)等)搜集、整理有特色的生物信息学数据集搜集、整理有
2、特色的生物信息学数据集.中级层面中级层面利用数值计算方法、数理统计方法和相关的工具,研究生物信利用数值计算方法、数理统计方法和相关的工具,研究生物信息学问题息学问题概率、数理统计基础概率、数理统计基础科学计算基础科学计算基础现有的数理统计和科学计算工具现有的数理统计和科学计算工具(EXCELEXCEL、SPSSSPSS、SASSAS、MATLABMATLAB等)等)建立有特色的生物信息学数据库建立有特色的生物信息学数据库.高级层面高级层面提出有重要意义的生物信息学问题;自主创新,发展新型方法,提出有重要意义的生物信息学问题;自主创新,发展新型方法,开发新型工具,引领生物信息学领域研究方向。开发
3、新型工具,引领生物信息学领域研究方向。面向生物学领域,解决生物学问题面向生物学领域,解决生物学问题数学、物理、化学、计算科学等思想和方法数学、物理、化学、计算科学等思想和方法建立模型,发展算法建立模型,发展算法自行编程,开发软件,建立网页自行编程,开发软件,建立网页(LinuxLinux系统、系统、C/C+C/C+、PERLPERL、数据库技术)数据库技术).从事从事生物信息学研究生物信息学研究应具备多方面的科学基础:应具备多方面的科学基础:(1)、一定的计算能力,包括相应的软、硬设备。要有各种)、一定的计算能力,包括相应的软、硬设备。要有各种数据库或者能与国际、国内的数据库系统进行有效的交流
4、。数据库或者能与国际、国内的数据库系统进行有效的交流。要有发达、稳定的互联网络系统;要有发达、稳定的互联网络系统;(2)、强有力的创新算法和软件。没有算法创新,生物信息)、强有力的创新算法和软件。没有算法创新,生物信息学就无法获得持续的发展;学就无法获得持续的发展;(3)、与实验科学,特别是与自动化的大规模高通量的生物)、与实验科学,特别是与自动化的大规模高通量的生物学研究方法学研究方法与平台技术建立广泛、紧密的联系。这些技术,与平台技术建立广泛、紧密的联系。这些技术,既是产生生物信息数据的主要方法,又是验证既是产生生物信息数据的主要方法,又是验证生物信息学研生物信息学研究究结果的关键手段。结
5、果的关键手段。从事从事生物信息学研究生物信息学研究的人员必须具备多学科交叉的知识。的人员必须具备多学科交叉的知识。.(1)要掌握生物信息数据库及要掌握生物信息数据库及其查询搜索方法其查询搜索方法(Database&searching)对分子生物信息数据库的种类以及某些具体数据库的掌握和了解对分子生物信息数据库的种类以及某些具体数据库的掌握和了解从现有数据库中熟练获得需要的数据信息(尤其是二级数据库)从现有数据库中熟练获得需要的数据信息(尤其是二级数据库)能熟练地进行数据库查询和数据库搜索(数据库查询系统能熟练地进行数据库查询和数据库搜索(数据库查询系统Entrez、SRS;搜索工具;搜索工具B
6、LAST等)等)数据库技术、互联网技术数据库技术、互联网技术.(2)要学会生物信息学软件和要学会生物信息学软件和工具的应用工具的应用(Software&application)利用成熟的生物信息学工具(专业网站、软件)解决生物信息学问题利用成熟的生物信息学工具(专业网站、软件)解决生物信息学问题基因组序列分析、序列比对软件(基因组序列分析、序列比对软件(GCG、BLAST、CLUSTAL等)等)系统发育树构造软件(系统发育树构造软件(PHYLIP、PALM等等)基因芯片检测分析软件(商业软件基因芯片检测分析软件(商业软件ScanArray、Array-Pro等等)分子动力学模拟软件(分子动力学
7、模拟软件(GROMACS、NAMD等等).(3)概率论基础概率论基础(Probability theory)随机事件、概率随机事件、概率随机变量、概率分布随机变量、概率分布大数定律、中心极限定理大数定律、中心极限定理几乎用于生物信息学的各个方面几乎用于生物信息学的各个方面“Most of the problems in computational sequence analysis are essentially statistical.”“Biological sequence analysis”.(4)数理统计基础数理统计基础(Statistical methods)样本和统计量(方差、均
8、值样本和统计量(方差、均值)参数估计、假设检验参数估计、假设检验基本的统计分析(方差分析、协方差分析、回归分析)基本的统计分析(方差分析、协方差分析、回归分析)常用统计软件的运用(常用统计软件的运用(SPSS、SAS)几乎用于生物信息学的各个方面几乎用于生物信息学的各个方面.(5)基于频率的组分分析方法基于频率的组分分析方法和权重矩阵方法和权重矩阵方法(Composition analysis&weight matrix method)符号(如碱基)频率反映具有生物学意义的序列特征,如内含子剪接符号(如碱基)频率反映具有生物学意义的序列特征,如内含子剪接位点的发现,位点的发现,KOZAK规则的
9、发现等规则的发现等核酸组分、氨基酸组分、密码子使用频率核酸组分、氨基酸组分、密码子使用频率主要用于具有特定生物学意义的序列特征的分析主要用于具有特定生物学意义的序列特征的分析.权重矩阵分析方法举例权重矩阵分析方法举例针对序列信号(一段核酸、蛋白),计算每一位点所使用的词汇或叫针对序列信号(一段核酸、蛋白),计算每一位点所使用的词汇或叫符号(符号(碱基、氨基酸碱基、氨基酸)频率,频率的偏好性反映信号的序列特征)频率,频率的偏好性反映信号的序列特征(sequence pattern)。)。例:人类基例:人类基因内含子因内含子/外外显子剪接位显子剪接位点的序列特点的序列特征分析征分析R=A or G
10、Y=C or UN=A,G,C or U供体位点供体位点受体位点受体位点.)()|()()|()()|()|(nonsitePnonsitePsitePsitePsitePsitePsiteP volumesassociatedat properties )()|(logsitePsitePBayesian打分函数打分函数用于剪接位点预测的公式用于剪接位点预测的公式The likelihood that a property value v(of a new structure)is drawn from the splicing site is:Score for the overall l
11、ikelihood of the query sequence being a site is:P(S|splice site)P(S|background)Say we have a sequence S=S1S2Sn.Then one need to calculateSo to look for a donor site in the sequence,we might calculate.(6)信息论方法信息论方法(Information method)信息熵信息熵lo giiiHpp 信息的度量:是信息的度量:是信息符号信息符号出现何种出现何种状态状态的一种不确定性程度,信息的的一种
展开阅读全文