生物信息学高性能计算平台的构建与使用课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《生物信息学高性能计算平台的构建与使用课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 性能 计算 平台 构建 使用 课件
- 资源描述:
-
1、2022-6-2生物信息学高性能计算平台的构建与使用提纲生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A2022-6-22022-6-2生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A2022-6-2生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&AWhy Bioinformatics?2022-6-2Bioinformatics: What do we need? What do we need?满足各种生物信息学分析所需的大规
2、模计算能力的平台对分子生物信息数据能够快速获取的平台从互联网快速接入服务器并进行生物信息学分析的平台Why High Performance Computing(HPC)?2022-6-21超大规模的数据处理 基因组测序序列: 51020量级 蛋白质折叠计算: 31023 量级 药物设计 平均筛选10000种化合物以上才能得到一种新药2超大计算规模的算法 分子动力学模拟 分子相互作网络 分子进化分析 蛋白质结构模拟3多用户同时的计算需求 一个和尚、两个和尚、三个和尚我们的已经完成的工作满足各种生物信息学分析的HPC快速获取各种分子生物信息数据随时从网络接入提交计算任务来分析数据1. 将多个重要
3、的生物信息数据库本地化安装2. 建立了一个高性能计算系统3. 将平台接入校园网/互联网生物信息学平台的架构http:/磁盘存储阵列万兆网络交换机数据库系统高性能服务器刀片式服务器集群(Cluster)存储系统高性能计算系统生物信息学平台硬件与软件系统 HardwareSoftwareOur Platform浪潮天梭高性能服务器集群(cluster)Linux系统: Rocks Cluster5.4 CentOS 5.5 RedHat AS 4.System Area NetworkLocal Area NetworkLANMemoryI/O BusMemory BusSystem1Chipse
4、tSANCPUsLANMemoryI/O BusMemory BusSystem2ChipsetSANCPUsLANMemoryI/O BusMemory BusSystem3ChipsetSANCPUsWhat is Cluster(集群)?2022-6-2多台计算机通过高速网络连成一个并行计算系统Why cluster?2022-6-2从几十个节点到几万个节点并行计算的最优选择之一单个节点的故障不影响整体Why cluster?2022-6-2普通PCclusterJaguarRoadrunner天河1号K ComputerWhat is Rocks Cluster?Rocks Clust
5、er集成生物信息学软件包一种免费集群操作系统基于CentOS LinuxRocks Cluster 5.4 的主要功能模块2022-6-2 Rocks Roll基本功能模块RedHat Linux内核操作系统组件SUN Grid Engine 分布式任务管理系统1. Base roll2. Kernel3. OS4. SGE5. bioBiosoft Package我校生物信息学平台拓扑结构图用户用户26个刀片式计算节点One Computer!生物信息平台物理分布视图生物信息学平台计算机群p 数据库节点 双路Intel 至强5450处理器2.83GHZ 8个核心,32G 内存p 其他节点 8
6、核、16G 内存p 存储系统 30个1 TB硬盘的存储阵列p 性能指标:p 208个计算核心p 2万亿次/秒 浮点运算以Rocks Cluster为核心的Linux操作环境Rocks cluster 5.416G 内存64位CentOS 5.432G 内存64位Rocks cluster 5.416G 内存64位bio-linux 6.0 2G RAM32位 管理节点 数据库节点 终端计算机 计算节点平台操作环境为什么选择Unix/Linux来构建平台? 科学研究的通用平台 90%以上的科学软件在Unix/Linux下开发 多数生物信息学软件只有Unix/Linux版本 数量庞大的各种小工具
7、Sed, awk, vi, emacs, diff, cvs, etc 极多的高质量文档 免费_ !各节点的主机名称及IP地址 管理节点 主机名称:big.hpc.org; IP地址:202.202.232.201 计算节点(26台刀片式服务器) Blade1: compute-0-0compute-0-9 Blade2: compute-1-0compute-1-9 Blade3: compute-2-0compute-2-5 数据库节点: 主机名:database IP地址:202.202.232.202 访问域名:http:/ 2022-6-2平台的并行计算环境 MPI( Message
8、 Passing Interface) MPICH2 l 最基本的MPI,运行简单,应用广泛,效率不高l 安装路径: /opt/mpich2/gnu/bin/ openmpil 功能强大、灵活,支持infiniband,效率高l 安装路径:/opt/openmpi/bin/ 各计算节点的公共目录 /disk1 和 /disk2,容量均为8T2022-6-2平台的任务管理系统 SGE 任务管理系统:自动分配计算资源来运行用户的计算任务 Sun Grid Engine (SGE) LSF OpenPBS 本平台安装的是SGE 用户在进行生物信息学计算之前,需要编写SGE计算脚本文件,通过提交脚本文
9、件来使用计算资源。2022-6-2 其他设备:bio-linux终端计算机 1. 安装了bio-linux系统,图形操作界面 2. 集成了十多种生物信息学软件,免费使用 3. 可迅速连接高性能计算系统进行大规模计算分析2022-6-2生物信息学平台的使用方式 使用方式 通过校园网或互联网的任意计算机远程登录使用 前来我校基础部生命科学楼7楼本地使用2022-6-2生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A国际生物信息数据库的本地化过程下载元数据构建检索系统发布数据库已经收录的数据库GenbankUniprot KBPDBEMBLRe
10、fseqPrositeMRS检索系统l20多个生物医学相关的数据库l主要数据库每日更新l集成Blast、ClustalW、Jmol等分析工具l可将自己的Web-Server程序、数据库发布到互联网MRS数据库综合检索系统 Entrez The Life Science Search Engine - NCBI SRS = Sequence Retrieval System - EBI MRS = Maartens Retrieval System - BIC at TMMU Google = Th best generic search and retrieval system2022-6-2
11、fastLinux x86-64 versionfree生物信息数据库的使用231 登录生物信息中心主页: http:/ 从主页进入生物信息数据库 在检索栏内通过输入关键词等方式检索数据 选择所需要 的数据库生物信息数据库检索系统:一站式检索2022-6-2生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A高性能计算系统的使用Linux基础知识1已安装生物信息学软件2用户使用流程3生物信息学实例分析41、Linux基础知识 什么是Linux? 免费的类Unix操作系统,适合PC机、服务器 具有Unix的全部功能,稳定,高效,网络性能优异 以
12、Linux为基础的不同的发行版(Distribution): Ubuntu: 适合初学者 Debian: Ubuntu的始祖,适合系统管理员 Fedora: 适合专业开发者 Redhat/CentOS: 适合个人或企业级服务器 openSUSE:适合个人办公Linux很难吗? 看起来很复杂,不知从何下手 实际上上手很快 Linux系统不好用 *nux不是用来当桌面的 书太多,每本都很厚 推荐OReilly系列Linux系统的主要组成Linux的内核:内核是系统的核心,是运行程序和管理像磁盘和打印机等硬件设备的核心程序。Linux SHELL: Shell是系统的用户界面,提供了用户与内核进行交
13、互操作的一种接口。Linux文件系统: Linux文件系统是文件存放在磁盘等存储设备上的组织方法。Linux能支持多种文件系统,如EXT2、EXT3、FAT、VFAT、ISO9660、NFS、SMB等。Linux应用系统:标准的Linux系统都有一整套称为应用程序的程序集,包括文本编辑器、编程语言、办公套件、Internet工具、数据库等。Linux命令模式下的基本操作命令 ls 或者 ll: 列出当前目录下全部文件 相当于DOS下的dir cd : 改变当前目录至指定目录 例:zoulybig $ cd /disk1/biosoft/ mkdir: 建立文件夹 例:zoulybig $ mk
14、dir blast-test cp: 拷贝文件命令 例: zoulybig $ cp enzyme.dat /disk1/data/ pwd: 查看用户当前所在的路径Linux命令模式下的基本操作命令 cat:查看文件内容 zoulybig $ cat 1OMB.pdb more: 逐屏显示文件内容 vi:新建文件或编辑文件 例:zoulybig $ vi 1OMB.pdb mv: 移动文件或目录 rm: 删除文件或目录Linux下解压缩文件 全能的解压缩命令: tar 例: tar xvfj blast2.2.21.tar.bz2 tar xvfz blast2.2.21.tar.gz ta
15、r xvfz blast2.2.21.taz tar xvf blast2.2.21.tar2、平台上已安装的生物信息学软件软件类型软件类型软件名称软件名称软件版本软件版本安装路径安装路径说明说明序列相似序列相似性比较性比较fasta35.4.9/opt/bio*(系统自带系统自带)blast2.2.21/disk1/biosoft(后安装后安装)mpiblast1.5.0/opt/bio并行并行blast *多序列多序列比对比对ClustalW2.0.12/opt/bio*ClustalW-mpi0.15/disk1/biosoft并行并行ClustalW T_coffee8.14/opt/
展开阅读全文