书签 分享 收藏 举报 版权申诉 / 31
上传文档赚钱

类型H3C-人工智能解决方案介绍.pptx

  • 上传人(卖家):三亚风情
  • 文档编号:3604440
  • 上传时间:2022-09-24
  • 格式:PPTX
  • 页数:31
  • 大小:3.01MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《H3C-人工智能解决方案介绍.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    H3C 人工智能 解决方案 介绍
    资源描述:

    1、logoH3C 人工智能平台解决方案02人工智能需求背景01H3C 人工智能解决03案例分享AI无处不在无人驾驶媒体、娱乐生命科学工业机器人人工智能三大要素1.深度学习算法:神经网络算法2.大数据:15万职业棋手棋谱+百万业余棋手棋谱3.超算体系:1202个CPU+176个GPU+高速互联算据算法算力深度学习是人工智能的子集 l 机器学习的典型特征为利用简单模型描述复杂特征l 深度学习的典型特征是通过简单特征加上复杂模型l 深度学习是一种实现机器学习的技术,计算能力增强解决了机器学习的瓶颈,从而推动深度学习的蓬勃发展,目前人工智能前沿是在深度学习Artifical Intelligence 人

    2、工智能Machine Learning机器学习Deep Learning深度学习深度学习的计算需求6Step1:训练阶段Step2:推理阶段高性能集群计算单机和边缘计算模型架构和参数AI平台Cat人工智能模型训练、推理流程用户业务推理服务业务训练数据AI训练平台AI模型AI模型AI模型在线预测部署输入生成发布模型评估AI模型模型库 AI全栈式方案基础平台服务基础平台服务(AIAI产品)产品)机器学习机器学习 深度学习深度学习通用服务通用服务(算法模型)(算法模型)图像识别图像识别 目标检测目标检测 OCROCR、NLPNLP 语音识别语音识别行业场景解决方案行业场景解决方案(行业业务系统或者应

    3、用)(行业业务系统或者应用)智能税务智能税务 智能公安智能公安 智能检务智能检务 智能金融智能金融业务问题业务问题AIAI建模建模模型训练模型训练模型评估模型评估模型发模型发布部署布部署服务服务应用应用(机器学习 /深度学习)教育公安信用AI企业用户面临的挑战GPU是AI科研必不可少的、紧缺且昂贵的部件;GPU资源缺少统一管理和调度,硬件资源利用率低AI相关的软件组件众多,数据建模和训练以及部署复杂;易用性较差、问题定位困难、无法聚焦算法研究机器/深度学习算法库和算法框架繁多,无从选择TensorFlow/Caffe/MXNet/等;无法训练出高质量的模型,科研水平难以提升开发上手困难科研效率

    4、低算法框架选择困难算法价值无法体现GPU管理困难教学科研成本高01人工智能需求背景02H3C 人工智能解决方案03案例分享H3C AIOS 人工智能平台三大应用场景云上AI服务人工智能平台AI一体机为CloudOS云平台的人工智能服务,和大数据平台、云平台共提供ABC融合方案主要数字化转型的企事业单位,智慧类项目面向科研市场,搭建人工智能实验室等科研场所,需求大规模AI集群的应用场景主要面向教育行业和研究所基于H3C UIS 5300 G3 和AIOS软件产品共同推出软硬件一体化的AI解决方案,主要面向构建AI基础机构的传统及新型企业p 我们目前聚焦AI平台层,提供平台产品,上层的行业场景化A

    5、I服务,可合作。H3C AIOS 人工智能产品系统架构管理员/用户AI API ServiceAI Resource Manager Service(基于kubernetes+docker的H3C容器平台)平台层应用层通用AI应用图像/视频/语音/自然语言处理/数据管理模型训练在线/离线开发可视化模型验证AI市场超参数搜索模型评估AI组件层计算框架模型托管模型部署在线预测服务服务监控服务使用者云计算资源池服务器存储网络异构计算资源池GPUFPGATPU作业调度集群分区存储服务多级配额 任务流引擎日志服务ML/DL算法库镜像仓库行业解决方案智慧金融/医疗/公安/气象/TensorflowCaff

    6、eCaffe2PyTorchMXnet更易用的AI平台模型训练在线推理 算法机器/深度学习库多框架 算力GPU硬件赋能云计算资源池 H3C AIOS人工智能平台核心功能人工智能平台AIOS提 供 深 度 学 习 可 视 化 训 练 平 台(H o r o v o d 分 布 式 特 性,集 成TensorFlow、Pytorch等框架),支持多机多卡,支持RDMA特性、超参搜索,内置通用框架组件及模板可视化训练环境支持在线/离线开发、拖拽式和编码式建模,支持远程桌面和SSH等连接方式;支持JupyterLab交互式编程,支持用户自定义开发环境自定义开发环境提供统一的模型库管理以及模型部署服务,

    7、支持多种模型格式的在线推理服务,支持多实例部署模式统一推理环境为多租户提供开发环境和存储资源的统一调配及安全隔离;对GPU计算资源提供统一的资源共享及调度模式支持人工智能平台AIOS统一监控运维AI建模体系统一开发环境:编码式建模离线环境在线环境镜像选择:用户可以使用内置镜像或者是自定义镜像目录挂载:支持用户空间工作目录挂载jupyterlab:内置镜像支持jupyterlab/jupyter平台端本地开发命令行:文件上传命令行:提交训练命令行:查看训练日志统一开发环境:拖拽式建模任务流引擎调度器Scheduler节点Executor作业DriverJobHandler(通用pod执行组件)C

    8、ontainer(task1)Container(task2)数据算子数据算子算法库数据处理深度学习机器学习模型评估用户空间数据脚本公共文件n易用性:拖拉拽式任务流建模,支持内置算法组件,支持用户自定义脚本训练;n扩展性:算法组件可扩展、作业类型可扩展;用户自定义组件(规划中);n灵活性:支持全局变量、内置变量;支持手动运行、批量运行、定时运行;n可控性:任务流引擎与用户资源配额相结合,满足平台对用户的资源控制。深度学习开发平台在线编辑系统提供web端脚本在线编辑器,并提供常用API的代码自动补全功能,方便用户随时调整训练脚本,修改网络结构,并及时运行脚本可视化训练提供可视化的深度学习训练过程

    9、,用户可以配置数据集、脚本、超参数、计算资源;也可以实时监控训练进度,查看资源利用率图表、损失图表、训练日志等等分布式多机多卡系统针对Tensorflow提供分布式GPU多机多卡训练支持,有效利用计算资源,极大的缩短了模型训练的过程,提高了资源利用率,节省了建模时间超参数搜索系统提供强大的超参数搜索功能,支持常见的网格搜索、随机搜索,以及贝叶斯搜索等搜索算法;并提供搜索之后的优化建议统一AI多集群管理灵活的作业调度策略(先进先出/抢占/共享)实时的资源监控平台多维度自定义告警机制稳定健康可控多租户资源隔离统一AI计算资源管理配置项单实例限额:并发实例不能超过10个免申请规格:单实例免工单申请的

    10、规格(2核|4G|1卡)用户资源总量:单用户运行资源总量限额(10核|20G|5卡)业务维度开发环境:即用户创建的jupyterlab环境训练环境:即用户进行任务流建模训练的环境TensorBoard:即用户创建的TB实例环境推理环境:即用户创建的在线推理服务环境 工单用户组限额全局限额用户限额n平台采用递进式资源分配机制,管理员可根据不同的业务,进行配置项的全局限额设置;n同时,管理员也可以对有特殊需求的用户组或者个人进行单独限额设置;n最后,用户可以通过工单申请审批机制,请求获取更大的资源配额。n多层级资源分配机制,即保证了平台在资源控制上的灵活性,也大大提高普通用户使用平台的易用性!分区

    11、、用户组、资源分配镜像仓库管理公共/内置镜像由管理员进行管理的平台内置镜像仓库,与平台各项业务功能能更好的交互。私有镜像由个人用户自己制作上传的镜像,满足用户特定场景下的需求。外部镜像网络允许的情况下,用户可以使用公网中的镜像源。镜像市场个人用户可以将自己的镜像共享给指定用户,甚至公布到平台镜像市场中。AI推理服务推理服务模型TensorFlowPyTorchMXNet推理镜像服务在线推理离线:推理镜像共享发布独占发布Tensorflow ServingTensorRTOpenVinoAI市场市场用户数据集用户模型用户镜像数据集模型镜像公布公布公布H3C AIOS 人工智能平台核心特点n低成本

    12、:GPU资源池化共享,降低硬件成本,提供资源利用率n高效率:支持多机多卡模型训练,大幅度缩短建模时间n多层次:面向技能型、应用型、科研型等多层次人才n易扩展:基于容器的弹性扩展,支持独立部署和云上部署n可持续:H3C AIOS 实力的支持,平台可持续演进n易操作:基于WEB操作管理,简单易用n易科研:全面支持主流AI框架和版本,灵活复制适合的脚手架工程n易开发:支持在线、离线、命令行开发,训练日志和模型可视化,模型溯源、指标跟踪、提供神经网络算法和超参数优化建议n多级配额:多层级资源分配机制,灵活控制资源,提高易用性人工智能创新开发平台AIOS业务需求数据处理设计模型并调优模型训练及评估部署模

    13、型并上线调整模型释放平台计算能力,深度聚焦应用集中建设,弹性扩展集 中 建 设 一 套 人 工 智 能 平 台,改变分散构建开发平台的模式,通过容器化技术,实现资源弹性伸缩,按需扩展,提升资源利用率,大幅降低成本。一键部署,快速交付环境目录服务提供便捷的环境依赖组件目录,工具集、系统镜像,方便用户个 性化定制或者统一规范使用。通过统一服务目录管理,高效的集群管理系统,实现一键部署,快速安装上线。大幅度提高自动化程度,提升效率,降低人工维 护成本。多租户服务,资源灵活获取区分不同用户分权限,自动化获取计算资源,掌握专业开发者自动化和灵活可控的平衡。124310GE交换机10GE 业务网络GE管理

    14、监控网络GE交换机交换网络模型训练子系统多台高性能GPU服务器(2个GPU卡以上)异构计算资源池H3C AIOS 人工智能平台部署规划管理子系统X86服务器1台.02人工智能需求背景03H3C 人工智能解决方案01案例分享案例1:XX大学人工智能实验室项目p 项目背景及需求XX大学是教育部直属的全国重点高校、国家“211工程”、“985优势学科创新平台项目”和国家“双一流”建设高校。客户需求计算机学院构建人工智能实验室,为全院老师提供统一的AI平台进行前沿的科学研究,对GPU资源进行统一调度与管理,建设一体化深度学习科研平台。p 解决方案及价值解决方案:一期:提供3台管理节点、15台GPU训练

    15、节点(每台3个P100 GPU卡)的服务器与18个节点的H3C公共科学计算AIOS软件,二期:提供11个AIOS节点+11台高性能GPU服务器(每台8卡)。项目在中标后,一周时间内进行硬件安装与软件部署,顺利完成项目验收。价值:为客户提供一体化的深度学习科研平台,对132块GPU卡统一调度与管理,提供深度学习可视化训练与开发环境,满足计算机学院老师进行目标追踪与检测、遥感图像分析与视频分割等方向的AI科研需求,大大降低AI实验室的构建成本、提升学校的科研创新能力。XX大学人工实验室实验室建设介绍矿大人工智能实验室配有29台H3C NaviData 5200计算节点,包含3个独立的管理节点和26

    16、个独立的GPU节点。通过H3C人工智能软件管理平台AIOS实现集群资源的管理和GPU资源的调度。整个系统的计算资源超过1000物理核,可提供超过30Tflops的单精度浮点计算整体理论峰值。内存容量超过7.5T,物理可用空间超过300T,包含45块Nvidia Tesla P100 GPU卡、80块Nvidia Geforce 2080Ti GPU卡。整个系统通过高速万兆网络互联,该平台承载XX大学计算机学院的科研和部分教学应用。目前主要在计算机视觉和深度学习领域针对遥感影像智能解译和视频安防进行研究与探索。XX大学人工智能实验室部署架构10GE交换机10GE 业务网络GE管理监控网络GE交换

    17、机交换网络深度学习训练节点(训练集群/计算集群)15台GPU高性能服务器(一期)+10台高性能GPU服务器(二期)UIS3000,每台3块P100 GPU卡(一期)+80GPU卡(二期)管理节点3台服务器UIS3000 人工智能平台AIOSp 项目背景及需求随着教学和科研的深入,XX需要在机器学习、深度学习、科学计算、视频编解码等多种场景下提供快速、稳定、弹性的计算服务,满足如人脸识别、数据分析、矩阵计算等方面日益增长的教学和科研需求。该项目客户需求使用高性能GPU服务器和AI平台进行前沿的科学研究,主要满足AI领域深度学习等应用的科研工作p 解决方案及价值解决方案:我司提供了一套AIOS公共科学计算平台软件+一台高性能GPU服务器(8块 Tesla 16G V100 GPU),基于整体的AI方案的优势,赢得了客户的认可。一周时间内进行硬件安装与软件部署,顺利完成项目验收和培训。价值:AI科研平台为人工智能技术方向的教师提供了科研实验环境,另外平台中的控制部件是模块化设计,可以实现多目标的协同等功能,为“数据中心+边缘计算+AI应用”的人工智能开发模式提供基础。案例2:XX学院人工智能实验室项目

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:H3C-人工智能解决方案介绍.pptx
    链接地址:https://www.163wenku.com/p-3604440.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库