《华为:2024华为云昇腾AI云服务实用指南(30页).pdf》由会员分享,可在线阅读,更多相关《华为:2024华为云昇腾AI云服务实用指南(30页).pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、华为云昇腾AI云服务6A FAMILY 云化算力底座目录大模型为 AI 产业带来拐点 03Sora 的出现再次印证 Scaling law,大模型创新需要澎湃算力支撑 04大模型引发全球算力需求的指数级增长 02大模型是人类迄今为止最复杂的软件、硬件系统 06昇腾 AI 云服务,大模型时代的最佳云化全栈算力服务 07满足多样化算力使用模式 08满足多样化算力管理模式 09满足多样化算力部署模式 10聚焦业务创新,企业需要全栈算力服务 05AI Gallery:一站式 AI 社区服务平台,构建百模千态的开放昇腾社区 23D-Plan:生态伙伴计划 24昇腾云服务开放兼容支持百模千态 22FAMI
2、LY昇腾云服务打造 6A 算力沃土 11昇腾 AI 云服务打造 6A 算力沃土,构建百模千态首选云底座 12故障恢复快 Fault recovery Acceleration 13资源获取快 Access Acceleration 14模型迁移快 Migration Acceleration 15云上推理投资优 Investment Advantage 17就近服务时延优 Latency Advantage 19云上性能优 Yield Advantage 21FAMILY昇腾 AI 云服务 全球行业先行者 26客户案例 2601华为云昇腾AI云服务大模型引发全球算力需求的指数级增长大模型引发全
3、球算力需求的指数级增长02华为云昇腾AI云服务大模型引发全球算力需求的指数级增长AI技术里程碑AI产业发展浪潮AI重点事件里程碑感知理解世界,专用领域替代低端重复性工作生成创造世界,通用领域替代较高端脑力劳动工作1956 年达特茅斯会议1997 年“深蓝”战胜人类2015 年视觉识别超过人类2020 年蛋白质结构预测2022 年ChatGPT专家系统视觉识别,翻译内容生成,预测ChatGPTGPT4Gemini控制论深度学习GANAI4SNLPCV大模型为 AI 产业带来拐点从“感知”走向“生成”,从专用走向通用人工智能产业发展经历三次浪潮。最近的一次是以 Transformer 架构为代表的
4、大模型,生成式 AI 的兴起,将我们带入新的 AI 产业浪潮之中。大模型是人工智能历史的分水岭,此前,人们更多关注和讨论的是机器如何感知世界,例如识别日常生活中的各种物体;而现在,人类则进入到通过大模型的生成能力创造数字世界,预测未来趋势。通过对海量数据的预训练,大模型可以在超高维度空间上对人类全部知识进行高度压缩,进行微调就可以完成多个应用场景任务的泛化,模型正在从专用走向通用。随着人工智能技术的日新月异,AI 将进一步驱动各行各业生产能力、生产效率从“量变到质变”,实现跨越式发展和新质生产力跃升,如何用好 AI 将成为国家、行业、企业的核心竞争力。03华为云昇腾AI云服务Sora 的出现再
5、次印证 Scaling law,大模型创新需要澎湃算力支撑大模型的爆发引发全球算力需求的指数级增长。2024 年基于扩散的视频生成模型 Sora 的出现,其革命性的视频生成能力,不仅展示了 AI 在视觉内容创造上的突破,更预示着全球算力需求的新一轮激增。数据显示,过去10 年 AI 算力需求翻了 30 万倍。而未来 10 年 AI 算力将再增长 500 倍。数据集规模将从目前的一两个 T 增长到100T。此外,大模型还需要理解更长的上下文,Token 长度将从千级发展到十万级。视频生成类模型的算力消耗相比 LLM 提升 20 倍,意味着训练集群规模要扩大一个数量级。万卡训练集群将成为训练下一代
6、生成式模型的必备条件。由于算力规模扩大,算力的调度和管理的难度将大幅提升,需要有一个算力平台可以整合管理,调度,自动故障隔离,checkpointing,自动任务恢复的任务。这些挑战相互影响、环环相扣。针对 AI 时代的这些挑战,华为云提出了软硬件结合的系统性创新,华为云昇腾 AI 云服务整合集群算力、计算引擎 CANN、AI 开发框架 MindSpore 和 ModelArts AI 开发生产线。为大模型的训练,推理,AI 应用的开发、运行提供稳定可靠的全栈算力保障。2012 年至 2023 年算力需求翻了数十万倍感知认知生成1e+41e+31e+21e+11e+01e-11e-21e-31
7、e-4201220132014201520162017201820192020202120222023GPT-4ChatGPTGPT-3AlphaZeroTI7 Dota 1v1XceptionDeepSpeech2AlphaGoZeroVGGNeural Machine TranslationVisualizing and Understanding ConvNetsGoogleNetAlexNetSeq2SeqResNets数十万倍需求增长百倍级AI 算力增长数千倍差距模型规模及发布时间Source:Factorial Funds AI inference compute comparis
8、onSORA 所消耗的算力相比LLM 类模型要大数个量级推理消耗算力对比 FLOPS1025102310211019101710150.81.00.60.40.20.0Sora(1 min video)GPT-4(1000 text tokens)LLama-2 70B(1000 text tokens)DiT-XL/2 Image Generation(512x512px images)大模型引发全球算力需求的指数级增长04华为云昇腾AI云服务聚焦业务创新,企业需要全栈算力服务聚焦业务创新,企业需要全栈算力服务05华为云昇腾AI云服务大模型是人类迄今为止最复杂的软件、硬件系统大模型是一个复杂
9、系统工程,大模型开发的每一步都存在着大量的工程化技术挑战。算力系统也并非算力的简单堆积,需要解决诸如低时延数据交换,节点之间均衡计算避免冷热不均,消弭算力堵点。避免出现单点硬件故障导致的全面训练中断、梯度爆炸、算法重训等一系列的问题,是一项复杂的系统工程,需要从算力效率、线性扩展、长效稳定等多个方面进行系统设计。而云化的全栈算力服务由于积累了足够多的模型训练,运维经验,以服务的方式让企业使用到最新的经验,技术成果,避免重复解决问题,让企业得以聚焦创新。大模型不仅需要算法,而且需要数据处理,软硬件优化、模型开发、应用创新、推理部署的系统工程能力业务规划应用发布压缩/转换优化/部署一.数据&模型准
10、备1.数据处理5.推理部署6.集成2.模型设计3.算力准备&系统调优4.大规模训练&微调二.算力准备&模型训练三.推理部署&集成公共开放数据处理行业特征工程模型架构设计超参定义和范围标定模型层/优化器设计模型微调设计行业私有数据处理指令微调数据处理计算平台系统设计AI 集群平台建设系统调试与上线转换剪枝蒸馏量化在线推理离线推理模型预训练代码调试模型训练下游任务微调防攻击/故障隔离API 开放代码调试模型微调 参数面无损网络 多级存储优化 计算集群密度设计 液冷设计 多样化算力调度 集群稳定性设计 开源数据集选择 预训练数据清洗 数据质量测试 稠密稀疏混合架构 RLHF 算法设计 RLHF 数据
11、集标注 多种并行策略设计 通信链路加速 多任务可视化 profiling 断点续训设计 算子融合调优 多样化算力调度 多任务权重融合 大模型分布式推理切分 在线推理框架 模型剪枝和蒸馏技术 模型 INT 量化 下游多任务效果测试 微调算法优化 推理性能调优 推理集群设计 推理集群调度系统 多应用 Load Balance API 接口设计 防攻击设计 故障恢复和隔离 聚焦业务创新,企业需要全栈算力服务06华为云昇腾AI云服务昇腾AI云服务,大模型时代的最佳云化全栈算力服务昇腾 AI 云服务:包括云化算力、AI 开发生产线 ModelArts 和 AI 开发者生态 AI Gallery。为支持大
12、模型的“百模千态”创新,昇腾 AI 云服务提供触手可及的澎湃 AI 算力服务,独有的多级恢复机制和完备的工具链可实现千卡训练连续 30 天不中断,任务恢复时长小于 30 分钟,为大模型和 AI 应用的开发、运行、运维提供最佳算力云底座。昇腾AI云服务官网解决方案案例应用示例数据模型AI Gallery百模千态社区应用场景LLMAIGC自动驾驶内容审核数字人模型托管模型统一注册管理模型统一训练微调模型统一应用服务公有云混合云专属云边缘云AI 计算硬件通用计算硬件AI 框架MindSpore、TensorFlow、PyTorch.异构计算架构芯片使能AI 平台ModelArtsStandardLi
13、teEdge澎湃算力即开即用无需自建或改造数据中心高效易用全栈平台能力无需投资通用 AI 技术集群训练故障自动恢复无需担心运维和安全打造百模千态的黑土地无需担心模型开发应用难云网边端芯算力协同无需担心端侧算力瓶颈聚焦业务创新,企业需要全栈算力服务07华为云昇腾AI云服务满足多样化算力使用模式offering 提供大规模算力集群 提供分布式加速库 提供大模型适配和优化 技术栈开放,高度自主可控拥有超级 APP自研大模型需要数千卡算力offering 提供主流三方大模型 提供完善的 SFT 训练框架 提供参考案例 提供易用的大模型应用开发工具链拥有较强行业背景和大量行业数据增量训练大模型需要数百卡
14、算力offering 提供开箱即用的开源大模型,支持微调,快速上手 提供端到端应用开发工具链、向量数据库等 提供丰富的预制应用模板拥有较深的行业理解智能应用开发需要数十卡算力聚焦业务创新,企业需要全栈算力服务08华为云昇腾AI云服务满足多样化算力管理模式AI 开发生产线 ModelArts,是面向 AI 开发者的一站式开发平台,提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期 AI 工作流。为满足客户多样化的算力管理模式,ModelArts 提供 Standard 和 Lite 两种模式。ModelArts
15、Standard 包含端到端的 AI 开发生产线+算力持续运维平台。ModelArts Lite 仅包含算力持续运维平台。ModelArts StandardModelArts Lite一站式 AI 开发平台数据管理模型开发训练任务推理服务IDE 插件CodelabSDK|CLI昇腾工具链TensorFlow/Pytroch等第三方框架 提供端到端的 AI 开发生产线+算力持续运维平台ModelArts Standard 服务的介绍端到端生产工具链,一致性开发体验 线上线下协同开发,开发训练一体化架构,支持大模型分布式部署及推理AI 工程化能力,支持 AI 全流程生命周期管理 支持 MLOps
16、 能力,提供数据诊断、模型监测等分析能力,训练智能日志分析与诊断容错能力强,故障恢复快 故障检测覆盖度 95%,故障 30 分钟内恢复,恢复成功率大于 95%,保障千卡作业稳定训练数周以上,训练有效卡时大于95%ModelArts Lite 服务的介绍零改造迁移 提供业界通用的 k8s 接口使用资源,业务跨云迁移无压力 SSH 直达节点和容器,一致体验多种资源形态 集群模式,开箱即提供好 Kubernetes 集群,直接使用,方便高效 节点模式,客户可采用开源或自研框架,自行构建集群,更强的掌控力和灵活性极致性价比 提供高性价比国产算力 多年软硬件经验沉淀,AI 场景极致优化 加速套件,训练、
17、推理、数据访问多维度加速故障恢复 机柜、节点、加速卡、任务多场景故障感知 节点级、作业级、容器级,多级故障恢复 算力持续运维平台ModelArts Lite资源访问方式Kubernetes专属集群资源调度虚拟机/裸金属AI 加速集群管理推理加速Kubernetes/SSH/APIElastic Cluster(原生接口)Elastic Server(原生算力)训练加速数据加速门户管理故障管理告警管理权限管理运营管理AI 算力聚焦业务创新,企业需要全栈算力服务09华为云昇腾AI云服务聚焦业务创新,企业需要全栈算力服务满足多样化算力部署模式端云协同,以云助端的案例昇腾 AI 云服务通过云网边端芯算
18、力协同,为端侧提供更充沛算力,让终端应用更智能。受限于体积和成本等因素,手机硬件很难做到高清拍摄,也无法支撑超分修图的算力要求。通过以云助端,调用云端强大的算力,利用枢纽节点大规模算力来进行超分修图,突破手机硬件的限制,为用户的手机拍照体验带来了全新的突破,使得用户能够在手机上轻松获得专业级的照片效果。AI Server 集群业务算法设备映射至PodNPUNPUNPU故障管理.核心枢纽华为云高速骨干网传输边缘节点端侧压缩80M18M云上 ms 级传输AI 推理:55s 3.3S网络传输 10S 2S端云边CloudPondModelArts Edge提供通用算力+AI算力服务混合云(客户机房)
19、公有云(华为机房)提供AI算力服务10华为云昇腾AI云服务昇腾云服务打造 6A 算力沃土FAMILY昇腾云服务打造 6A 算力沃土FAMILY11华为云昇腾AI云服务昇腾 AI 云服务打造 6A 算力沃土,构建百模千态首选云底座FAMILY昇腾云服务打造 6A 算力沃土FAMILY大模型时代的 AI 算力对数据中心的基础设施要求极高。以散热为例,AI 服务器的功率密度远超通用服务器,单机柜的功耗是过去的 6-8 倍,并需要专用的液冷系统进行散热。大模型训练动辄需要百卡、千卡甚至万卡,自建AI 数据中心面临 AI 研发人员稀缺,硬件建设周期长、集群运维团队经验少、推理服务时延高等诸多挑战。6A
20、FAMILY3 个加速(Acceleration)模型迁移快Migration资源获取快Access故障恢复快Fault recovery就近服务时延优Latency云上推理投资优Investment云上性能优Yield3 个优质(Advantage)CloudOcean华为云全球中心CloudSea华为云区域枢纽CloudLake智能边缘云CloudPond智能边缘小站盘古矿山大模型盘古政务大模型盘古气象大模型盘古汽车大模型盘古大模型LLAMA2GLMV2Stable DiffusionGLMV1开源大模型自研大模型星火大模型百川大模型紫东太初大模型12华为云昇腾AI云服务故障恢复快 Fau
21、lt recovery Acceleration在云上,可以获得更快速的运维保障,集群故障可以做到 1 分钟发现,5 分钟诊断,10 分钟恢复。昇腾云服务打造 6A 算力沃土FAMILY昇腾 AI 云服务精确隔离,恢复快作业级恢复隔离节点恢复节点级恢复业界全部重启,恢复慢故障 2故障 1故障 3业界实践:业界大模型训练平均 2.8 天出现一次中断 业界故障处理时间约 130 天,严重拉低大模型训练效率在 1000 个 80G A100 上 训 练 3000 亿个单词,需要 33 天。实际训练了 90天,期间出现 112 次故障。训练时间变长大模型训练期间碰到的主要问题是硬件故障、导致任务手动重
22、启 35 次,自动重启约 70 多次,严重影响模型的训练进程。硬件故障占比高(图示为训练过程中的意外中断情况,横坐标为训练时间,纵坐标为困惑度 PPL)Sat 13Sat 11Sat 27Mon 15Mon 13Mon 29 DecemberWed 17Wed 15Fri 19Fri 03Dec 05Nov 21Tue 23Tue 07Thu 25Thu 091312111098传统方式是被动响应集群故障,重启范围广,作业恢复慢华为实践:盘古-200B 在非故障停机前连续稳定训练 30 天 全链路故障感知,覆盖不同层次的故障感知;故障诊断引擎:训练任务分层分级诊断能力;丰富的诊断类型:支持 3
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 举报,一经查实,本站将立刻删除。如若转载,请注明出处:http://shishibaogao.com/_aibin__/6173.html