解决大模型“开发难”,昇思MindSpore自动并行技术应用实践

解决,模型,开发,mindspore,自动,并行,技术,应用,实践 · 浏览次数 : 104

小编点评

**华为昇思MindSpore自动并行技术应用实践** 本文介绍了昇思MindSpore自动并行技术,该技术可以为开发者打造开发友好、运行高效、部署灵活的AI框架。 **主要特征:** * 支持多模态训练,支持20+大模型训练,6个千亿参数大模型。 * 使用集合通信实现模型并行。 * 支持流水线并行,可降低内存开销。 * 通过优化器和内存优化技术,可以有效提升训练性能。 **主要应用场景:** * 4096卡集群、万亿参数规模的训练任务。 * 支持国内多个领域首发大模型。 **优点:** * 开发者可以打造开发友好、运行高效、部署灵活的AI框架。 * 降低开发者门槛,让更多开发者能够参与到人工智能研发中。 * 建立学习型社区环境,凝聚开发者力量共建社区。

正文

本文分享自华为云社区《DTSE Tech Talk|第35期:解决大模型“开发难”,昇思MindSpore自动并行技术应用实践》,作者华为云社区精选。

昇思MindSpore是新一代覆盖端边云全场景的开源AI框架,旨在开创全新的AI编程范式,降低开发者门槛,为开发者打造开发友好、运行高效、部署灵活的AI框架,推动人工智能生态繁荣发展。同时,昇思在致力于大规模自动并行、科学计算支持等特性优化之外,还着力打造学习型社区环境,希望凝聚开发者力量共建社区,与开发者共同学习和成长。

昇思MindSpore自动并行技术的实际运用

昇思MindSpore具备丰富的并行能力,能轻松完成4096卡集群、万亿参数规模的训练任务,因此支撑了国内多个领域首发大模型的训练,这些大模型涉及知识问答、知识检索、知识推理、阅读理解、文本/视觉/语音多模态、生物制药、遥感、代码生成等。总共支撑20+大模型训练,6个千亿参数大模型,覆盖NLP、Audio、CV、多模态等领域。

数据并行

cke_136.png

对数据进行切分的并行模式,一般按照batch维度切分,将数据分配到各个计算单元(worker)中,进行模型计算。而在 昇思MindSpore 中是用集合通信这个方式来实现的,利用到了 AllReduce 操作完成的梯度聚合部分。

模型并行

cke_137.png

模型并行是算子层面的并行,它利用某些算子的特性将算子拆分到多个设备上进行计算。因此并不是网络中所有的算子都可以拆分计算,可以拆分的算子需满足两点:可以并行计算的算子;算子其中一个输入来自于Parameter。

Pipeline并行

cke_138.png

受server间通信带宽低的影响,传统数据并行叠加模型并行的这种混合并行模式的性能表现欠佳,需要引入流水线并行。流水线并行能够将模型在空间上按stage进行切分,每个stage只需执行网络的一部分,大大节省了内存开销,同时缩小了通信域,缩短了通信时间。流水线(Pipeline)并行是将神经网络中的算子切分成多个阶段(Stage),再把阶段映射到不同的设备上,使得不同设备去计算神经网络的不同部分。

内存优化

1、重计算

在计算某些反向算子时,需要用到一些正向算子的计算结果,导致这些正向算子的计算结果需要驻留在内存中,直到依赖它们的反向算子计算完,这些正向算子的计算结果占用的内存才会被复用。这一现象推高了训练的内存峰值,在大规模网络模型中尤为显著。

如:

  • Dropout
  • Activations

2、优化器并行

在进行数据并行训练时,模型的参数更新部分在各卡间存在冗余计算,优化器并行通过将优化器的计算量分散到数据并行维度的卡上,在大规模网络上(比如Bert、GPT)可以有效减少内存消耗并提升网络性能。

传统的数据并行模式将模型参数在每台设备上都有保有副本,把训练数据切分,在每次迭代后利用通信算子同步梯度信息,最后通过优化器计算对参数进行更新。数据并行虽然能够有效提升训练吞吐量,但并没有最大限度地利用机器资源。其中优化器会引入冗余内存和计算,消除这些冗余是需关注的优化点。

昇思MindSpore分布式并行模式有哪些?

数据并行

用户的网络参数规模在单卡上可以计算的情况下使用。这种模式会在每卡上复制相同的网络参数,训练时输入不同的训练数据,适合大部分用户使用;

半自动并行

用户的神经网络在单卡上无法计算,并且对切分的性能存在较大的需求。用户可以设置这种运行模式,手动指定每个算子的切分策略,达到较佳的训练性能;

自动并行

用户的神经网络在单卡上无法计算,但是不知道如何配置算子策略。用户启动这种模式,昇思MindSpore会自动针对每个算子进行配置策略,适合想要并行训练但是不知道如何配置策略的用户;

混合并行

完全由用户自己设计并行训练的逻辑和实现,用户可以自己在网络中定义AllGather等通信算子。适合熟悉并行训练的用户。

 

点击关注,第一时间了解华为云新鲜技术~

 

与解决大模型“开发难”,昇思MindSpore自动并行技术应用实践相似的内容:

解决大模型“开发难”,昇思MindSpore自动并行技术应用实践

本文介绍MindSpore常用的分布式并行训练技术,以及如何将并行技术应用到大模型预训练中。

AI推理实践丨多路极致性能目标检测最佳实践设计解密

摘要:基于CANN的多路极致性能目标检测最佳实践设计解密。 本文分享自华为云社区《基于CANN的AI推理最佳实践丨多路极致性能目标检测应用设计解密》,作者: 昇腾CANN 。 当前人工智能领域,最热门的无疑是以ChatGPT为代表的各种“新贵”大模型,它们高高在上,让你无法触及。但在人们的日常生活中

昇腾实践丨ATC模型转换动态shape问题案例

本期就分享几个关于昇腾CANN中关于ATC模型转换动态shape相关问题的典型案例,并给出原因分析及解决方法。

智能工作流:Spring AI高效批量化提示访问方案

集用SpringAI搭建系统,依靠线程池\负载均衡等技术进行请求优化,用于解决科研&开发过程中对GPT接口进行批量化接口请求中出现的问题。大语言模型接口以OpenAI的GPT 3.5为例,JDK版本为17。

一文为你深度解析LLaMA2模型架构

本文对比LLaMA1和 LLaMA2模型的技术细节,了解LLaMA2模型的内部核心算法,包括与Transformers架构的差异,以及LLaMA2与国内大模型的异同,进一步加深了大家对LLaMA的理解。

解锁HDC 2024之旅:从购票到报名,全程攻略

本文分享自华为云社区《解锁HDC 2024之旅:从购票到报名,全程攻略》,作者:华为云社区精选。 Hi,代码界的小伙伴们,集结号已经吹响了!华为开发者大会(HDC 2024)——这场汇聚了HarmonyOS NEXT鸿蒙星河版、盘古大模型5.0等创新火花与智慧碰撞的盛宴,将于6月21日至23日在东莞

第129篇:JS模块化开发

好家伙,本篇为《JS高级程序设计》第二十六章“模块”学习笔记 JS开发会遇到代码量大和广泛使用第三方库的问题。 解决这个问题的方案通 常需要把代码拆分成很多部分,然后再通过某种方式将它们连接起来。 若代码量较大,我们使用模块化开发的模式,也能够使代码容易维护 我们需要模块 1.模块模式 把逻辑分块,

Istio数据面新模式:Ambient Mesh技术解析

摘要:Ambient Mesh以一种更符合大规模落地要求的形态出现,克服了大多数Sidecar模式的固有缺陷,让用户无需再感知网格相关组件,真正将网格下沉为基础设施。 本文分享自华为云社区《华为云云原生团队:Istio数据面新模式 Ambient Mesh技术解析》,作者: 云容器大未来。 如果说在

如何拥有自己的专属GPT-本地部署目前最强大模型llama3

你是不是苦于没法使用ChatGPT?或者访问了ChatGPT却没法使用GPT4?现在一切问题都可以解决了! 4月18日,Meta发布两款开源Llama 3 8B与Llama 3 70B模型,供外部开发者免费使用。这个消息轰动了全球开发者。按照Meta的说法,Llama 3 8B和Llama 3 70

如何有效的解决代码的圈复杂度

不管小型公司还是大型互联网公司,很多项目债台高筑,新功能开发困难。其中一个很大的原因就是代码复杂,可读性差。那复杂度有没有一个明确的衡量标准,我们又如何去解决代码的圈复杂度呢?本篇文章将详细讲解圈复杂度的计算方式以及常用的解决方法。