CANN 6.0来了,硬核技术抢先看

cann,硬核,技术,抢先 · 浏览次数 : 574

小编点评

## 华为昇腾AI异构计算架构CANN 6.0版本简介 华为正式发布了昇腾AI异构计算架构CANN 6.0版本,将于年底正式发布。CANN 6.0版本是华为云社区《昇腾AI异构计算架构CANN 6.0全新开放升级,全面释放AI生产力》的升级版,它满足全方位业务诉求从2018年初露锋芒到2022年即将发布的CANN 6.0最新版本。 **CANN 6.0版本主要提升以下几个方面:** * **性能提升:**CANN 6.0版本性能提升了30%,支持多核CPU的多线程运行,并支持AI框架如TensorFlow、PyTorch、Caffe、计图、Jittor等的全面支持。 * **开放性提升:**CANN 6.0版本支持400+算子支持动态shape,支持80%的主流算子,极大地提高了AI场景生态满足度。 * **易用性提升:**CANN 6.0版本提供原生支持C/C++的算子开发语言,降低算子开发门槛,提升用户自定义算子开发效率。 * **易用性提升:**CANN 6.0版本支持算子Debug调试、一键生成工程代码、自动编译部署到算子库、简化算子交付件等功能,极大地降低了算子开发门槛。 **CANN 6.0版本主要支持的框架和工具包括:** * 11大类在内的70个DSL算子编程接口 * 11类算子调度策略 * 算子调试工具 * 自动编译部署工具 * 可视化性能分析工具 **总结:** CANN 6.0版本是一款全面提升AI开发效率和性能的架构升级版,它将为开发者带来便捷、高效的AI开发体验,极大地推动人工智能技术的发展。

正文

摘要:在华为全联接大会2022期间,华为正式官宣昇腾AI异构计算架构CANN 6.0版本将在年底正式发布。

本文分享自华为云社区《昇腾AI异构计算架构CANN 6.0全新开放升级,全面释放AI生产力》,作者: 昇腾CANN 。

在华为全联接大会2022期间,华为正式官宣昇腾AI异构计算架构CANN 6.0版本将在年底正式发布。

高度完善的生态满足度,满足全方位业务诉求

从2018年初露锋芒到2022年即将发布的CANN 6.0最新版本,CANN在使能AI开发效率和性能方面持续保持业界领先。作为昇腾生态的锚点,CANN 6.0版本基于发布全新升级的开发体系2.0,在性能、开放性及易用性上持续提升,在开源算法支持、自定义算子开发、动态shape场景支持等方面全方位满足AI开发者的诉求,不断提升生态满足度。

作为昇腾AI基础软硬件平台的核心,CANN搭起了从上层深度学习框架到底层AI硬件的桥梁,全面支持昇思MindSpore、飞桨(PaddlePaddle)、PyTorch、TensorFlow、Caffe、计图(Jittor)等主流AI框架,提供900多种优选模型能够覆盖众多典型场景应用,兼容多种底层硬件设备,提供强大异构计算能力。

为满足开发者多层次AI业务诉求,CANN提供统一的面向应用的编程语言AscendCL(Ascend Computing Language)屏蔽底层处理器差异,支持AI应用开发、模型开发和算子开发,版本向上兼容,让开发者零感知版本升级,畅享AI开发的便捷性。

同时,随着人工智能应用深入更多场景,图片大小、语音长短等动态数据输入的需求不断增加,CANN 6.0版本对动态shape的支持度不断提升,在新版本中,我们将会有400+算子支持动态shape,支持80%的主流算子,极大提高了AI场景生态满足度以匹配客户更多的AI业务场景。

打造极简易用算子开发体验,高效使能AI开发者

经过数年的积累和优化,CANN高性能算子库为支撑神经网络训练和推理加速而不断添砖加瓦,CANN 6.0版本已经发展到1400+高性能算子,可覆盖主流AI框架的算子加速需求。

算子库不仅支持高性能单算子执行加速,还支持入图技术,在图上通过算子融合减少计算节点和内存拷贝,进一步提升整网执行性能,以Bert网络为例,通过算子深度融合技术可将网络性能提高50%。CANN 6.0新发布的Transformer高性能加速库,针对网络典型结构精简80% kernel数,核心kernel性能提升50%-150%,可匹配昇腾全系列处理器支持NLP/CV类全场景Transformer网络,并且兼具简易的继承开发及上层框架使用等诸多优点。

CANN 6.0版本除了继续保持在典型模型上的性能优势外,还将重点在易用性方面进行提升。伴随算子自定义开发需求的增多,为了更加开放、高效的支持用户自开发,随新版本发布的开发体系2.0,在算子开发方面推出原生支持C/C++的算子开发语言,降低算子开发门槛,同时提供昇腾硬件亲和的数据结构,在保持性能的基础上提升用户自定义算子开发效率,使得算子开发效率得到倍级提升。

CANN 6.0版本将会提供包括11大类在内的70个DSL算子编程接口、新增11类算子调度策略,从而使能更多算子采用简单的DSL方式开发,算子库中DSL算子覆盖度可达80%。在开发易用性方面,开发者仅需完成计算过程表达,无需关心后续的Schedule创建、优化及编译等问题,因为这些操作将通过Auto Schedule自动调度接口快速完成。CANN同时支持算子Debug调试、一键生成工程代码、自动编译部署到算子库、简化算子交付件等功能,基于全流程解决开发者痛点,最大程度降低算子开发门槛。

持续提升模型开发效率,实现模型下载即用

CANN支持模型的自动化迁移、调测及智能调优,从真正意义上实现模型下载即用。CANN 6.0版本下,主流框架TensorFlow和PyTorch的模型迁移成功率可达80%以上,兼容主流三方库Horovod/Keras/DeepSpeed等。在此基础上还能方便地将那些随算法演进而开发的自定义kernal或function保留到框架侧执行,提升算法适配灵活度。

在模型调优方面,开发者不仅能借助一系列昇腾亲和API提升性能,还能通过智能化调优工具代替复杂的手工优化操作,CANN 6.0版本的平均调优效率将较上一代提升一倍以上。

全系列AI开发辅助工具,扫除AI开发重重障碍

作为一个全面使能AI开发的软件平台,CANN不但持续在AI模型适配、应用开发和算子开发方面给开发者带来便捷,更是从模型优化、系统分析、模型部署等多维度帮助开发者扫除重重障碍。

模型压缩工具AMCT,能有效降低模型数据量和计算量,节约模型内存和带宽占用,提升计算性能;智能计算调优工具AOE,其傻瓜式的自动寻优能力使得算法工程师从繁重的手工调优工作中解脱出来,并能够将调优进度和调优结果通过可视化方式直观展示;Profiling工具则能自动采集整网性能数据,通过统计视图识别最耗时算子,在CANN 6.0版本中,可自动生成性能优化建议,引导用户快速解决问题;精度比对工具,支持整网或指定层数据dump,CANN 6.0版本中进一步精简dump数据量,更有效的辅助开发者快速定位异常算子。

智能大潮,奔涌向前,CANN持续深入践行初心和使命,以大道至简的态度筑梦AI开发者!随着CANN 6.0版本的全新开放升级,必定带动更多伙伴及开发者基于昇腾AI和CANN的关键技术探索人工智能领域更多可能,点燃智慧创新热情,点亮智能美好生活,共同筑梦远方,共享行业数字未来!

 

点击关注,第一时间了解华为云新鲜技术~

与CANN 6.0来了,硬核技术抢先看相似的内容:

CANN 6.0来了,硬核技术抢先看

摘要:在华为全联接大会2022期间,华为正式官宣昇腾AI异构计算架构CANN 6.0版本将在年底正式发布。 本文分享自华为云社区《昇腾AI异构计算架构CANN 6.0全新开放升级,全面释放AI生产力》,作者: 昇腾CANN 。 在华为全联接大会2022期间,华为正式官宣昇腾AI异构计算架构CANN

网络性能总不好?网络调优专家AOE帮你来“看看”

摘要:为提升网络性能、降低人工调优成本,CANN推出了自动化网络调优工具AOE,通过子图调优、算子调优与梯度调优的功能,让网络可以在AI硬件上获得最佳性能。 本文分享自华为云社区《网络性能总不好?专家帮你来“看看”— CANN 6.0 黑科技 | 网络调优专家AOE,性能效率双提升》,作者:昇腾CA

基于U-Net网络的图像分割的MindStudio实践

摘要:本实践是基于Windows版MindStudio 5.0.RC3,远程连接ECS服务器使用,ECS是基于官方分享的CANN6.0.RC1_MindX_Vision3.0.RC3镜像创建的。 本文分享自华为云社区《【MindStudio训练营第一季】基于U-Net网络的图像分割的MindStud

Ascend CL两种数据预处理的方式:AIPP和DVPP

摘要:本文介绍了昇腾CANN提供的两种数据预处理的方式:DVPP和AIPP,介绍了两者的功能、差别及联系,并以具体代码示例介绍了如何使用DVPP和AIPP的功能。 本文分享自华为云社区《了解AscendCL数据预处理的两种方式:AIPP和DVPP》,作者:昇腾CANN。 数据预处理的典型使用场景 受

昇腾实践丨ATC模型转换动态shape问题案例

本期就分享几个关于昇腾CANN中关于ATC模型转换动态shape相关问题的典型案例,并给出原因分析及解决方法。

深度解读昇腾CANN模型下沉技术,提升模型调度性能

如何减少Host Bound模型的Device空闲时间,从而优化模型执行性能显得尤其重要,GE(Graph Engine)图引擎通过图模式的Host调度和模型下沉调度的方式,可提升模型调度性能,缩短模型E2E执行时间。

深度解读昇腾CANN多流并行技术,提高硬件资源利用率

GE(Graph Engine)图引擎采用多流并行算法,在满足计算图任务内部依赖关系的前提下,支持高效并发执行计算任务,从而大大提高硬件资源利用率和AI计算效率。

昇腾CANN:为你开启机器人开发的Buff 加成

摘要:昇腾AI提供了全栈技术和产品,构筑人工智能的算力基座,赋能上层应用 本文分享自华为云社区《昇腾CANN:为你开启机器人开发的Buff 加成》,作者:华为云社区精选 。 昇腾AI基础软硬件平台 人类在最近1万多年的发展中,经历了农耕时代、蒸汽机时代、电力时代、互联网时代,21世纪,进入了人工智能

CANN训练:模型推理时数据预处理方法及归一化参数计算

摘要:在做基于Ascend CL模型推理时,通常使用的有OpenCV、AIPP、DVPP这三种方式,或者是它们的混合方式,本文比较了这三种方式的特点,并以Resnet50的pytorch模型为例,结合训练营提供的sample,说明了分别是如何实现预处理的。 本文分享自华为云社区《【2023 · CA

CANN开发实践:4个DVPP内存问题的典型案例解读

摘要:由于DVPP媒体数据处理功能对存放输入、输出数据的内存有更高的要求(例如,内存首地址128字节对齐),因此需调用专用的内存申请接口,那么本期就分享几个关于DVPP内存问题的典型案例,并给出原因分析及解决方法。 本文分享自华为云社区《FAQ_DVPP内存问题案例》,作者:昇腾CANN。 DVPP