英特尔 Gaudi 加速辅助生成

gaudi · 浏览次数 : 5

小编点评

随着大型语言模型的不断发展,生成式人工智能的实现需要大量的推理资源,这不仅增加了成本,还增加了功耗。因此,优化推理过程对于降低成本、减少能源消耗和提高用户体验至关重要。 辅助解码是一种流行的加速文本生成的方法。在英特尔Gaudi2上对其进行适配和优化,可以在保持高性能的同时降低成本。此外,Optimum Habana已经扩展了对Hugging Face库的支持,包括Transformers和Diffusers等,以实现全面优化。 投机采样是另一种加速文本生成的技术,它通过草稿模型生成K个词元,然后让目标模型对这些词元进行评估。如果草稿模型生成的词元被拒绝,目标模型将生成该位置的词元,并丢弃草稿模型生成的后续词元。这种方法可以提高文本生成速度并保持与原始自回归采样相当的质量。 辅助生成是一种与投机采样类似的技术,它也可在英特尔Gaudi处理器上加速文本生成。通过在Gaudi上使用辅助生成,用户可以进一步提高处理器的性能。 总之,Gaudi现已支持用户轻松地使用辅助生成加速文本生成,从而进一步提高英特尔Gaudi处理器的性能。这种方法基于投机采样,已被证明能有效提高基于大型Transformer模型的性能。

正文

随着模型规模的增长,生成式人工智能的实现需要大量的推理资源。这不仅增加了每次生成的成本,而且还增加了用于满足此类请求的功耗。因此,文本生成的推理优化对于降低延迟、基础设施成本以及功耗都至关重要,其可以改善用户体验并提高文本生成任务的效率。

辅助解码是一种用于加速文本生成的流行方法。我们在英特尔 Gaudi2 上对其进行了适配和优化,使得其性能与英伟达 H100 GPU 相当,一如我们在 之前的博文 中所展示的,但 Gaudi2 的价格仅相当于英伟达 A100 80GB GPU。这项工作现已集成入 Optimum Habana,Optimum Habana 对 Transformers 和 Diffusers 等各种 Hugging Face 库进行了扩展,以在英特尔 Gaudi 处理器上对用户的工作流进行全面优化。

投机采样 - 辅助解码

投机采样是一种用于加速文本生成的技术。其工作原理是用一个草稿模型一次生成 K 个词元,再由目标模型对这 K 个生成词元进行评估。如若草稿模型生成的某个位置的词元被拒绝,则用目标模型来生成该位置的词元,并丢弃草稿模型生成的随后词元,反复执行上述过程直至结束。使用投机采样,可以提高文本生成的速度并得到与原始自回归采样相当的生成质量。使用该技术时,用户可以指定草稿模型。数据证明,推测采样可为基于 transformer 的大模型带来约 2 倍的加速。一句话概括,投机采样可以加速文本生成并提高英特尔 Gaudi 处理器上的文本生成性能。

然而,草稿模型和目标模型 KV 缓存尺寸不同,因此同时分别对这两个模型进行优化显得尤为重要。本文,我们假设目标模型为一个量化模型,并利用 KV 缓存和投机采样对其进行加速。请注意,这里每个模型都有自己的 KV 缓存。我们用草稿模型生成 K 个词元,然后用目标模型对其进行评估; 当草稿模型生成的词元被拒绝时,目标模型会用于生成被拒绝位置的词元,并丢弃草稿模型生成的随后词元; 接着草稿模型继续生成接下来的 K 个词元,如此往复。

请注意,文献 [2] 证明了执行投机采样可以恢复目标模型的分布 - 这从理论上保证了投机采样可以达到与对目标模型自身进行自回归采样相同的采样质量。因此,不采用投机采样的理由仅在于收益,如草稿模型的尺寸并没有足够的比较优势,抑或是草稿模型生成词元的接受比太低。

辅助生成是一种类似于投机采样的技术,其大约与投机采样同一时间被独立发明出来 [3]。其作者将此方法集成到了 Hugging Face Transformers 中,现在模型的 .generate() 的方法中有一个可选的 assistant_model 参数用于启用辅助生成。

用法及实验

在 Gaudi 上使用辅助生成非常简单,我们在 这里 提供了一个示例。

顾名思义,参数 --assistant_model 用于指定草稿模型。草稿模型用于生成 K 个词元,然后由目标模型对其进行评估。当草稿模型生成的词元被拒绝时,目标模型会自己生成该位置的词元,并将草稿模型生成的该位置之后的词元丢弃。接着,草稿模型再生成接下来的 K 个词元,如此往复。草稿模型的接受率部分取决于模型选择,部分取决于输入文本。一般情况下,辅助生成能将大型 transformer 族模型的速度提高约 2 倍。

总结

Gaudi 现已支持用户简单易用地使用辅助生成加速文本生成,用户可用其进一步提高英特尔 Gaudi 处理器的性能。该方法基于投机采样,已被证明可以有效提高基于大型 transformer 模型的性能。

参考文献

[1] N. Shazeer,Fast Transformer Decoding: One Write-Head is All You Need,Nov. 2019,arXiv:1911.02150.

[2] C. Chen,S. Borgeaud,G. Irving,J.B. Lespiau,L. Sifre,J. Jumper, Accelerating Large Language Model Decoding with Speculative Sampling,Feb. 2023,arXiv:2302.01318

[3] J. Gante,辅助生成: 低延迟文本生成的新方向,May 2023,https://hf.co/blog/zh/assisted-generation


英文原文: https://hf.co/blog/assisted-generation-support-gaudi

原文作者: Haim Barad,Tien Pei Chou

译者: Matrix Yao (姚伟峰),英特尔深度学习工程师,工作方向为 transformer-family 模型在各模态数据上的应用及大规模模型的训练推理。

与英特尔 Gaudi 加速辅助生成相似的内容:

英特尔 Gaudi 加速辅助生成

随着模型规模的增长,生成式人工智能的实现需要大量的推理资源。这不仅增加了每次生成的成本,而且还增加了用于满足此类请求的功耗。因此,文本生成的推理优化对于降低延迟、基础设施成本以及功耗都至关重要,其可以改善用户体验并提高文本生成任务的效率。 辅助解码是一种用于加速文本生成的流行方法。我们在英特尔 Ga

利用英特尔 Gaudi 2 和至强 CPU 构建经济高效的企业级 RAG 应用

检索增强生成 (Retrieval Augmented Generation,RAG) 可将存储在外部数据库中的新鲜领域知识纳入大语言模型以增强其文本生成能力。其提供了一种将公司数据与训练期间语言模型学到的知识分开的方式,有助于我们在性能、准确性及安全隐私之间进行有效折衷。 通过本文,你将了解到英特

【OpenVINO™】YOLOv10在CPU上也能实现50+FPS推理—使用OpenVINO C++部署YOLOv10

英特尔发行版 OpenVINO™ 工具套件基于 oneAPI 而开发,可以加快高性能计算机视觉和深度学习视觉应用开发速度工具套件,适用于从边缘到云的各种英特尔平台上,帮助用户更快地将更准确的真实世界结果部署到生产系统中。YOLOv10是清华大学研究人员近期提出的一种实时目标检测方法,通过消除NMS、...

[转帖]英特尔投的概伦电子科创板上市:市值185亿 实控人为美国籍

https://baijiahao.baidu.com/s?id=1720385082814658531&wfr=spider&for=pc 上海概伦电子股份有限公司(简称:“概伦电子”,股票代码为:“688206”)今日在科创板上市。 概伦电子此次发行价为28.28元,发行4338万股,募资总额为

[转帖]英特尔第四代至强可扩展处理器发布 采用Intel 7工艺制造

http://k.sina.com.cn/article_6519757211_1849b999b020021jyx.html 英特尔昨日正式发布了第四代至强可扩展处理器(代号 Sapphire Rapids)和至强 CPU Max 系列(代号 Sapphire Rapids HBM),以及英特尔数

[转帖]英特尔正式发布第四代Xeon至强可扩展处理器,Intel7工艺;i9-13900KS首秀,开箱即用六个G

https://new.qq.com/rain/a/20230111A06IFM00 11 日消息,英特尔今日正式发布了第四代至强可扩展处理器(代号 Sapphire Rapids)和至强 CPU Max 系列(代号 Sapphire Rapids HBM),以及英特尔数据中心 GPU Max 系列

在英特尔至强 CPU 上使用 Optimum Intel 实现超快 SetFit 推理

在缺少标注数据场景,SetFit 是解决的建模问题的一个有前途的解决方案,其由 Hugging Face 与 Intel 实验室 以及 UKP Lab 合作共同开发。作为一个高效的框架,SetFit 可用于对 Sentence Transformers 模型进行少样本微调。 SetFit 仅需很少的

[转贴]英特尔Sapphire Rapids至强可扩展CPU完整型号爆料与路线图展望

2022-10-13 15:15· 稿源: cnbeta 腾讯云服务器促销:2核2G首年仅需40元 历史新低 @结城安穗-YuuKi_AnS 刚刚在社交媒体上,分享了与英特尔下一代 Sapphire Rapids、Granite Rapids 和 Diamond Rapids 系列有关的至强 CPU

[转帖]Intel/英特尔、Mellanox/迈络斯 infiniband交换机型号对比及参数描述

Intel/英特尔、Mellanox/迈络斯 infiniband交换机型号对比及参数描述http://qlogic.blog.bokee.net/bloggermodule/blog_viewblog.do?id=17662812 字体大小:大 | 中 | 小2014-05-09 12:14 阅读

[转帖]IBM 、英特尔、台积电、三星2nm先进工艺的豪赌(编辑中,收录于先进芯片技术深度解读)

https://zhuanlan.zhihu.com/p/512405788 根据摩尔定律,芯片上的晶体管数量每两年翻一番。这一定律的实现在12nm之后变得愈来愈简单。 头部半导体制造厂已经量产了 5 nm芯片。工艺从FinFET逐渐过渡到GAA甚至是VTFET。 目前半导体制造厂在一掷千金,改善G