【转帖】千亿参数大模型首次被撬开!Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公布

千亿,参数,模型,首次,撬开,meta,复刻,gpt,openai,完整,权重,训练,代码,公布 · 浏览次数 : 0

小编点评

## Meta AI 开源1750亿参数 AI 大模型,如何做到绿色低能耗? **核心信息:** * 1750亿参数的大模型OPT-175B,是GPT-3的175倍参数,能够完成相同任务的处理。 * 作者将OPT-175B全部开放,为研究人员提供更多可参考和研究方向。 * 为了降低模型训练的成本,Meta AI 使用了多种技术手段,包括 FSDP 等 GPU内存优化技术和张量并行技术。 * 训练和部署代码工具包metaseq 也公开,方便开发者探索和使用模型。 * 作者还分享了开发 OPT-175B 的代码和开发日志,为开源和研究领域提供宝贵的资源。 **主要话题:** * 大模型的开放程度,以及其带来的研究机会和风险。 * Green AI 的重要性,以及如何通过开源来推动其发展。 * 模型训练的优化方法,以及如何降低训练成本。 * 开发者如何参与和使用大模型。 **关键点:** * OPT-175B 是一个真正突破性的技术,能够突破GPT-3的性能瓶颈。 * 作者的开源行动,将为大模型研究和应用提供重要的推动。 * Green AI 的发展需要多方共同努力,开源代码和开发工具将促进其推广。 **未来展望:** * 随着大模型技术的不断发展,我们将看到更先进的模型,例如 512B、1TB 等。 * 探索更智能的训练方法和数据优化技术将帮助进一步提高模型性能。 * 开发者将不断探索如何利用大模型解决实际问题。

正文

https://cloud.tencent.com/developer/article/1991011

 

千亿级参数AI大模型,竟然真的能获取代码了?!

一觉醒来,AI圈发生了一件轰动的事情——

Meta AI开放了一个“重达”1750亿参数的大语言模型OPT-175B,不仅参数比GPT-3的3750亿更少,效果还完全不输GPT-3——

这意味着AI科学家们,终于可以“撬开”像GPT-3这样的大模型,看看里面到底有些什么秘密了。

之前GPT-3虽然效果惊艳但不够开放,源代码独家授权给了微软,连马斯克都批评过OpenAI不够open。

虽然论文就在那里,想要在此之上做进一步研究的话就得先复现一个出来再说。

而这一次,Meta从完整模型到训练代码、部署代码全部开放

有人甚至在官宣之前就摸到还没上传好的GitHub仓库去蹲点了。

还有人艾特OpenAI试图“引战”:

那么,Meta大模型有何特点、如何做到绿色低能耗,又为何要对外开放?一起来看看。

用16块V100就能跑起来

OPT全称Open Pre-trained Transformer Language Models,即“开放的预训练Transformer语言模型”。

相比GPT,名字直接把Generative换成了Open,可以说是非常内涵了。(手动狗头)

在论文中,Meta AI也不避讳宣称OPT-175B就是对标GPT-3,还暗示一波自己更环保:

Meta AI对此解释称,OPT就是奔着开放代码去的,为了让更多人研究大模型,环境配置肯定是越经济越好。

这不,运行时产生的碳足迹连GPT-3的1/7都不到,属实省能又高效。

为了方便研究人员“量力而行”,Meta AI搞出了各种大小的OPT模型,从125M参数到1750亿参数的不同大小模型都有。

其中,660亿参数的模型还在制作中,马上也会和大伙儿见面:

所以,最大的OPT-175B模型究竟有多高效,又是怎么做到的?

性能方面,Meta AI针对OPT-175B和GPT-3,用14个NLP任务进行了测试。

结果表明,无论是零样本学习(zero-shot)还是多样本学习(Multi-shot),OPT在这些任务上的平均精度都与GPT-3相差不大。其中虚线为GPT,实线为OPT:

左为零样本学习,右为多样本学习

再看具体任务。在对话任务中,采用无监督学习的方法训练OPT-175B,效果和监督学习训练的几类模型相近:

仇恨言论检测任务上的效果,更是完全超过Davinci版本的GPT-3模型(在GPT-3的四个版本中是效果最好的):

训练硬件方面,Meta AI用了992块英伟达A100 GPU(80GB)训练OPT,平均每块GPU的计算效率最高能达到147 TFLOP/s

这个效率,甚至比英伟达自家研究人员用起来还高,大约超过17%左右。

Meta AI透露称,一方面是采用了自家推出的一款名叫FSDP(Fully Sharded Data Parallel)的GPU内存节省工具,使得大规模训练的速度比传统方法快上5倍左右;

另一方面他们也借鉴了英伟达Megatron-LM模型的张量并行方法,将一个运算分布到多个处理器上同时进行。

甚至Meta AI表示,最低只需要16块英伟达V100 GPU,就能训练并部署OPT-175B模型。

已经有网友迫不及待地想要一试了:

当然,Meta AI也不避讳谈及OPT-175B大模型面临的一些问题,例如更容易生成“毒性语言”(例如使用有攻击性的词汇、语言歧视等):

研究人员表示,希望能在开放后,有更多人参与进来研究,并真正解决这些问题。

手把手教你复刻GPT-3

上面提到,这一次的OPT模型系列,300亿参数及以下的版本都是可以直接下载,660亿版还在路上。

只有完整的1750亿版需要额外填写一张申请表,包括工作单位、用途、相关发表工作等问题。

训练和部署的代码工具包metaseq发布在GitHub,并配有使用教程和文档。

作为著名的fairseq工具包的一个分支,metaseq专注于1750亿规模大模型,删除了训练和使用大模型不需要的部分。

还有不少开发者特别看重一个与模型和代码同时发布的“隐藏宝藏”——开发日志

里面详细记录了Meta团队在开发大模型过程中遇到的问题、解决的办法和决策的依据。

为自Pytorch诞生之前就存在的一系列机器学习研究中的痛点和困惑提供了大厂解法的一手资料。

如此的开放力度可以说是史无前例了,自然收到了不少赞美。

比如同样在做开源大模型项目的HuggingFace首席科学家Thomas Wolf。

不过针对1750亿参数版需要申请一事,还是有人表示怀疑。

我不是学者或从业者,他们会接受我的申请吗?

也有开发者建议Meta像OpenAI一样提供一些Demo,如果大家看到效果会更愿意参与研究改进,不然的话光是搭建开发环境就挺劝退的。

斯坦福大学基础模型研究中心主任、副教授Percy Liang对此发表了观点,将大模型的开放程度总结成4个层次,更高层次的开放能让研究者专注于更深的问题。

第一层论文开放,证明一些设想的可行性,并提供构建思路。

第二层API开放,允许研究人员探索和评估现有模型的能力(如推理能力)和限制(如偏见)

第三层模型权重开放和训练数据开放。允许研究人员逐步改进现有模型,开发更深入的可解释性技术和更有效的微调方法,让研究人员更好地理解训练数据在模型行为中的作用。

第四层计算能力开放,允许研究人员尝试新的体系结构、训练目标和过程、进行数据融合,并在不同的领域开发全新的模型。

Percy Liang认为更高层次的开放同时也会带来更多风险。

也许是时候制定相关的社区规范了?

One More Thing

Meta这次论文的的共同一作有三人,其中Susan Zhang加入Meta之前正是来自OpenAI。

不过在OpenAI期间她并没有负责GPT-3的开发,而是参与了玩Dota的OpenAI Five强化学习项目,以及多模态大模型的研究。

项目地址: https://github.com/facebookresearch/metaseq/tree/main/projects/OPT

论文地址: https://arxiv.org/abs/2205.01068

参考链接: [1]https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/ [2]https://www.technologyreview.com/2022/05/03/1051691/meta-ai-large-language-model-gpt3-ethics-huggingface-transparency/ [3]https://twitter.com/MetaAI/status/1521489996145958914

与【转帖】千亿参数大模型首次被撬开!Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公布相似的内容:

【转帖】千亿参数大模型首次被撬开!Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公布

https://cloud.tencent.com/developer/article/1991011 千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI圈发生了一件轰动的事情—— Meta AI开放了一个“重达”1750亿参数的大语言模型OPT-175B,不仅参数比GPT-3的3750

[转帖]ChatGPT研究框架(2023)

https://www.eet-china.com/mp/a226595.html ChatGPT是基于OpenAI公司开发的InstructGPT模型的对话系统,GPT系列模型源自2017年诞生的Transformer模型,此后大模型数量激增,参数量进入千亿时代,国内百度也发布了ERNIE系列模型

[转帖]fio工具中的iodepth参数与numjobs参数-对测试结果的影响

测试环境 3台服务器:ceph配置内外网分离,外网使用万兆线,内网使用千兆线,osd共21个。 1台客户端:安装fio工具、内核客户端,使用万兆线。 测试目的 针对fio工具中的iodepth(队列深度)和numjobs(线程数)参数,分析使用fio工具时,哪个参数对带宽值测试结果影响比较大。 测试

[转帖]FIO 存储性能压测

测试环境 3台服务器:ceph配置内外网分离,外网使用万兆线,内网使用千兆线,osd共21个。 1台客户端:安装fio工具、内核客户端,使用万兆线。 测试目的 针对fio工具中的iodepth(队列深度)和numjobs(线程数)参数,分析使用fio工具时,哪个参数对带宽值测试结果影响比较大。 测试

[转帖]如何大幅度提升EDA仿真效率?华为、概伦电子专家这样说

https://baijiahao.baidu.com/s?id=1734939411718338257&wfr=spider&for=pc 作者:电子创新网张国斌 2nm、GAA、3D封装、chiplet、异构....近年来,随着半导体工艺的进步,单颗IC的晶体管数量已经从百亿向千亿甚至万亿数量发

[转帖]mysql 千万数据迁移的几种方式

最近因为业务需求,我们需要将我们的订单表(一千三百万数据,并且每天已五万条速度增加)已订单类型分组迁移到新的业务表中,以降低我们订单表的大小,同时暂时杜绝订单表所带来的数据瓶颈问题,需求下来了,基本思路也要确定下来,我打算先将三天前的历史数据先跑到表里,待整个业务线迁移过后,我再将剩下的数据跑进去,

[转帖]水晶头超5类和6类的区别是什么?六类水晶头和超五类水晶头通用吗?

一图胜千言,5类水晶头和6类水晶头从外观上看并没有很大的区别,但实际上里面还是有很大的不同。 5类水晶头的8根线芯是一字排开的,而6类水晶头的8根线芯是呈现上、下交错的形式排列。 原因其实特别简单,标准的超五类网线线径是0.51mm,六类网线的线径是0.57mm,超六类网线的线径是0.58mm。 那

[转帖]jmeter 响应时间rt很小,但是tps也很小&jmeter,脚本处理,千万不要用js

一、背景: 在压测的时候,查看jmeter聚合报告,发现rt很小,但是tps也很小。 讲道理来说,响应时间越小,tps应该越大。 一共压测10分钟,发现jmeter请求的样本数量非常小,才8500个请求。 10分钟内,才打出了8500个请求。 tps= 总样本数量/总时间。 时间是固定的600s,总

[转帖]字节换算

https://www.cnblogs.com/huazhixu/p/16544808.html 1B (byte 字节); 1KB(Kilobyte 千字节) = 2^10 B = 1024 B; 1MB(Megabyte 兆字节) = 2^10 KB = 1024 KB = 2^20 B; 1G

[转帖]数据可视化之redash(支持43种数据源) (转自https://anjia0532.github.io/2019/07/08/redash/)

https://www.cnblogs.com/a00ium/p/13177272.html 人类都是视觉动物,讲究一图胜千言。如果没了可视化,那么你在跟领导汇报工作时,很大程度会鸡同鸭讲。其实 excel2016+已经是一个不错的数据分析及可视化工具了(支持几十种数据源),但是,不方便权限控制,集