出自 MBA智库百科(https://wiki.mbalib.com/)
大型语言模型,也叫大语言模型、大模型(Large Language Model,LLM;Large Language Models,LLMs)
目录[隐藏] |
大型语言模型(LLM)是指包含数千亿(或更多)参数的语言模型,这些参数是在大量文本数据上训练的,例如模型 GPT-3、PaLM、Galactica 和 LLaMA。具体来说,LLM 建立在 Transformer 架构之上,其中多头注意力层堆叠在一个非常深的神经网络中。现有的 LLM 主要采用与小语言模型类似的模型架构(即 Transformer)和预训练目标(即语言建模)。作为主要区别,LLM 在很大程度上扩展了模型大小、预训练数据和总计算量(扩大倍数)。他们可以更好地理解自然语言,并根据给定的上下文(例如 prompt)生成高质量的文本。这种容量改进可以用标度律进行部分地描述,其中性能大致遵循模型大小的大幅增加而增加。然而根据标度律,某些能力(例如,上下文学习)是不可预测的,只有当模型大小超过某个水平时才能观察到。[1]
2023年3月6日,来自谷歌与柏林工业大学的人工智能研究人员小组推出了一个多模态具象化视觉语言模型(VLM)-PaLM-E,该模型的参数规模达到了5620亿个,集成了用于控制机器人的视觉与语言。研究人员称,这是有史以来规模最大的VLM,无需重新训练即可执行各种任务。[2]
NLP到大型语言模型的进阶历程[3]
新浪微博资深算法专家张俊林认为,要想探寻大型语言模型未来怎么走,需要先回顾此前是怎么一路变迁的。他将自然语言处理发展到大型语言模型的历程分为五个阶段:规则、统计机器学习、深度学习、预训练、大型语言模型。
机器翻译是NLP中难度最高、综合性最强的任务。因此张俊林以机器翻译任务为例来对比不同阶段的特点以及技术栈、数据的变化,以此展示NLP如何一步步演进。
规则阶段大致从1956年到1992年,基于规则的机器翻译系统是在内部把各种功能的模块串到一起,由人先从数据中获取知识,归纳出规则,写出来教给机器,然后机器来执行这套规则,从而完成特定任务。
统计机器学习阶段大致从1993年到2012年,机器翻译系统可拆成语言模型和翻译模型,这里的语言模型与现在的GPT-3/3.5的技术手段一模一样。该阶段相比上一阶段突变性较高,由人转述知识变成机器自动从数据中学习知识,主流技术包括SVM、HMM、MaxEnt、CRF、LM等,当时人工标注数据量在百万级左右。
深度学习阶段大致从2013-2018年,相对上一阶段突变性较低,从离散匹配发展到embedding连续匹配,模型变得更大。该阶段典型技术栈包括Encoder-Decoder、LSTM、Attention、Embedding等,标注数据量提升到千万级。
预训练阶段是从2018年到2022年,相比之前的最大变化是加入自监督学习,张俊林认为这是NLP领域最杰出的贡献,将可利用数据从标注数据拓展到了非标注数据。该阶段系统可分为预训练和微调两个阶段,将预训练数据量扩大3到5倍,典型技术栈包括Encoder-Decoder、Transformer、Attention等。
大型语言模型阶段从2023年起,目的是让机器能听懂人的命令、遵循人的价值观。其特性是在第一个阶段把过去的两个阶段缩成一个预训练阶段,第二阶段转换成与人的价值观对齐,而不是向领域迁移。这个阶段的突变性是很高的,已经从专用任务转向通用任务,或是以自然语言人机接口的方式呈现。
随后他介绍了一个研究工作的结论:在高资源语言上,ChatGPT机器翻译效果与商用MT系统效果接近;在低资源语言上,目前ChatGPT机器翻译效果与商用MT系统相比差得比较远。
从这些阶段中数据、算法、人机关系的变化,可以观察到NLP的发展趋势。
数据方面,从少量标注数据、大量标注数据、海量非标注数据+少量标注数据到海量非标注数据,越来越多数据被利用起来,人的介入越来越少,未来会有更多文本数据、更多其它形态的数据被用起来,更远的未来是任何我们能见到的电子数据,都应该让机器自己从中学到知识或能力。
算法方面,表达能力越来越强,规模越来越大,自主学习能力越来越强,从专用向通用,沿着这个趋势往后,未来Transformer预计够用,同时也需要替代Transformer的新型模型,逐步迈向通用人工智能。
人机关系方面,人的角色逐渐从教导者转向监督者,未来可能会从人机协作、机器向人学习,发展成人向机器学习,最后由机器拓展人类。
大型语言模型的涌现能力[1]
LLM 的涌现能力被正式定义为「在小型模型中不存在但在大型模型中出现的能力」,这是 LLM 与以前的 PLM 区分开来的最显著特征之一。当出现这种新的能力时,它还引入了一个显著的特征:当规模达到一定水平时,性能显著高于随机的状态。以此类推,这种新模式与物理学中的相变现象密切相关。原则上,这种能力也可以与一些复杂的任务有关,而人们更关心可以应用于解决多个任务的通用能力。这里简要介绍了 LLM 的三种代表性的涌现能力:
上下文学习。GPT-3 正式引入了上下文学习能力:假设语言模型已经提供了自然语言指令和多个任务描述,它可以通过完成输入文本的词序列来生成测试实例的预期输出,而无需额外的训练或梯度更新。
指令遵循。通过对自然语言描述(即指令)格式化的多任务数据集的混合进行微调,LLM 在微小的任务上表现良好,这些任务也以指令的形式所描述。这种能力下,指令调优使 LLM 能够在不使用显式样本的情况下通过理解任务指令来执行新任务,这可以大大提高泛化能力。
循序渐进的推理。对于小语言模型,通常很难解决涉及多个推理步骤的复杂任务,例如数学学科单词问题。同时,通过思维链推理策略,LLM 可以通过利用涉及中间推理步骤的 prompt 机制来解决此类任务得出最终答案。据推测,这种能力可能是通过代码训练获得的。
大型语言模型的关键技术[1]
LLMs 的关键技术,包括了缩放、训练、能力激发、对齐调优、工具利用等。
缩放。缩放是增加 LLMs 模型容量的关键因素,最开始 GPT-3 将模型参数增至 1750 亿,随后 PaLM 进一步将模型参数增至 5400 亿。大规模参数对于涌现能力至关重要。缩放不仅针对模型大小,还与数据大小和总计算量有关。
训练。由于规模巨大,成功训练一个具备强大能力的 LLMs 非常具有挑战性。因此需要分布式训练算法来学习 LLMs 的网络参数,经常联合使用各种并行策略。为了支持分布式训练,DeepSpeed 和 Megatron-LM 等优化框架被用来促进并行算法的实现和部署。此外,优化技巧对训练稳定性和模型性能也很重要,例如重新启动训练损失尖峰和混合精度训练。最近的 GPT-4 开发了特殊的基础设施和优化方法,从而利用小得多的模型来预测大模型的性能。
能力激发。在大规模语料库上经过预训练后,LLMs 被赋予了解决一般任务的潜在能力。然而当 LLMs 执行某个特定任务时,这些能力可能不会显式地表现出来。因此设计适合的任务指令或特定的上下文策略来激发这些能力非常有用,比如思维链 prompt 有助于通过中间推理步骤等解决复杂推理任务。此外还可以进一步对具有自然语言任务描述的 LLMs 进行指令调优,以提高对未见过任务的泛化能力。
对齐调优。由于 LLMs 被训练用来捕获预训练语料库的数据特征(包括高质量和低质量的数据),它们很可能生成对有毒、有偏见和有害的文本内容。为了使 LLMs 与人类价值观保持一致,InstructGPT 设计了一种利用强化学习和人类反馈的高效调优方法,使得 LLMs 能够遵循预期指令。ChatGPT 是在类似 InstructGPT 的技术上开发的,在产生高质量、无害的响应方面表现出了强大的对齐能力。
工具利用。LLMs 本质上是基于大规模纯文本语料库训练的文本生成器,因此在数值计算等文本表达不佳的任务上表现没那么好。此外 LLMs 的能力受限于预训练数据,无法捕获最新信息。针对这些问题,人们提出使用外部工具来弥补 LLMs 的不足,比如可以利用计算器进行精确计算,使用搜索引擎检索未知信息。ChatGPT 更是利用外部插件来联网学习新知识,这种机制可以广泛扩展 LLMs 的能力范围。
ChatGPT的四个关键技术[3]
1、大规模预训练模型:只有模型规模足够大,才可能具备推理能力。中国人民大学高瓴人工智能学院长聘副教授严睿谈道,智能涌现不是故意设计出来的,而是大模型规模大到一定程度后,天然具备这样的特性。
2、在代码上进行预训练:可能代码把解决一个大的问题分解成若干个小的问题,这种分布解决问题的方式有助于自然语言推理。和自然语言模型相比,代码语言模型需要更长的上下文的依赖。
3、Prompt/Instruction Tuning:GPT-3模型太大,已经没办法去精调了,只能用prompt,但是如果不精调,模型相当于还是一个语言模型,没办法适应人,只能由人去适应模型。让人适应模型只能用指令的方式,再进行精调,这相比预训练代价要小的多。所以指令上精调就可以把一些不太多的数据,把语言模型的任务掰到适应人类的回答问题。
4、基于人类反馈的强化学习(RLHF):这对于结果好坏的影响不是特别大,甚至会限制语言模型生成的能力,但这种方式可能更好地和人类在安全性、无毒无害等等方面的价值观对齐。当模型上线后,它可以收集到更多用户的反馈。
大型语言模型的三大技术路线[3]
大型语言模型研究的发展有三条技术路线:Bert模式、GPT模式、混合模式。其中国内大多采用混合模式,多数主流大型语言模型走的是GPT技术路线,直到2022年底在GPT-3.5的基础上产生了ChatGPT。
可以看到,到2019年后,Bert路线基本上就没有什么标志性的新模型出现了,而GPT技术路线趋于繁荣。从Bert往GPT走,模型越来越大,做的事越来越通用。
大型语言模型按照从数据到知识来划分,数据可分为通用数据和领域数据,知识分为语言知识和世界知识;从任务类型来划分,可以分为单一任务和多任务、理解类和生成类。
Bert模式有两阶段(双向语言模型预训练+任务Fine-tuning),适用于理解类、做理解类、某个场景的具体任务,专而轻。
GPT模式是由两阶段到一阶段(单向语言模型预训练+zero shot prompt/Instruct),比较适合生成类任务、多任务,重而通。
T5模式将两者的方法结合,有两阶段(单向语言模型预训练+Fine-tuning)。张俊林称这种模式“形似GPT,神似Bert”,生成和理解都行,从效果上看较适合理解类任务,国内很多大型语言模型采用这种模式。
目前的研究结论是,如果模型规模不是特别大,面向单一领域的理解类任务,适合用T5模式。做生成类任务时,用GPT模式效果最好。
如果单独考虑zero-shot,GPT模式效果最好;如果在预训练后引入多任务fine-tuning,则T5模式效果好。不过张俊林认为这个结论存疑,因为目前的实验Encoder-Decoder都是Decoder-only参数量的两倍。
综合来看,当前几乎所有参数规模超过千亿的大型语言模型都采取GPT模式。张俊林分析可能的原因有三点:1、Encoder-Decoder里的双向attention,损害zero shot能力;2、Encoder-Decoder结构在生成Token时,只能对Encoder高层做attention,Decoder-only结构在生成Token时可以逐层Attention,信息更细粒度;3、Encoder-Decoder训练“中间填空”,生成最后单词Next Token,存在不一致性,Decoder-only结构训练和生成方式一致。
大型语言模型在客户联络领域的应用价值[2]
1. 提升自动回复能力
大模型的工作逻辑始于对大量数据的持续训练。充分、持续的训练,能够使大模型具备更加精准的语义理解能力和更强大的自然语言生成能力。
基于已经训练成熟的大模型,智能客服系统的开发就有了更加坚实的底层支撑。它可以根据用户输入的问题提供快速和准确的响应,快速解决问题,节省了客服团队大量的时间和资源,提高客户体验和满意度。
2. 强化意图识别能力
智能客服能否处理复杂问题,在行业内有一个通用的指标,就是意图识别的准确率。
观察客户联络领域所处的现状,大部分是把简单、重复、流程性的问题,交给机器人处理;复杂的、需要情感关怀的问题,则交由人工客服处理。而传统的智能客服在意图理解方面的能力,仍然相对薄弱。
ChatGPT的泛化为我们提供了处理复杂问题的新思路。
基于对文本、语音、图像等多模态数据的分析,大模型对于意图识别的准确性进一步提升。借助大模型,智能客服能够有效结合用户的历史对话、当前沟通内容等上下文语境,更精准地识别出用户的需求和意图。同时,借助大模型所具备的深度学习能力,进行更加智能化的问答推荐,进而有效赋能企业的业务咨询、留资引导、服务应答等环节。
3. 优化人机交互体验
传统机器人在处理复杂场景的时候,往往应变能力不够灵活。一旦用户问的问题在知识库里没有,或者超出了预设的流程,机器人就无法很好地应对了。但是,基于大模型超强的知识库,上述情况就缓解了很多。
以ChatGPT为例来看,大模型的深度应用也开创了客户使用体验的新范本。其丰富的参数和强大的内容生成能力,能够支持智能客服实现更加个性化的问答回复,而非过往千篇一律的机械式问答。
4. 丰富实际应用场景
基于大模型所提供的底层能力,智能客服的渗透力和应用场景也将在未来得到进一步延伸。
ChatGPT的应用目前已经有相对确定的场景可以落地了,如扮演人工客服与客户沟通专业知识、提供专业的问答知识建议、对沟通记录进行质检标记、主动分析座席工作行为、发起产品推介、闲聊寒暄以及更“人性化”的引导留资等。
此外,在情绪关怀方面也有很大的应用前景。