type
status
date
slug
summary
tags
category
icon
password
#大语言模型
1.1 语言模型的发展历程
语言模型旨在对于人类语言的内在规律进行建模,从而准确预测词序列中未来(或缺失)词或词元(Token)的概率。
统计语言模型(Statistical Language Model, SLM)
理论基础
基于统计方法研发. 使用马尔科夫假设建立语言序列, 根据若干连续上下文单词预测下一个次的出现概率, 成为 n 元语言模型 (n-gram)
面临问题
维度爆炸
随着阶数 𝑛 的增加,需要估计的转移概率项数将会指数级增长,经常会受到“维数灾难”
- 数据稀疏
- 预测的噪声大
- 存储与计算压力
长距离与高阶语义捕捉能力弱
对于高阶上下文的刻画能力仍然较弱,无法精确建模复杂的高阶语义关系
只能看局部上下文, 无法捕获长距离信息
神经语言模型(Neural Language Model, NLM)
使用神经网络来建模文本序列的生成
理论基础
分布式词表示(Distributed Word Representation), 也就是词嵌入 (embedding)
使用低维稠密向量来表示词汇的语义,这与基于词典空间的稀疏词向量表示(One-Hot Representation)有着本质的不同,能够刻画更为丰富的隐含语义特征
优势
所学习到的词嵌入可以用作后续任务的语义特征提取器
也就是嵌入向量能够良好地表现出语义特征
预训练语言模型(Pre-trained Language Model, PLM)
相较于词嵌入模型, 在训练架构与训练数据两个方面进行了改进与创新
训练架构的改进
ELMo 使用大量的无标注数据训练双向 LSTM 网络
预训练完成后所得到的 biLSTM 可以用来学习上下文感知的单词表示
可以根据下游任务数据对 biLSTM 网络进行微调,从而实现面向特定任务的模型优化
ELMo
双向 LSTM
- ELMo 通过 上下文感知 的方式,引入了双向 LSTM 网络:
- 前向 LSTM:从左到右理解上下文
- 后向 LSTM:从右到左补充语义信息 这样得到的词向量表示的是当前语义下的含义, 也就是动态的语境相关表示
微调
微调通过任务的损失函数引导模型“关注那些对当前任务有用的上下文”,并反向更新模型参数,让语言表示从“通用”变成“特定”。
缺点
受限于 LSTM 架构, 模型对于长文本建模能力较弱, 且不容易并行训练
Transformer
硬件友好
可以通过 GPU 或者 TPU 进行加速训练,这为研发大语言模型提供了可并行优化的神经网络架构
编码器与解码器
- 编码器架构被认为更适合去解决自然语言理解任务(如完形填空等): BERT
- 解码器架构更适合解决自然语言生成任务(如文本摘要等): GPT
训练数据的改进
- 预训练阶段旨在通过大规模无标注文本建立模型的基础能力
- 微调阶段则使用有标注数据对于模型进行特定任务的适配,从而更好地解决下游的自然语言处理任务。
大语言模型(Large Language Model, LLM)
扩展法则 Scaling Law
通过规模扩展 (如增加模型参数规模或数据规模)通常会带来下游任务的模型性能提升
大模型具有但小模型不具有的能力通常被称为“涌现能力” (Emergent Abilities)
发展历程
早期的语言模型主要面向自然语言的建模和生成任务,而最新的语言模型(如 GPT-4)则侧重于复杂任务的求解

- 早期统计模型用于解决特定任务
- 神经网络模型减少了人类特征工程工作量, 学习任务无关的语义表征
- 预训练模型提升上下文感知能力, 且可以进行微调, 提升具体任务的能力
- 大模型的任务求解能力得到提升
1.2 大语言模型能力特点
尽管通用人工智能在学术界被广泛讨论与探索,但是之前的机器学习算法的泛化性和通用性非常局限,只有大语言模型初步实现了通过统一形式来解决各种下游任务。
丰富的世界知识
大语言模型经过超大规模文本数据的预训练后能够学习到较为丰富的世界知识
通用任务求解
大语言模型主要通过预测下一个词元的预训练任务进行学习,虽然并没有针对特定的下游任务进行优化,却能够建立远强于传统模型的通用任务求解能力
可能的原因
基于大规模无标注文本的下一个词元预测任务本质上可以看作一个多任务学习过程
因为针对不同词元的预测任务可能涉及到情感分类(“... 这部电影真好看”)、数值计算(“3+4=7”)、知识推理(“中国陆地面积最大的省份是新疆”)等非常多样的训练任务。
复杂任务推理
大语言模型在大规模文本数据预训练后,能够展现出比传统模型更强的综合推理能力
不过当前对于这种推理能力产生的具体原因尚不明确
人类指令遵循
大模型的任务输入与执行结果均通过自然语言进行表达
能够直接通过自然语言描述下达任务指令(又称为“提示学习”)
人类对齐
通过对大模型进行对齐与监管, 确保其安全性
目前广泛采用的对齐方式是基于人类反馈的强化学习技术 RLHF,通过强化学习使得模型进行正确行为的加强以及错误行为的规避,进而建立较好的人类对齐能力
工具使用
大模型可以通过微调、上下文学习等方式掌握外部工具的使用,如搜索引擎与计算器
工具的有效使用对于模型的任务理解能力和推理能力有着较高的要求
1.3 大语言模型关键技术概览
模型扩展
扩展法则 Scaling Law
OpenAI 从参数、数据、算力三个方面深入地研究了规模扩展对于模型性能所带来 的影响,建立了定量的函数关系
超大规模语言模型能够展现出一些小型语言模型不具备的能力特点,如上下文学习能力、思维链能力等 ,这也成为区分上一代预训练语言模型与大语言模型的重要标志
近期的主要研究工作在关注加大对于高质量数据的规模扩展
Transformer 模型的可扩展性非常强,对于硬件并行优化的支持也比较友好,特别适合大语言模型的研发
Chinchilla 扩展法则
DeepMind提出:在给定计算预算下,提升语言模型性能的最优策略并不是“加大模型参数”,而是“适度模型大小 + 更大训练数据量”
数据工程
模型能力本质上是来源于所见过的训练数据,因此数据工程就变得极为重要
- 数据采集, 拓展高质量数据来源
- 数据清洗:提升大模型数据质量
- 有效的数据配比与数据课程:加强模型对数据语义信息的利用效率
高效预训练
训练算法
由于参数规模巨大,需要使用大规模分布式训练算法优化大语言模型的神经网络参数. 需要联合使用各种并行策略以及效率优化方法,包括 3D 并行(数据并行、流水线并行、张量并行)、ZeRO(内存冗余消除技术)
训练架构
大语言模型的训练过程需要搭建一个全栈式的优化体系架构, 以便进行大规模数据调度,迭代模型性能,调整训练策略
训练策略
由于大语言模型的训练需要耗费大量的算力资源,通常需要开展基于小模型的沙盒测试实验,进而确定面向大模型的最终训练策略
能力激发
为了提升模型的任务求解能力,需要设计合适的指令微调以及提示策略进行激发或诱导
人类对齐
经过海量无标注文本预训练的大语言模型可能会生成有偏见、泄露隐私甚至对人类有害的内容。在实践应用中,需要保证大语言模型能够较好地符合人类的价值观
对齐标准
“3 H 对齐标准”
- Helpfulness(有用性)
- Honesty(诚实性)
- Harmlessness(无害性)
基于人类反馈的强化学习算法 RLHF
3H 对齐标准一定程度上都与人类主观感知相关,很难直接建立形式化的特定优化目标
OpenAI 提出 RLHF, 将人类偏好引入大模型对齐中
RLHF
- 训练能够区分模型输出质量好坏的奖励模型
- 使用强化学习算法来指导语言模型输出行为的调整,让大语言模型能够生成符合人类预期的输出
监督微调 SFT
由于强化学习算法的优化过程较为复杂, 学术界采用这种方法以简化优化流程
工具使用
通过让大语言模型学会使用各种工具的调用方式,进而利用合适的工具去实现特定的功能需求
工具调用能力主要是通过指令微调以及提示学习两种途径实现,而未经历过特殊训练或者缺乏有效提示的大语言模型则很难有效利用候选工具
一些瓶颈
- 涌现能力缺乏理论解释
- 需要大量计算资源
- 现有模型非常依赖工程方法优化, 缺少理论支撑
- 让大模型充分与人类对齐
1.4 大语言模型对科技发展的影响
自然语言处理 NLP
大语言模型可以作为一种通用的语言任务解决技术,能够通过特定的提示方式解决不同类型的任务,并且能够取得较为领先的效果语言智能开始成为主导人工智能发展方向的重要路径。
信息检索 IR
New Bing 等新搜索引擎把大模型与传统搜索引擎相融合, 但目前大语言模型信息系统的精确性与实时性还有待提升
后续的发展方向分为:
- IR 增强的 LLM
- 和 LLM 增强的 IR
计算机视觉 CV
由于开源大语言模型的出现,可以极大地简化多模态模型的实现难度,可将图像、视频等模态的信息与文本语义空间相融合
基于下一个词元预测的思路也可能会带来多模态领域的基础模型架构的转变, 如 Sora 模型
AI4Science
- 作者:昊卿
- 链接:hqhq1025.tech/article/llmbook/chapter_1
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。