LLM / VLM / VLA 指南（扩展详注版）

Notebook Time

6 min

Image Frames

View Tracks

学习

FIELD_GUIDE

FIELD GUIDE

Use the guide rail to jump between sections.

文档结构

本指南分为以下文件，建议按顺序阅读：

文件	内容
本文件	术语速查表 (Glossary)

术语速查表 (Glossary)

按字母排序。每个术语在正文中首次出现时会有更详细的解释。

术语	全称	一句话定义
Accelerate	Hugging Face Accelerate	HF 提供的分布式训练抽象层，让单卡代码无缝扩展到多卡/多机
Action Space	—	机器人可执行的所有动作的集合，例如 7 维向量 (x,y,z,rx,ry,rz,gripper)
Activation	激活值	神经网络前向传播时每一层的中间输出，反向传播求梯度时需要它们
AdamW	Adam with Weight Decay	目前最主流的深度学习优化器，维护每个参数的一阶矩 (动量) 和二阶矩 (方差估计)
Attention	注意力机制	Transformer 的核心：让每个 token 根据"相关性"加权关注序列中的其他 token
AWQ	Activation-aware Weight Quantization	一种模型量化方法，通过保护"重要权重通道"来减少量化误差
Base Model	基座模型	经过预训练但未经指令微调的原始模型，只会"续写"不会"对话"
Batch Size	批大小	每次训练迭代中同时处理的样本数量
BF16	Brain Floating Point 16	Google 提出的 16 位浮点格式，8 位指数 + 7 位尾数，动态范围与 FP32 相同
BPE	Byte-Pair Encoding	一种 Tokenizer 算法：从字符开始，反复合并出现频率最高的相邻字符对
Calibration Data	校准数据	量化时用于测量权重/激活分布的少量代表性数据（通常 128-512 条）
Checkpoint	检查点	训练过程中保存的模型权重快照，用于断点续训或模型选择
CLIP	Contrastive Language-Image Pre-training	OpenAI 的图文匹配模型，用对比学习同时训练图像编码器和文本编码器
Common Crawl	—	非营利组织维护的全球最大公开网页爬取数据集，PB 级别
Cosine Decay	余弦退火	学习率调度策略，按余弦曲线从初始值平滑下降到最小值
Cosine Similarity	余弦相似度	衡量两个向量方向的相似程度，值域 [-1, 1]，1 表示完全同向
CPU Offload	CPU 卸载	将 GPU 放不下的数据（优化器状态、参数）临时存到 CPU 内存
CUDA	Compute Unified Device Architecture	NVIDIA 的 GPU 并行计算平台和编程模型
cuDNN	CUDA Deep Neural Network library	NVIDIA 专为深度学习优化的 GPU 加速库（卷积、注意力等算子）
DDP	Distributed Data Parallel	PyTorch 的数据并行策略：每张卡持有完整模型副本，梯度做 AllReduce 同步
DeepSpeed	—	微软开源的深度学习训练优化库，核心是 ZeRO 系列内存优化
Deduplication	去重	从数据集中移除重复或近似重复的文档/段落
DINOv2	—	Meta 的自监督视觉模型，无需标注数据即可学到强大的视觉特征
DOF	Degrees of Freedom (自由度)	机器人可独立运动的维度数，例如 6-DOF = 3 平移 + 3 旋转
DPO	Direct Preference Optimization	一种对齐方法：直接用人类偏好数据优化模型，无需训练独立的奖励模型
Embedding	嵌入	将离散符号（如 token ID）映射为连续的稠密向量的过程/结果
End Effector	末端执行器	机械臂末端的工具，如夹爪、吸盘、焊枪
Epoch	轮次	训练数据集被完整遍历一次称为一个 epoch
Feature Map	特征图	卷积/视觉编码器输出的空间特征张量，保留了图像的空间结构信息
Feed-Forward Network (FFN)	前馈网络	Transformer Block 中的两层 MLP，负责逐位置的非线性变换
FlashAttention	—	Tri Dao 提出的高效注意力实现，通过减少 GPU 高带宽内存 (HBM) 访问来加速
FP16	Float16 / Half Precision	16 位浮点格式，5 位指数 + 10 位尾数，精度高但动态范围有限
FP32	Float32 / Single Precision	32 位浮点格式，8 位指数 + 23 位尾数，"标准"精度
FSDP	Fully Sharded Data Parallel	PyTorch 原生的全分片数据并行，将模型参数、梯度、优化器状态分片到多卡
GGUF	GPT-Generated Unified Format	llama.cpp 使用的模型格式，支持多种量化精度，可在 CPU 上运行
GPTQ	GPT Quantization	基于二阶信息（Hessian）的逐层权重量化方法，精度高
GQA	Grouped-Query Attention	注意力变体：多个 Q 头共享一组 K/V 头，减少 KV Cache 大小
Gradient	梯度	损失函数对模型参数的偏导数，指示参数应该如何调整以减小损失
Gradient Accumulation	梯度累积	多个 micro-batch 的梯度累加后再更新一次参数，模拟更大的 batch size
Gradient Checkpointing	梯度检查点	只保存部分层的激活值，需要时重新计算，以时间换空间
GPU	Graphics Processing Unit	图形处理器，因其大规模并行架构成为深度学习训练的核心硬件
HBM	High Bandwidth Memory	GPU 上的高带宽显存（如 A100 的 HBM2e），带宽可达 2+ TB/s
Hidden Dimension	隐藏维度	模型内部表示向量的维度，例如 LLaMA-7B 的 hidden_dim = 4096
Inference	推理	训练完成后，用模型对新输入生成输出的过程
Instruct Model	指令模型	在 Base Model 基础上经过 SFT + 对齐的模型，能理解并遵从人类指令
INT4	4-bit Integer	4 位整数量化，每个权重仅占 0.5 字节
INT8	8-bit Integer	8 位整数量化，每个权重占 1 字节
Jaccard Similarity	杰卡德相似度	两个集合交集大小除以并集大小，用于衡量文档相似度
KenLM	—	基于 N-gram 的高效语言模型工具包，常用于质量过滤中的困惑度打分
KV Cache	Key-Value Cache	推理时缓存已计算的 Attention 的 Key 和 Value 矩阵，避免重复计算
Latency	延迟	从发出请求到收到响应的时间间隔
Layer Normalization	层归一化	对一个样本在某一层的所有特征做归一化，稳定训练过程
Learning Rate	学习率	控制每次参数更新步长大小的超参数，太大会震荡，太小会收敛慢
LLM	Large Language Model (大语言模型)	基于 Transformer 的大规模文本生成模型，如 GPT-4、LLaMA、Qwen
LoRA	Low-Rank Adaptation	参数高效微调方法：冻结原权重，只训练低秩分解的增量矩阵
Loss	损失	衡量模型预测与真实标签之间差距的函数，训练目标是最小化它
LSH	Locality-Sensitive Hashing (局部敏感哈希)	将相似的数据点以高概率映射到同一个哈希桶，用于高效近似最近邻搜索
Micro-batch	微批次	单张 GPU 每次前向传播实际处理的样本数，有效 batch = micro-batch × GPU数 × 累积步数
MinHash	—	用多组哈希函数快速估算两个集合的 Jaccard 相似度的算法
Mixed Precision	混合精度	训练时同时使用 FP16/BF16（计算）和 FP32（参数更新），兼顾速度和精度
MoE	Mixture of Experts (混合专家)	架构设计：多个"专家"子网络 + 路由器，每次推理只激活少数专家
MQA	Multi-Query Attention	所有 Q 头共享同一个 K/V 头，KV Cache 最小，但可能损失精度
Multi-Head Attention	多头注意力	将注意力拆分为多个"头"并行计算，每个头可以捕捉不同的模式
NCCL	NVIDIA Collective Communications Library	多 GPU 间高效通信的库，实现 AllReduce/AllGather 等集合操作
NF4	NormalFloat 4-bit	QLoRA 提出的 4-bit 量化格式，基于正态分布设计最优量化点
NVLink	—	NVIDIA 的 GPU 间高速互联技术，带宽远高于 PCIe
NVMe SSD	Non-Volatile Memory Express SSD	通过 PCIe 总线直连的高速固态硬盘，读写速度 3-7 GB/s
Optimizer State	优化器状态	优化器为每个参数维护的额外变量，如 Adam 的一阶矩 m 和二阶矩 v
PEFT	Parameter-Efficient Fine-Tuning	HF 库，实现 LoRA/QLoRA/IA3 等参数高效微调方法
Perplexity	困惑度	语言模型对文本"惊讶程度"的度量，越低说明模型认为文本越通顺/自然
PII	Personally Identifiable Information	个人身份信息（电话、邮箱、身份证号等），训练数据中需要脱敏
Pin Memory	锁页内存	将 CPU 内存锁定（不被交换到磁盘），加速 CPU↔GPU 数据传输
PPO	Proximal Policy Optimization	强化学习算法，RLHF 中用它优化语言模型策略
Pre-training	预训练	在大规模无标注语料上训练模型，学习语言的统计规律和世界知识
Projection Layer	投影层	将一个向量空间映射到另一个向量空间的线性/MLP 层
Proprioception	本体感受	机器人对自身状态（关节角度、速度、力矩）的感知
PTQ	Post-Training Quantization	训练后量化：在模型训练完成后再进行量化压缩
QAT	Quantization-Aware Training	量化感知训练：在训练过程中模拟量化效果，使模型适应低精度
QLoRA	Quantized LoRA	在 4-bit 量化的模型上做 LoRA 微调，极大降低显存需求
Quantization	量化	将高精度数值（如 FP16）用低精度格式（如 INT4）近似表示以压缩模型
Rank (秩)	—	LoRA 中低秩矩阵的秩 r，决定增量矩阵的表达能力
RLDS	Reinforcement Learning Datasets	TensorFlow 的强化学习数据集格式，广泛用于机器人数据
Residual Connection	残差连接	将某层的输入直接加到输出上 (y = f(x) + x)，缓解深层网络梯度消失
Reward Model	奖励模型	RLHF 中用于给模型输出打分的辅助模型，由人类偏好数据训练
RLHF	Reinforcement Learning from Human Feedback	用人类反馈的强化学习进行模型对齐的方法
RMSNorm	Root Mean Square Normalization	LayerNorm 的简化版，只做缩放不做偏移，计算更快
RoPE	Rotary Position Embedding	旋转位置编码，通过旋转矩阵编码 token 的相对位置信息
Self-Attention	自注意力	序列中每个位置与自身序列中所有位置计算注意力（而非跨序列）
SentencePiece	—	Google 的 Tokenizer 工具，直接在原始文本上训练，无需预分词
SFT	Supervised Fine-Tuning (监督微调)	用人工标注的指令-回答对微调模型，使其学会遵从指令
SigLIP	Sigmoid Loss for Language-Image Pre-training	Google 的图文匹配模型，用 sigmoid 损失替代 CLIP 的 softmax 对比损失
SWA	Sliding Window Attention	滑动窗口注意力：每个 token 只关注最近 W 个 token，降低长序列计算量
SwiGLU	—	现代 LLM 常用的激活函数，FFN 中将输入分为两路，一路做 Swish 激活后与另一路相乘
Teleoperation	遥操作	人类远程控制机器人执行任务并录制轨迹数据
Tensor Parallelism	张量并行	将单层的权重矩阵切分到多张 GPU 上，加速单层计算
Throughput	吞吐量	单位时间内处理的请求/token 数量
Token	—	文本被分词器切分后的最小单元，可以是一个字、词、子词或字符
Tokenizer	分词器	将原始文本切分为 token 序列，并映射为整数 ID 的工具
Trajectory	轨迹	机器人完成一个任务的完整序列：一系列 (观测, 动作) 对
Transformer	—	Vaswani et al. (2017) 提出的神经网络架构，基于自注意力机制，是现代 LLM 的基础
Transformers (HF)	—	Hugging Face 的 Python 库，提供数千种预训练模型的统一接口
TRL	Transformer Reinforcement Learning	HF 的训练库，实现 SFT/DPO/PPO/ORPO 等训练方法
Vision Encoder	视觉编码器	将图像编码为特征向量序列的模型（如 CLIP ViT、SigLIP）
Visual Token	视觉 token	图像经视觉编码器+投影层后得到的"伪文本 token"，与文本 token 一起输入 LLM
VLA	Vision-Language-Action Model	将视觉理解、语言理解和动作生成统一在一个模型中，用于机器人控制
VLM	Vision-Language Model (视觉语言模型)	能同时理解图像和文本的多模态模型，如 GPT-4V、LLaVA
VRAM	Video Random Access Memory (显存)	GPU 上的专用内存，存放模型参数、梯度、激活值等
Warmup	预热	训练初期将学习率从 0 线性增加到目标值，避免初始更新过大导致不稳定
ZeRO	Zero Redundancy Optimizer	DeepSpeed 的核心技术，通过分片消除数据并行中的内存冗余