BACK_TO_BASE
Engineering Notebook // Build Log
/
20:52:02
/
NOTEBOOK_ENTRY

LLM / VLM / VLA 指南(扩展详注版)

文档结构 本指南分为以下文件,建议按顺序阅读: | 文件 | 内容 | | | | | 本文件 | 术语速查表 Glossary | 术语速查表 Glossary 按字母排序。每个术语在正文中首次出现时会有更详细的解释。 | 术语 | 全称 | 一句话定义 | | | | | | Accelerate | Hugging Face Accelerate | HF 提供的分布式训练抽象层,让单卡代码无缝扩展到多卡/多机 | | Actio…

Notebook Time
6 min
Image Frames
0
View Tracks
47
学习
FIELD_GUIDE

FIELD GUIDE

Use the guide rail to jump between sections.

文档结构

本指南分为以下文件,建议按顺序阅读:

文件内容
本文件术语速查表 (Glossary)

术语速查表 (Glossary)

按字母排序。每个术语在正文中首次出现时会有更详细的解释。

术语全称一句话定义
AccelerateHugging Face AccelerateHF 提供的分布式训练抽象层,让单卡代码无缝扩展到多卡/多机
Action Space机器人可执行的所有动作的集合,例如 7 维向量 (x,y,z,rx,ry,rz,gripper)
Activation激活值神经网络前向传播时每一层的中间输出,反向传播求梯度时需要它们
AdamWAdam with Weight Decay目前最主流的深度学习优化器,维护每个参数的一阶矩 (动量) 和二阶矩 (方差估计)
Attention注意力机制Transformer 的核心:让每个 token 根据"相关性"加权关注序列中的其他 token
AWQActivation-aware Weight Quantization一种模型量化方法,通过保护"重要权重通道"来减少量化误差
Base Model基座模型经过预训练但未经指令微调的原始模型,只会"续写"不会"对话"
Batch Size批大小每次训练迭代中同时处理的样本数量
BF16Brain Floating Point 16Google 提出的 16 位浮点格式,8 位指数 + 7 位尾数,动态范围与 FP32 相同
BPEByte-Pair Encoding一种 Tokenizer 算法:从字符开始,反复合并出现频率最高的相邻字符对
Calibration Data校准数据量化时用于测量权重/激活分布的少量代表性数据(通常 128-512 条)
Checkpoint检查点训练过程中保存的模型权重快照,用于断点续训或模型选择
CLIPContrastive Language-Image Pre-trainingOpenAI 的图文匹配模型,用对比学习同时训练图像编码器和文本编码器
Common Crawl非营利组织维护的全球最大公开网页爬取数据集,PB 级别
Cosine Decay余弦退火学习率调度策略,按余弦曲线从初始值平滑下降到最小值
Cosine Similarity余弦相似度衡量两个向量方向的相似程度,值域 [-1, 1],1 表示完全同向
CPU OffloadCPU 卸载将 GPU 放不下的数据(优化器状态、参数)临时存到 CPU 内存
CUDACompute Unified Device ArchitectureNVIDIA 的 GPU 并行计算平台和编程模型
cuDNNCUDA Deep Neural Network libraryNVIDIA 专为深度学习优化的 GPU 加速库(卷积、注意力等算子)
DDPDistributed Data ParallelPyTorch 的数据并行策略:每张卡持有完整模型副本,梯度做 AllReduce 同步
DeepSpeed微软开源的深度学习训练优化库,核心是 ZeRO 系列内存优化
Deduplication去重从数据集中移除重复或近似重复的文档/段落
DINOv2Meta 的自监督视觉模型,无需标注数据即可学到强大的视觉特征
DOFDegrees of Freedom (自由度)机器人可独立运动的维度数,例如 6-DOF = 3 平移 + 3 旋转
DPODirect Preference Optimization一种对齐方法:直接用人类偏好数据优化模型,无需训练独立的奖励模型
Embedding嵌入将离散符号(如 token ID)映射为连续的稠密向量的过程/结果
End Effector末端执行器机械臂末端的工具,如夹爪、吸盘、焊枪
Epoch轮次训练数据集被完整遍历一次称为一个 epoch
Feature Map特征图卷积/视觉编码器输出的空间特征张量,保留了图像的空间结构信息
Feed-Forward Network (FFN)前馈网络Transformer Block 中的两层 MLP,负责逐位置的非线性变换
FlashAttentionTri Dao 提出的高效注意力实现,通过减少 GPU 高带宽内存 (HBM) 访问来加速
FP16Float16 / Half Precision16 位浮点格式,5 位指数 + 10 位尾数,精度高但动态范围有限
FP32Float32 / Single Precision32 位浮点格式,8 位指数 + 23 位尾数,"标准"精度
FSDPFully Sharded Data ParallelPyTorch 原生的全分片数据并行,将模型参数、梯度、优化器状态分片到多卡
GGUFGPT-Generated Unified Formatllama.cpp 使用的模型格式,支持多种量化精度,可在 CPU 上运行
GPTQGPT Quantization基于二阶信息(Hessian)的逐层权重量化方法,精度高
GQAGrouped-Query Attention注意力变体:多个 Q 头共享一组 K/V 头,减少 KV Cache 大小
Gradient梯度损失函数对模型参数的偏导数,指示参数应该如何调整以减小损失
Gradient Accumulation梯度累积多个 micro-batch 的梯度累加后再更新一次参数,模拟更大的 batch size
Gradient Checkpointing梯度检查点只保存部分层的激活值,需要时重新计算,以时间换空间
GPUGraphics Processing Unit图形处理器,因其大规模并行架构成为深度学习训练的核心硬件
HBMHigh Bandwidth MemoryGPU 上的高带宽显存(如 A100 的 HBM2e),带宽可达 2+ TB/s
Hidden Dimension隐藏维度模型内部表示向量的维度,例如 LLaMA-7B 的 hidden_dim = 4096
Inference推理训练完成后,用模型对新输入生成输出的过程
Instruct Model指令模型在 Base Model 基础上经过 SFT + 对齐的模型,能理解并遵从人类指令
INT44-bit Integer4 位整数量化,每个权重仅占 0.5 字节
INT88-bit Integer8 位整数量化,每个权重占 1 字节
Jaccard Similarity杰卡德相似度两个集合交集大小除以并集大小,用于衡量文档相似度
KenLM基于 N-gram 的高效语言模型工具包,常用于质量过滤中的困惑度打分
KV CacheKey-Value Cache推理时缓存已计算的 Attention 的 Key 和 Value 矩阵,避免重复计算
Latency延迟从发出请求到收到响应的时间间隔
Layer Normalization层归一化对一个样本在某一层的所有特征做归一化,稳定训练过程
Learning Rate学习率控制每次参数更新步长大小的超参数,太大会震荡,太小会收敛慢
LLMLarge Language Model (大语言模型)基于 Transformer 的大规模文本生成模型,如 GPT-4、LLaMA、Qwen
LoRALow-Rank Adaptation参数高效微调方法:冻结原权重,只训练低秩分解的增量矩阵
Loss损失衡量模型预测与真实标签之间差距的函数,训练目标是最小化它
LSHLocality-Sensitive Hashing (局部敏感哈希)将相似的数据点以高概率映射到同一个哈希桶,用于高效近似最近邻搜索
Micro-batch微批次单张 GPU 每次前向传播实际处理的样本数,有效 batch = micro-batch × GPU数 × 累积步数
MinHash用多组哈希函数快速估算两个集合的 Jaccard 相似度的算法
Mixed Precision混合精度训练时同时使用 FP16/BF16(计算)和 FP32(参数更新),兼顾速度和精度
MoEMixture of Experts (混合专家)架构设计:多个"专家"子网络 + 路由器,每次推理只激活少数专家
MQAMulti-Query Attention所有 Q 头共享同一个 K/V 头,KV Cache 最小,但可能损失精度
Multi-Head Attention多头注意力将注意力拆分为多个"头"并行计算,每个头可以捕捉不同的模式
NCCLNVIDIA Collective Communications Library多 GPU 间高效通信的库,实现 AllReduce/AllGather 等集合操作
NF4NormalFloat 4-bitQLoRA 提出的 4-bit 量化格式,基于正态分布设计最优量化点
NVLinkNVIDIA 的 GPU 间高速互联技术,带宽远高于 PCIe
NVMe SSDNon-Volatile Memory Express SSD通过 PCIe 总线直连的高速固态硬盘,读写速度 3-7 GB/s
Optimizer State优化器状态优化器为每个参数维护的额外变量,如 Adam 的一阶矩 m 和二阶矩 v
PEFTParameter-Efficient Fine-TuningHF 库,实现 LoRA/QLoRA/IA3 等参数高效微调方法
Perplexity困惑度语言模型对文本"惊讶程度"的度量,越低说明模型认为文本越通顺/自然
PIIPersonally Identifiable Information个人身份信息(电话、邮箱、身份证号等),训练数据中需要脱敏
Pin Memory锁页内存将 CPU 内存锁定(不被交换到磁盘),加速 CPU↔GPU 数据传输
PPOProximal Policy Optimization强化学习算法,RLHF 中用它优化语言模型策略
Pre-training预训练在大规模无标注语料上训练模型,学习语言的统计规律和世界知识
Projection Layer投影层将一个向量空间映射到另一个向量空间的线性/MLP 层
Proprioception本体感受机器人对自身状态(关节角度、速度、力矩)的感知
PTQPost-Training Quantization训练后量化:在模型训练完成后再进行量化压缩
QATQuantization-Aware Training量化感知训练:在训练过程中模拟量化效果,使模型适应低精度
QLoRAQuantized LoRA在 4-bit 量化的模型上做 LoRA 微调,极大降低显存需求
Quantization量化将高精度数值(如 FP16)用低精度格式(如 INT4)近似表示以压缩模型
Rank (秩)LoRA 中低秩矩阵的秩 r,决定增量矩阵的表达能力
RLDSReinforcement Learning DatasetsTensorFlow 的强化学习数据集格式,广泛用于机器人数据
Residual Connection残差连接将某层的输入直接加到输出上 (y = f(x) + x),缓解深层网络梯度消失
Reward Model奖励模型RLHF 中用于给模型输出打分的辅助模型,由人类偏好数据训练
RLHFReinforcement Learning from Human Feedback用人类反馈的强化学习进行模型对齐的方法
RMSNormRoot Mean Square NormalizationLayerNorm 的简化版,只做缩放不做偏移,计算更快
RoPERotary Position Embedding旋转位置编码,通过旋转矩阵编码 token 的相对位置信息
Self-Attention自注意力序列中每个位置与自身序列中所有位置计算注意力(而非跨序列)
SentencePieceGoogle 的 Tokenizer 工具,直接在原始文本上训练,无需预分词
SFTSupervised Fine-Tuning (监督微调)用人工标注的指令-回答对微调模型,使其学会遵从指令
SigLIPSigmoid Loss for Language-Image Pre-trainingGoogle 的图文匹配模型,用 sigmoid 损失替代 CLIP 的 softmax 对比损失
SWASliding Window Attention滑动窗口注意力:每个 token 只关注最近 W 个 token,降低长序列计算量
SwiGLU现代 LLM 常用的激活函数,FFN 中将输入分为两路,一路做 Swish 激活后与另一路相乘
Teleoperation遥操作人类远程控制机器人执行任务并录制轨迹数据
Tensor Parallelism张量并行将单层的权重矩阵切分到多张 GPU 上,加速单层计算
Throughput吞吐量单位时间内处理的请求/token 数量
Token文本被分词器切分后的最小单元,可以是一个字、词、子词或字符
Tokenizer分词器将原始文本切分为 token 序列,并映射为整数 ID 的工具
Trajectory轨迹机器人完成一个任务的完整序列:一系列 (观测, 动作) 对
TransformerVaswani et al. (2017) 提出的神经网络架构,基于自注意力机制,是现代 LLM 的基础
Transformers (HF)Hugging Face 的 Python 库,提供数千种预训练模型的统一接口
TRLTransformer Reinforcement LearningHF 的训练库,实现 SFT/DPO/PPO/ORPO 等训练方法
Vision Encoder视觉编码器将图像编码为特征向量序列的模型(如 CLIP ViT、SigLIP)
Visual Token视觉 token图像经视觉编码器+投影层后得到的"伪文本 token",与文本 token 一起输入 LLM
VLAVision-Language-Action Model将视觉理解、语言理解和动作生成统一在一个模型中,用于机器人控制
VLMVision-Language Model (视觉语言模型)能同时理解图像和文本的多模态模型,如 GPT-4V、LLaVA
VRAMVideo Random Access Memory (显存)GPU 上的专用内存,存放模型参数、梯度、激活值等
Warmup预热训练初期将学习率从 0 线性增加到目标值,避免初始更新过大导致不稳定
ZeROZero Redundancy OptimizerDeepSpeed 的核心技术,通过分片消除数据并行中的内存冗余