Engineering Notebook // Build Log
/
20:52:02
/NOTEBOOK_ENTRY
LLM / VLM / VLA 指南(扩展详注版)
文档结构 本指南分为以下文件,建议按顺序阅读: | 文件 | 内容 | | | | | 本文件 | 术语速查表 Glossary | 术语速查表 Glossary 按字母排序。每个术语在正文中首次出现时会有更详细的解释。 | 术语 | 全称 | 一句话定义 | | | | | | Accelerate | Hugging Face Accelerate | HF 提供的分布式训练抽象层,让单卡代码无缝扩展到多卡/多机 | | Actio…
Notebook Time
6 min
Image Frames
0
View Tracks
47
学习
FIELD_GUIDE
FIELD GUIDE
Use the guide rail to jump between sections.
文档结构
本指南分为以下文件,建议按顺序阅读:
| 文件 | 内容 |
|---|---|
| 本文件 | 术语速查表 (Glossary) |
术语速查表 (Glossary)
按字母排序。每个术语在正文中首次出现时会有更详细的解释。
| 术语 | 全称 | 一句话定义 |
|---|---|---|
| Accelerate | Hugging Face Accelerate | HF 提供的分布式训练抽象层,让单卡代码无缝扩展到多卡/多机 |
| Action Space | — | 机器人可执行的所有动作的集合,例如 7 维向量 (x,y,z,rx,ry,rz,gripper) |
| Activation | 激活值 | 神经网络前向传播时每一层的中间输出,反向传播求梯度时需要它们 |
| AdamW | Adam with Weight Decay | 目前最主流的深度学习优化器,维护每个参数的一阶矩 (动量) 和二阶矩 (方差估计) |
| Attention | 注意力机制 | Transformer 的核心:让每个 token 根据"相关性"加权关注序列中的其他 token |
| AWQ | Activation-aware Weight Quantization | 一种模型量化方法,通过保护"重要权重通道"来减少量化误差 |
| Base Model | 基座模型 | 经过预训练但未经指令微调的原始模型,只会"续写"不会"对话" |
| Batch Size | 批大小 | 每次训练迭代中同时处理的样本数量 |
| BF16 | Brain Floating Point 16 | Google 提出的 16 位浮点格式,8 位指数 + 7 位尾数,动态范围与 FP32 相同 |
| BPE | Byte-Pair Encoding | 一种 Tokenizer 算法:从字符开始,反复合并出现频率最高的相邻字符对 |
| Calibration Data | 校准数据 | 量化时用于测量权重/激活分布的少量代表性数据(通常 128-512 条) |
| Checkpoint | 检查点 | 训练过程中保存的模型权重快照,用于断点续训或模型选择 |
| CLIP | Contrastive Language-Image Pre-training | OpenAI 的图文匹配模型,用对比学习同时训练图像编码器和文本编码器 |
| Common Crawl | — | 非营利组织维护的全球最大公开网页爬取数据集,PB 级别 |
| Cosine Decay | 余弦退火 | 学习率调度策略,按余弦曲线从初始值平滑下降到最小值 |
| Cosine Similarity | 余弦相似度 | 衡量两个向量方向的相似程度,值域 [-1, 1],1 表示完全同向 |
| CPU Offload | CPU 卸载 | 将 GPU 放不下的数据(优化器状态、参数)临时存到 CPU 内存 |
| CUDA | Compute Unified Device Architecture | NVIDIA 的 GPU 并行计算平台和编程模型 |
| cuDNN | CUDA Deep Neural Network library | NVIDIA 专为深度学习优化的 GPU 加速库(卷积、注意力等算子) |
| DDP | Distributed Data Parallel | PyTorch 的数据并行策略:每张卡持有完整模型副本,梯度做 AllReduce 同步 |
| DeepSpeed | — | 微软开源的深度学习训练优化库,核心是 ZeRO 系列内存优化 |
| Deduplication | 去重 | 从数据集中移除重复或近似重复的文档/段落 |
| DINOv2 | — | Meta 的自监督视觉模型,无需标注数据即可学到强大的视觉特征 |
| DOF | Degrees of Freedom (自由度) | 机器人可独立运动的维度数,例如 6-DOF = 3 平移 + 3 旋转 |
| DPO | Direct Preference Optimization | 一种对齐方法:直接用人类偏好数据优化模型,无需训练独立的奖励模型 |
| Embedding | 嵌入 | 将离散符号(如 token ID)映射为连续的稠密向量的过程/结果 |
| End Effector | 末端执行器 | 机械臂末端的工具,如夹爪、吸盘、焊枪 |
| Epoch | 轮次 | 训练数据集被完整遍历一次称为一个 epoch |
| Feature Map | 特征图 | 卷积/视觉编码器输出的空间特征张量,保留了图像的空间结构信息 |
| Feed-Forward Network (FFN) | 前馈网络 | Transformer Block 中的两层 MLP,负责逐位置的非线性变换 |
| FlashAttention | — | Tri Dao 提出的高效注意力实现,通过减少 GPU 高带宽内存 (HBM) 访问来加速 |
| FP16 | Float16 / Half Precision | 16 位浮点格式,5 位指数 + 10 位尾数,精度高但动态范围有限 |
| FP32 | Float32 / Single Precision | 32 位浮点格式,8 位指数 + 23 位尾数,"标准"精度 |
| FSDP | Fully Sharded Data Parallel | PyTorch 原生的全分片数据并行,将模型参数、梯度、优化器状态分片到多卡 |
| GGUF | GPT-Generated Unified Format | llama.cpp 使用的模型格式,支持多种量化精度,可在 CPU 上运行 |
| GPTQ | GPT Quantization | 基于二阶信息(Hessian)的逐层权重量化方法,精度高 |
| GQA | Grouped-Query Attention | 注意力变体:多个 Q 头共享一组 K/V 头,减少 KV Cache 大小 |
| Gradient | 梯度 | 损失函数对模型参数的偏导数,指示参数应该如何调整以减小损失 |
| Gradient Accumulation | 梯度累积 | 多个 micro-batch 的梯度累加后再更新一次参数,模拟更大的 batch size |
| Gradient Checkpointing | 梯度检查点 | 只保存部分层的激活值,需要时重新计算,以时间换空间 |
| GPU | Graphics Processing Unit | 图形处理器,因其大规模并行架构成为深度学习训练的核心硬件 |
| HBM | High Bandwidth Memory | GPU 上的高带宽显存(如 A100 的 HBM2e),带宽可达 2+ TB/s |
| Hidden Dimension | 隐藏维度 | 模型内部表示向量的维度,例如 LLaMA-7B 的 hidden_dim = 4096 |
| Inference | 推理 | 训练完成后,用模型对新输入生成输出的过程 |
| Instruct Model | 指令模型 | 在 Base Model 基础上经过 SFT + 对齐的模型,能理解并遵从人类指令 |
| INT4 | 4-bit Integer | 4 位整数量化,每个权重仅占 0.5 字节 |
| INT8 | 8-bit Integer | 8 位整数量化,每个权重占 1 字节 |
| Jaccard Similarity | 杰卡德相似度 | 两个集合交集大小除以并集大小,用于衡量文档相似度 |
| KenLM | — | 基于 N-gram 的高效语言模型工具包,常用于质量过滤中的困惑度打分 |
| KV Cache | Key-Value Cache | 推理时缓存已计算的 Attention 的 Key 和 Value 矩阵,避免重复计算 |
| Latency | 延迟 | 从发出请求到收到响应的时间间隔 |
| Layer Normalization | 层归一化 | 对一个样本在某一层的所有特征做归一化,稳定训练过程 |
| Learning Rate | 学习率 | 控制每次参数更新步长大小的超参数,太大会震荡,太小会收敛慢 |
| LLM | Large Language Model (大语言模型) | 基于 Transformer 的大规模文本生成模型,如 GPT-4、LLaMA、Qwen |
| LoRA | Low-Rank Adaptation | 参数高效微调方法:冻结原权重,只训练低秩分解的增量矩阵 |
| Loss | 损失 | 衡量模型预测与真实标签之间差距的函数,训练目标是最小化它 |
| LSH | Locality-Sensitive Hashing (局部敏感哈希) | 将相似的数据点以高概率映射到同一个哈希桶,用于高效近似最近邻搜索 |
| Micro-batch | 微批次 | 单张 GPU 每次前向传播实际处理的样本数,有效 batch = micro-batch × GPU数 × 累积步数 |
| MinHash | — | 用多组哈希函数快速估算两个集合的 Jaccard 相似度的算法 |
| Mixed Precision | 混合精度 | 训练时同时使用 FP16/BF16(计算)和 FP32(参数更新),兼顾速度和精度 |
| MoE | Mixture of Experts (混合专家) | 架构设计:多个"专家"子网络 + 路由器,每次推理只激活少数专家 |
| MQA | Multi-Query Attention | 所有 Q 头共享同一个 K/V 头,KV Cache 最小,但可能损失精度 |
| Multi-Head Attention | 多头注意力 | 将注意力拆分为多个"头"并行计算,每个头可以捕捉不同的模式 |
| NCCL | NVIDIA Collective Communications Library | 多 GPU 间高效通信的库,实现 AllReduce/AllGather 等集合操作 |
| NF4 | NormalFloat 4-bit | QLoRA 提出的 4-bit 量化格式,基于正态分布设计最优量化点 |
| NVLink | — | NVIDIA 的 GPU 间高速互联技术,带宽远高于 PCIe |
| NVMe SSD | Non-Volatile Memory Express SSD | 通过 PCIe 总线直连的高速固态硬盘,读写速度 3-7 GB/s |
| Optimizer State | 优化器状态 | 优化器为每个参数维护的额外变量,如 Adam 的一阶矩 m 和二阶矩 v |
| PEFT | Parameter-Efficient Fine-Tuning | HF 库,实现 LoRA/QLoRA/IA3 等参数高效微调方法 |
| Perplexity | 困惑度 | 语言模型对文本"惊讶程度"的度量,越低说明模型认为文本越通顺/自然 |
| PII | Personally Identifiable Information | 个人身份信息(电话、邮箱、身份证号等),训练数据中需要脱敏 |
| Pin Memory | 锁页内存 | 将 CPU 内存锁定(不被交换到磁盘),加速 CPU↔GPU 数据传输 |
| PPO | Proximal Policy Optimization | 强化学习算法,RLHF 中用它优化语言模型策略 |
| Pre-training | 预训练 | 在大规模无标注语料上训练模型,学习语言的统计规律和世界知识 |
| Projection Layer | 投影层 | 将一个向量空间映射到另一个向量空间的线性/MLP 层 |
| Proprioception | 本体感受 | 机器人对自身状态(关节角度、速度、力矩)的感知 |
| PTQ | Post-Training Quantization | 训练后量化:在模型训练完成后再进行量化压缩 |
| QAT | Quantization-Aware Training | 量化感知训练:在训练过程中模拟量化效果,使模型适应低精度 |
| QLoRA | Quantized LoRA | 在 4-bit 量化的模型上做 LoRA 微调,极大降低显存需求 |
| Quantization | 量化 | 将高精度数值(如 FP16)用低精度格式(如 INT4)近似表示以压缩模型 |
| Rank (秩) | — | LoRA 中低秩矩阵的秩 r,决定增量矩阵的表达能力 |
| RLDS | Reinforcement Learning Datasets | TensorFlow 的强化学习数据集格式,广泛用于机器人数据 |
| Residual Connection | 残差连接 | 将某层的输入直接加到输出上 (y = f(x) + x),缓解深层网络梯度消失 |
| Reward Model | 奖励模型 | RLHF 中用于给模型输出打分的辅助模型,由人类偏好数据训练 |
| RLHF | Reinforcement Learning from Human Feedback | 用人类反馈的强化学习进行模型对齐的方法 |
| RMSNorm | Root Mean Square Normalization | LayerNorm 的简化版,只做缩放不做偏移,计算更快 |
| RoPE | Rotary Position Embedding | 旋转位置编码,通过旋转矩阵编码 token 的相对位置信息 |
| Self-Attention | 自注意力 | 序列中每个位置与自身序列中所有位置计算注意力(而非跨序列) |
| SentencePiece | — | Google 的 Tokenizer 工具,直接在原始文本上训练,无需预分词 |
| SFT | Supervised Fine-Tuning (监督微调) | 用人工标注的指令-回答对微调模型,使其学会遵从指令 |
| SigLIP | Sigmoid Loss for Language-Image Pre-training | Google 的图文匹配模型,用 sigmoid 损失替代 CLIP 的 softmax 对比损失 |
| SWA | Sliding Window Attention | 滑动窗口注意力:每个 token 只关注最近 W 个 token,降低长序列计算量 |
| SwiGLU | — | 现代 LLM 常用的激活函数,FFN 中将输入分为两路,一路做 Swish 激活后与另一路相乘 |
| Teleoperation | 遥操作 | 人类远程控制机器人执行任务并录制轨迹数据 |
| Tensor Parallelism | 张量并行 | 将单层的权重矩阵切分到多张 GPU 上,加速单层计算 |
| Throughput | 吞吐量 | 单位时间内处理的请求/token 数量 |
| Token | — | 文本被分词器切分后的最小单元,可以是一个字、词、子词或字符 |
| Tokenizer | 分词器 | 将原始文本切分为 token 序列,并映射为整数 ID 的工具 |
| Trajectory | 轨迹 | 机器人完成一个任务的完整序列:一系列 (观测, 动作) 对 |
| Transformer | — | Vaswani et al. (2017) 提出的神经网络架构,基于自注意力机制,是现代 LLM 的基础 |
| Transformers (HF) | — | Hugging Face 的 Python 库,提供数千种预训练模型的统一接口 |
| TRL | Transformer Reinforcement Learning | HF 的训练库,实现 SFT/DPO/PPO/ORPO 等训练方法 |
| Vision Encoder | 视觉编码器 | 将图像编码为特征向量序列的模型(如 CLIP ViT、SigLIP) |
| Visual Token | 视觉 token | 图像经视觉编码器+投影层后得到的"伪文本 token",与文本 token 一起输入 LLM |
| VLA | Vision-Language-Action Model | 将视觉理解、语言理解和动作生成统一在一个模型中,用于机器人控制 |
| VLM | Vision-Language Model (视觉语言模型) | 能同时理解图像和文本的多模态模型,如 GPT-4V、LLaVA |
| VRAM | Video Random Access Memory (显存) | GPU 上的专用内存,存放模型参数、梯度、激活值等 |
| Warmup | 预热 | 训练初期将学习率从 0 线性增加到目标值,避免初始更新过大导致不稳定 |
| ZeRO | Zero Redundancy Optimizer | DeepSpeed 的核心技术,通过分片消除数据并行中的内存冗余 |