Paper Reading 1
Paper Reading Record
ANT: Exploiting Adaptive Numerical Data Type for Low-bit Deep Neural Network Quantization (MICRO 2022)
核心目标:在保持模型精度的前提下,把 DNN 量化做到 4-bit,同时硬件代价极小。
量化的想法:把“高精度浮点数”变成“低精度整数”
比如深度神经网络里有:权重(weights)、激活值(activations),这些默认都是:FP32(32位浮点数)。问题是:占内存大、计算慢、功耗高、带宽压力大。
ANT 用“固定长度的自适应数值类型”同时利用张量间和张量内的分布差异,在几乎零硬件代价下实现 4-bit 量化。
OliVe: Accelerating Large Language Models via Hardware-friendly Outlier-Victim Pair Quantization (ISCA 2023)
核心目标:如何在保证精度的情况下,把大模型(LLM)量化到 4-bit,并且还能高效地在硬件上运行?
量化是最有效的降本方法。把 FP32 / FP16 换成低精度(如 int8 / int4)。但Transformer 的量化非常难,尤其是权重矩阵中的 outliers(极端值)。这些 outliers 可能占很小比例,但对模型性能影响很大。Transformer 的异常值远大于 CNN。
本文的核心思想是Outlier-Victim Pair(OVP)。让 normal value “牺牲”,给 outlier 腾位置。把“稀疏编码思路”换成“局部牺牲邻居”的思路。
M-ANT: Efficient Low-bit Group Quantization for LLMs via Mathematically Adaptive Numerical Type (HPCA 2025)
核心目标:如何在 大模型(LLM)低比特 group 量化 下,同时做到
- ✅ 高精度
- ✅ 高计算效率
- ✅ 支持 KV cache 实时量化
- ✅ 硬件友好
已有方法的问题:Group-wise quantization 成为主流,但文章中发现group 内部分布差异非常剧烈。
核心思想:Mathematically Adaptive Numerical Type。不再“选数据类型”,而是用一个数学公式生成“无限可调的数据类型”。
KV cache 的创新:由于V cache 是时间上逐 token 生成,一个 group 要多次 iteration 才填满,提出 temporal real-time quantization,核心思想:边生成边更新 scale、用 streaming 方式维护最大值、不等 group 完整,这是他们一个硬件级创新。
VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Inference (HPCA 2025)
留个坑,有空看(
ClusterFusion: Expanding Operator Fusion Scope for LLM Inference via Cluster-Level Collective Primitive (Nips 2025)
LLM Decode:每生成一个 token,都要:
- 把之前所有 token + 新 token 输入模型
- 重新跑一遍 Transformer block
- 输出下一个 token 概率
- 采样
- 再重复
在大模型推理中,95%以上的延迟来自 decoding 阶段,每生成一个 token 都要跑一整套 Transformer block。
在 NVIDIA Hopper 架构(H100)上,引入了:Thread Block Cluster,Distributed Shared Memory (DSMEM)
我们知道A100 CPU,CUDA执行层次为:
1 | Grid |
Hopper 引入:Thread Block Cluster,结构变成:
1 | Grid |
也就是说:
以前:
- 每个 Block 只能用自己的 shared memory
- 想跨 block 通信 → 只能用 global memory(慢)
现在:
- 一组 Block 可以被调度到一组邻近 SM 上
- 它们可以共享更快的内存
- 可以同步
核心创新:提出两个 cluster-level primitive
