Paper Reading Record

ANT: Exploiting Adaptive Numerical Data Type for Low-bit Deep Neural Network Quantization （MICRO 2022）

核心目标：在保持模型精度的前提下，把 DNN 量化做到 4-bit，同时硬件代价极小。

量化的想法：把“高精度浮点数”变成“低精度整数”

比如深度神经网络里有：权重（weights）、激活值（activations），这些默认都是：FP32（32位浮点数）。问题是：占内存大、计算慢、功耗高、带宽压力大。

ANT 用“固定长度的自适应数值类型”同时利用张量间和张量内的分布差异，在几乎零硬件代价下实现 4-bit 量化。

OliVe: Accelerating Large Language Models via Hardware-friendly Outlier-Victim Pair Quantization （ISCA 2023）

核心目标：如何在保证精度的情况下，把大模型（LLM）量化到 4-bit，并且还能高效地在硬件上运行？

量化是最有效的降本方法。把 FP32 / FP16 换成低精度（如 int8 / int4）。但Transformer 的量化非常难，尤其是权重矩阵中的 outliers（极端值）。这些 outliers 可能占很小比例，但对模型性能影响很大。Transformer 的异常值远大于 CNN。

本文的核心思想是Outlier-Victim Pair（OVP）。让 normal value “牺牲”，给 outlier 腾位置。把“稀疏编码思路”换成“局部牺牲邻居”的思路。

M-ANT: Efficient Low-bit Group Quantization for LLMs via Mathematically Adaptive Numerical Type （HPCA 2025）

核心目标：如何在大模型（LLM）低比特 group 量化下，同时做到

✅ 高精度
✅ 高计算效率
✅ 支持 KV cache 实时量化
✅ 硬件友好

已有方法的问题：Group-wise quantization 成为主流，但文章中发现group 内部分布差异非常剧烈。

核心思想：Mathematically Adaptive Numerical Type。不再“选数据类型”，而是用一个数学公式生成“无限可调的数据类型”。

KV cache 的创新：由于V cache 是时间上逐 token 生成，一个 group 要多次 iteration 才填满，提出 temporal real-time quantization，核心思想：边生成边更新 scale、用 streaming 方式维护最大值、不等 group 完整，这是他们一个硬件级创新。

VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Inference （HPCA 2025）

留个坑，有空看（

ClusterFusion: Expanding Operator Fusion Scope for LLM Inference via Cluster-Level Collective Primitive （Nips 2025）

LLM Decode：每生成一个 token，都要：

把之前所有 token + 新 token 输入模型
重新跑一遍 Transformer block
输出下一个 token 概率
采样
再重复

在大模型推理中，95%以上的延迟来自 decoding 阶段，每生成一个 token 都要跑一整套 Transformer block。

在 NVIDIA Hopper 架构（H100）上，引入了：Thread Block Cluster，Distributed Shared Memory (DSMEM)

我们知道A100 CPU，CUDA执行层次为：

1
2
3

Grid
 └── Block
      └── Thread

Hopper 引入：Thread Block Cluster，结构变成：

Grid
 └── Cluster   ← 新增层级
      └── Block
           └── Thread

也就是说：

以前：

每个 Block 只能用自己的 shared memory
想跨 block 通信 → 只能用 global memory（慢）

现在：

一组 Block 可以被调度到一组邻近 SM 上
它们可以共享更快的内存
可以同步

核心创新：提出两个 cluster-level primitive