Paper Reading Record

ANT: Exploiting Adaptive Numerical Data Type for Low-bit Deep Neural Network Quantization (MICRO 2022)

核心目标:在保持模型精度的前提下,把 DNN 量化做到 4-bit,同时硬件代价极小。

量化的想法:把“高精度浮点数”变成“低精度整数”

比如深度神经网络里有:权重(weights)、激活值(activations),这些默认都是:FP32(32位浮点数)。问题是:占内存大、计算慢、功耗高、带宽压力大。

ANT 用“固定长度的自适应数值类型”同时利用张量间和张量内的分布差异,在几乎零硬件代价下实现 4-bit 量化。

OliVe: Accelerating Large Language Models via Hardware-friendly Outlier-Victim Pair Quantization (ISCA 2023)

核心目标:如何在保证精度的情况下,把大模型(LLM)量化到 4-bit,并且还能高效地在硬件上运行?

量化是最有效的降本方法。把 FP32 / FP16 换成低精度(如 int8 / int4)。但Transformer 的量化非常难,尤其是权重矩阵中的 outliers(极端值)。这些 outliers 可能占很小比例,但对模型性能影响很大。Transformer 的异常值远大于 CNN。

本文的核心思想是Outlier-Victim Pair(OVP)。让 normal value “牺牲”,给 outlier 腾位置。把“稀疏编码思路”换成“局部牺牲邻居”的思路。

M-ANT: Efficient Low-bit Group Quantization for LLMs via Mathematically Adaptive Numerical Type (HPCA 2025)

核心目标:如何在 大模型(LLM)低比特 group 量化 下,同时做到

  • ✅ 高精度
  • ✅ 高计算效率
  • ✅ 支持 KV cache 实时量化
  • ✅ 硬件友好

已有方法的问题:Group-wise quantization 成为主流,但文章中发现group 内部分布差异非常剧烈。

核心思想:Mathematically Adaptive Numerical Type。不再“选数据类型”,而是用一个数学公式生成“无限可调的数据类型”。

KV cache 的创新:由于V cache 是时间上逐 token 生成,一个 group 要多次 iteration 才填满,提出 temporal real-time quantization,核心思想:边生成边更新 scale、用 streaming 方式维护最大值、不等 group 完整,这是他们一个硬件级创新。

VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Inference (HPCA 2025)

留个坑,有空看(

ClusterFusion: Expanding Operator Fusion Scope for LLM Inference via Cluster-Level Collective Primitive (Nips 2025)

LLM Decode:每生成一个 token,都要:

  • 把之前所有 token + 新 token 输入模型
  • 重新跑一遍 Transformer block
  • 输出下一个 token 概率
  • 采样
  • 再重复

在大模型推理中,95%以上的延迟来自 decoding 阶段,每生成一个 token 都要跑一整套 Transformer block。

在 NVIDIA Hopper 架构(H100)上,引入了:Thread Block Cluster,Distributed Shared Memory (DSMEM)

我们知道A100 CPU,CUDA执行层次为:

1
2
3
Grid
└── Block
└── Thread

Hopper 引入:Thread Block Cluster,结构变成:

1
2
3
4
Grid
└── Cluster ← 新增层级
└── Block
└── Thread

也就是说:

以前:

  • 每个 Block 只能用自己的 shared memory
  • 想跨 block 通信 → 只能用 global memory(慢)

现在:

  • 一组 Block 可以被调度到一组邻近 SM 上
  • 它们可以共享更快的内存
  • 可以同步

核心创新:提出两个 cluster-level primitive