Brain of JaneZ in a Jar

Created2026-01-24

25 Fall Learning Record 25 Fall 开始，依托的RCompiler，混乱的Arch课程，两门😇的数学课，三节早八的物理课，TA 工作，原来已经大二了😥 学期有些规划。快让我润出去吧，每天都在幻想能不能直接跳过本科3年直接润美😇 大多数人都生活在平静的绝望中：欲言又止。最优化有意思。天热总是令人头痛，再喝可乐，就会变成可乐了。 Compiler 进展挺好，但是欠了一大堆物理课🤗 前天在水源上回了一个帖子：想听一下源友们对于生命结束的看法 JaneZ: 可以想一想自己还有什么想做的事情，还有怎样的风景没有看过，and all the crazy things! 如果全都没有了，那我想是时候开始 afterlife 了对物理早八的怨气来到了一个新的高峰。小失误会酿成大祸，差点就把主板烧了看了coderaka的帖子，想想自己这一年又何尝不是这样呢，一点锐气都没有了。国庆说走就走的港深之行，想去HK很久了，毕竟上一次去是15年前。10.3出发的，10.2订的机酒。往返都是MU，回来为了省钱前一天晚上到深圳，第二天中午从宝安飞浦...

26-Spring

Created2026-03-07

1How are you gonna be a revolutionary if you’re such a traditionalist? 26 Spring Record 觉得这个record还是有存在的必要，就写一写吧。 Obviously, 春季学期又是一堆事，虽然几乎没什么课了，但别的事情也是一堆。第一周基本都在working on Compiler了，学长建议读的几篇paper也没看，可能对硬件优化没什么特别大的兴趣吧，对graphic也并不感冒，倾向于量化和推理优化，但目前这个组未必是最好的选择，idk，先看看吧。可以预料这个学期的os又将是一坨，想选track1，完全手搓一个结合了page attention和radix attention的os kernel 有意思，但这真是一件有意义的事情吗？如果手搓kernel更好为什么还有vllm和sglang，不懂啊不是很了解。track2确实简单一些，通过rcore也可以学到一些os的基础知识，感觉也挺好，搞不懂了。这学期开始了跑步健身，感觉颇有成效。周末和学妹吃滨，喜欢滨。下周末去看F1！清明估计会回南京，手机...

Paper Reading 1

Created2026-02-25

Paper Reading RecordANT: Exploiting Adaptive Numerical Data Type for Low-bit Deep Neural Network Quantization （MICRO 2022）核心目标：在保持模型精度的前提下，把 DNN 量化做到 4-bit，同时硬件代价极小。量化的想法：把“高精度浮点数”变成“低精度整数” 比如深度神经网络里有：权重（weights）、激活值（activations），这些默认都是：FP32（32位浮点数）。问题是：占内存大、计算慢、功耗高、带宽压力大。 ANT 用“固定长度的自适应数值类型”同时利用张量间和张量内的分布差异，在几乎零硬件代价下实现 4-bit 量化。 OliVe: Accelerating Large Language Models via Hardware-friendly Outlier-Victim Pair Quantization （ISCA 2023）核心目标：如何在保证精度的情况下，把大模型（LLM）量化到 4-bit，并且还能高效地在硬件上运行？量化是最有...

xv6 Learning

Created2026-01-30

一份我学习 mit 6.s081 操作系统课程时的笔记，gitbook链接 xv6 Learning操作系统接口操作系统的四大职能资源共享：在多个程序间分配计算机资源。硬件抽象：提供比底层硬件更易用的服务（如 Word 无需关心硬盘型号）。多路复用：让多个程序看起来在同时运行。受控交互：管理程序间的数据共享与协作。我的理解是一种“中介”角色，操作系统在硬件和应用程序之间提供一个抽象层，使得应用程序可以更方便地使用硬件资源，而不需要直接与硬件打交道。内核与系统调用内核 (Kernel)：向运行程序提供服务的特殊程序。进程 (Process)：运行中的程序，拥有独立的指令、数据和栈空间。硬件保护机制：内核拥有硬件特权，而用户进程没有。系统调用 (System Call)：用户进程请求内核服务的唯一接口。执行时硬件特权级提升，进入内核，完成后返回用户空间。 shell ——system call——> kernel 进程总是在用户空间和内核空间之间交替运行。核心机制详解 A. 进程管理 (Process & Mem...

26 Winter

Created2026-01-29

这是一个寒假日记楼。 2026.1.296点起来逛吉林的早市，发现啥都没有，于是回酒店睡到11点，然后就退房去龙嘉机场了。孩子人生第一次坐九元，为了省托运钱把相机直接带上飞机了（事实上只省了15）。感觉已经彻底爱上滑雪了，鼠鼠我属于那种又菜胆子又小但瘾特别大的，打算每年雪季都去滑几次，平常还可以在耀雪练练。南京真是温暖如春啊。回来就开始做正事了，还要准备去新加坡的手续和行李。 2026.2.14忘了还有这个楼的存在了。月记楼养成中… 新加坡是真好玩吧我说。站在亚洲大陆最南端的海边，看了我人生中最美的日落，此生难忘了。在内陆长大的人总会对海有种莫名的憧憬。新加坡动物园一进门有一片大草坪，有天黄昏躺了很久。一些本地或者菲律宾马来小孩在疯跑，抓拍了很多，生命力啊。热带地区7点多天还是亮的，天空深处是我遥远的梦。港，新，下一站会是北美吗？看B1/2签。长沙好吃，但也是真辣啊。每天就是吃几顿好的，喝点酒，辣和酒精一起刺激，胃痛，第二天起来好了又继续。感觉csc并没有比南京落后，城建感觉和南京上海的很多地方没啥区别。瞻仰了大名鼎鼎的——长郡中学。前天和初中同学聚会，感觉大家都...

Mlsys Learning

Created2026-01-29

挖个坑，记录一下寒假读的一些paper和入门mlsys的过程。关于os可见 xv6-learning，记录了我通过mit教学用的xv6操作系统学习操作系统的过程。 LLM LearningRAG理论提出在2020年之前，学术界已有将检索与生成结合的零星尝试，但尚未形成系统化的方法论。2020年，这一领域迎来了两个具有里程碑意义的工作：Facebook在论文Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks正式提出”RAG”概念并将其应用于知识密集型任务，同时Google的REALM通过在预训练阶段融入潜在知识检索器，显著提升了开放域问答的性能。 ChatGPT发布后，RAG研究更是进入了加速发展的黄金时期。在这个过程中，RAG技术逐渐从单一的检索-生成框架，演化为包含多跳推理、记忆增强和多模态等复杂功能的综合系统。 Naive RAG2020年10月，Meta团队在论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》中...

Explore RCompiler

Created2026-01-25

埋一个坑，有空整理一下自己在完成RCompiler和学习编译原理过程中学到的东西。况且下学期也选了高编，也可以往里面加后端和优化的内容。 CodegenRCompiler的Codegen部分主要是将LLVM IR转换为目标平台的机器码。这个过程涉及到指令选择、寄存器分配和指令调度等多个步骤。目前我正在实现最naive的codegen，也就是不涉及寄存器分配和指令调度的版本，把所有虚拟寄存器全部spill到栈上，直接将LLVM IR中的每条指令翻译成对应的机器指令。指令选择指令选择是将LLVM IR中的每条指令翻译成对应的机器指令的过程。由于LLVM IR是一种中间表示，它的指令集相对较小，而目标平台的指令集可能非常复杂，因此需要一个映射关系来将LLVM IR中的指令翻译成目标平台的机器指令。

Modern Cpp

Created2026-01-25

是从1.0版本移植过来的，但经过了gemini老师的润色和补充。 Modern C++ Overview: 从底层逻辑到语法糖前言：上机课偶遇 Modern C++，拼劲全力无法战胜？在习惯了 Java 的自动内存管理和 Python 的灵活后，C++ 的语法规则确实显得复杂（甚至有些诡异）。关于 C++ 的刻板印象 (Stereotypes): Old, out-dated, less-frequently used Unsafe (最大的痛点，内存泄露和越界) Hard to use & Various Compilation Issues 尽管如此，我们仍然需要学习 Modern C++，因为它在系统编程和高性能领域依然是无可替代的。 1. Value Types & Move Semantics (值类型与移动语义)左值 (lvalue) vs 右值 (rvalue) 左值 (lvalue)：表示占据内存中某个可识别位置（也就是一个地址）的对象。可以使用 & 取地址。右值 (rvalue)：与之相反，通常是临时对象，不可以使用 &am...

GPU Acceleration

Created2026-01-24

给25级xpy 伟大思想的pre，一天时间搓出来的，放到blog上留作纪念。也是第一次用vscode-marp 做ppt，终于摆脱office的阴间排版了。 marp: true theme: gaia footer: ‘JaneZ 2025-10-14’ paginate: true html: true style: | section a { font-size: 30px; }GPU AccelerationYihan Zhu @JaneZ ACM Class 2024 2025.10.14 Overview Basic Architecture of CPU, GPU, RAM, Cache GPU Architecture GPU Programming Case study: Matrix Multiplication on GPU What is a GPU? CPU (中央处理器) 拥有少量强大的核心 (Core)。具有复杂的控制单元 (Control) 和多级缓存 (L1, L2, L3 Cache)。擅长串行任务和复杂的控制逻辑。 What ...

Enjoy Your Assassyn

Created2026-01-23

笔者配置Assassyn环境的过程中遇到了一些问题，特此记录以备后续参考。特别感谢Coffish 添加了另一种解决assassyn编译产生大量文件占用过多内存空间问题的方案——限制make并行数首先贴上配置的具体流程：（值得注意的是，笔者在物理机上配置了Assassyn，不过Anyway还是贴上docker的配置流程好了） DockerIt is also recommended to use Docker to automatically manage the dependences. We decide to adopt a hybrid style of coding, tooling, and development, where this repo is located in your physical machine, while the execution is in the docker virtual machine (VM). Still, before doing anything, make sure you have this repo fully ...