25 Fall
25 Fall Learning Record 25 Fall 开始,依托的RCompiler,混乱的Arch课程,两门😇的数学课,三节早八的物理课,TA 工作, 原来已经大二了😥 学期有些规划。 快让我润出去吧,每天都在幻想能不能直接跳过本科3年直接润美😇 大多数人都生活在平静的绝望中:欲言又止。 最优化有意思。 天热总是令人头痛,再喝可乐,就会变成可乐了。 Compiler 进展挺好,但是欠了一大堆物理课🤗 前天在水源上回了一个帖子:想听一下源友们对于生命结束的看法 JaneZ: 可以想一想自己还有什么想做的事情,还有怎样的风景没有看过,and all the crazy things! 如果全都没有了,那我想是时候开始 afterlife 了 对物理早八的怨气来到了一个新的高峰。 小失误会酿成大祸,差点就把主板烧了 看了coderaka的帖子,想想自己这一年又何尝不是这样呢,一点锐气都没有了。 国庆说走就走的港深之行,想去HK很久了,毕竟上一次去是15年前。10.3出发的,10.2订的机酒。往返都是MU,回来为了省钱前一天晚上到深圳,第二天中午从宝安飞浦...
JaneZ-Claw
错峰入了虾教,将不定期更新关于龙虾配置以及神秘skill的使用心得,欢迎各位虾教徒交流讨论。 JaneZ-Claw其实吧,应该是JaneA-Claw,毕竟JaneA的主人是JaneZ。 配置如大多数人一样,采用了阿里云服务器配置,首先你需要购买一台阿里云轻量应用服务器,应用镜像设置为openclaw,选择一年的使用期限,由于我错过了入教的黄金时间,价格已由68rmb/Y上调到79rmb/Y,白花11rmb,感觉如果想配还是尽早配,毕竟价格大概还会继续上涨。 接下来的操作都非常傻瓜,你需要等待1-5分钟,直到服务器部署完成,然后一键连通,选择你的API,填入API key,然后就可以获取你的网页端地址了,打开它,你就可以看到xxx-Claw的界面了。 API 购买本人最近购买了多种不同类型模型的API,包括文本生成模型、图像生成模型和多模态模型,价格从几十到几百不等。由于本人目前对图像生成和多模态模型孰优孰劣还心存疑虑(真神是nano banana pro,但买不起,以及这里穿插一则趣事,lz在使用nano banana pro创作时,众所周知得到的图片会有水印...
26-Spring
1How are you gonna be a revolutionary if you’re such a traditionalist? 我最喜欢的电影LaLaLand中的一句台词,希望这学期能够更勇敢地尝试,跳出常规。 26 Spring Record0 觉得这个record还是有存在的必要,就写一写吧。 1 可以预料这个学期的os又将是一坨,想选track1,完全手搓一个结合了page attention和radix attention的os kernel 有意思,但这真是一件有意义的事情吗?如果手搓kernel更好为什么还有vllm和sglang,不懂啊不是很了解。track2确实简单一些,通过rcore也可以学到一些os的基础知识,感觉也挺好,搞不懂了。upd: 最后还是选了track2,少给自己添糟心事吧😆 这学期开始了跑步健身,感觉颇有成效。周末和学妹吃滨。下周末去看F1!清明估计会回南京,手机摄像头外壳碎了,上海苹果直营店真远。感觉还要抽个周末回南京办个签证。 2 去看上赛应该算是入坑F1一周年了。我真蠢,以为清明前大概不会用到相机了于是把Z30丢家里了,感...
Paper Reading 1
Paper Reading RecordANT: Exploiting Adaptive Numerical Data Type for Low-bit Deep Neural Network Quantization (MICRO 2022)核心目标:在保持模型精度的前提下,把 DNN 量化做到 4-bit,同时硬件代价极小。 量化的想法:把“高精度浮点数”变成“低精度整数” 比如深度神经网络里有:权重(weights)、激活值(activations),这些默认都是:FP32(32位浮点数)。问题是:占内存大、计算慢、功耗高、带宽压力大。 ANT 用“固定长度的自适应数值类型”同时利用张量间和张量内的分布差异,在几乎零硬件代价下实现 4-bit 量化。 OliVe: Accelerating Large Language Models via Hardware-friendly Outlier-Victim Pair Quantization (ISCA 2023)核心目标:如何在保证精度的情况下,把大模型(LLM)量化到 4-bit,并且还能高效地在硬件上运行? 量化是最有...
xv6 Learning
一份我学习 mit 6.s081 操作系统课程时的笔记,gitbook链接 xv6 Learning操作系统接口操作系统的四大职能 资源共享:在多个程序间分配计算机资源。 硬件抽象:提供比底层硬件更易用的服务(如 Word 无需关心硬盘型号)。 多路复用:让多个程序看起来在同时运行。 受控交互:管理程序间的数据共享与协作。 我的理解是一种“中介”角色,操作系统在硬件和应用程序之间提供一个抽象层,使得应用程序可以更方便地使用硬件资源,而不需要直接与硬件打交道。 内核与系统调用 内核 (Kernel):向运行程序提供服务的特殊程序。 进程 (Process):运行中的程序,拥有独立的指令、数据和栈空间。 硬件保护机制:内核拥有硬件特权,而用户进程没有。 系统调用 (System Call): 用户进程请求内核服务的唯一接口。 执行时硬件特权级提升,进入内核,完成后返回用户空间。 shell ——system call——> kernel 进程总是在用户空间和内核空间之间交替运行。 核心机制详解 A. 进程管理 (Process & Mem...
26 Winter
这是一个寒假日记楼。 2026.1.296点起来逛吉林的早市,发现啥都没有,于是回酒店睡到11点,然后就退房去龙嘉机场了。孩子人生第一次坐九元,为了省托运钱把相机直接带上飞机了(事实上只省了15)。感觉已经彻底爱上滑雪了,鼠鼠我属于那种又菜胆子又小但瘾特别大的,打算每年雪季都去滑几次,平常还可以在耀雪练练。南京真是温暖如春啊。回来就开始做正事了,还要准备去新加坡的手续和行李。 2026.2.14忘了还有这个楼的存在了。月记楼养成中… 新加坡是真好玩吧我说。站在亚洲大陆最南端的海边,看了我人生中最美的日落,此生难忘了。在内陆长大的人总会对海有种莫名的憧憬。新加坡动物园一进门有一片大草坪,有天黄昏躺了很久。一些本地或者菲律宾马来小孩在疯跑,抓拍了很多,生命力啊。热带地区7点多天还是亮的,天空深处是我遥远的梦。 港,新,下一站会是北美吗?看B1/2签。 长沙好吃,但也是真辣啊。每天就是吃几顿好的,喝点酒,辣和酒精一起刺激,胃痛,第二天起来好了又继续。感觉csc并没有比南京落后,城建感觉和南京上海的很多地方没啥区别。瞻仰了大名鼎鼎的——长郡中学。 前天和初中同学聚会,感觉大家都...
Mlsys Learning
挖个坑,记录一下寒假读的一些paper和入门mlsys的过程。 关于os可见 xv6-learning,记录了我通过mit教学用的xv6操作系统学习操作系统的过程。 LLM LearningRAG理论提出在2020年之前,学术界已有将检索与生成结合的零星尝试,但尚未形成系统化的方法论。2020年,这一领域迎来了两个具有里程碑意义的工作:Facebook在论文Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks正式提出”RAG”概念并将其应用于知识密集型任务,同时Google的REALM通过在预训练阶段融入潜在知识检索器,显著提升了开放域问答的性能。 ChatGPT发布后,RAG研究更是进入了加速发展的黄金时期。在这个过程中,RAG技术逐渐从单一的检索-生成框架,演化为包含多跳推理、记忆增强和多模态等复杂功能的综合系统。 Naive RAG2020年10月,Meta团队在论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》中...
Explore RCompiler
埋一个坑,有空整理一下自己在完成RCompiler和学习编译原理过程中学到的东西。况且下学期也选了高编,也可以往里面加后端和优化的内容。 CodegenRCompiler的Codegen部分主要是将LLVM IR转换为目标平台的机器码。这个过程涉及到指令选择、寄存器分配和指令调度等多个步骤。目前我正在实现最naive的codegen,也就是不涉及寄存器分配和指令调度的版本,把所有虚拟寄存器全部spill到栈上,直接将LLVM IR中的每条指令翻译成对应的机器指令。 指令选择指令选择是将LLVM IR中的每条指令翻译成对应的机器指令的过程。由于LLVM IR是一种中间表示,它的指令集相对较小,而目标平台的指令集可能非常复杂,因此需要一个映射关系来将LLVM IR中的指令翻译成目标平台的机器指令。
Modern Cpp
是从1.0版本移植过来的,但经过了gemini老师的润色和补充。 Modern C++ Overview: 从底层逻辑到语法糖 前言:上机课偶遇 Modern C++,拼劲全力无法战胜?在习惯了 Java 的自动内存管理和 Python 的灵活后,C++ 的语法规则确实显得复杂(甚至有些诡异)。 关于 C++ 的刻板印象 (Stereotypes): Old, out-dated, less-frequently used Unsafe (最大的痛点,内存泄露和越界) Hard to use & Various Compilation Issues 尽管如此,我们仍然需要学习 Modern C++,因为它在系统编程和高性能领域依然是无可替代的。 1. Value Types & Move Semantics (值类型与移动语义)左值 (lvalue) vs 右值 (rvalue) 左值 (lvalue):表示占据内存中某个可识别位置(也就是一个地址)的对象。可以使用 & 取地址。 右值 (rvalue):与之相反,通常是临时对象,不可以使用 &am...
GPU Acceleration
给25级xpy 伟大思想的pre,一天时间搓出来的,放到blog上留作纪念。 也是第一次用vscode-marp 做ppt,终于摆脱office的阴间排版了。 marp: true theme: gaia footer: ‘JaneZ 2025-10-14’ paginate: true html: true style: | section a { font-size: 30px; }GPU AccelerationYihan Zhu @JaneZ ACM Class 2024 2025.10.14 Overview Basic Architecture of CPU, GPU, RAM, Cache GPU Architecture GPU Programming Case study: Matrix Multiplication on GPU What is a GPU? CPU (中央处理器) 拥有少量强大的核心 (Core)。 具有复杂的控制单元 (Control) 和多级缓存 (L1, L2, L3 Cache)。 擅长串行任务和复杂的控制逻辑。 What ...
