Long Context Processing in LLM
深入解析大语言模型(LLM)长文本处理技术bg: lz 昨天让codex读了os大作业chaos中kernel.rs长达6400行的代码,观察到llm在推理过程中首先采用将这6400多行代码分成20多个300行的代码块进行处理,于是对大模型处理长文本、超长文本问题产生了好奇,遂学习了一下。其实只是读paper的时候突然走神了() claim: 现在对长文本处理的技术应该很多,这里放的是一些我对长文本处理优化的idea,然后碰巧发现都有一些实现。一、 核心痛点:为什么处理长文本那么难?大语言模型主要基于 Transformer 架构,其核心的“自注意力机制(Self-Attention)”存在两个致命的物理瓶颈: 计算复杂度爆炸: 注意力机制的计算量与文本长度 $N$ 呈平方级增长,即 $O(N^2)$。长度增加 10 倍,算力需求增加 100 倍。 内存墙(Memory Wall): GPU 的计算核心算力极强,但全局显存(HBM)的读写速度很慢。标准计算过程需要频繁读写庞大的中间结果矩阵,导致时间全浪费在“搬运数据”上。 迷失在中间(Lost in the Middle): ...
OS-5:CPU Scheduling
操作系统深度学习笔记:CPU 调度 (Chapter 5)1. 核心概念与分派机制CPU-I/O 爆发周期 (Burst Cycle)进程的执行并非一直占用 CPU,而是由 CPU 爆发 (CPU burst) 和 I/O 爆发 (I/O burst) 交替组成。通过对大量进程的统计发现:系统中存在海量的短 CPU 爆发进程,和极少量的长 CPU 爆发进程。这一分布规律是设计调度算法的重要依据。 分派器与分派延迟 (Dispatcher & Dispatch Latency)分派器是实际执行“切换”动作的模块。分派延迟是指停止一个进程并启动另一个进程所需的时间。在要求严格的系统中,分派延迟中的冲突阶段 (Conflict phase) 是主要瓶颈,它包括两步: 抢占在内核模式下运行的任何进程。 低优先级进程释放高优先级进程所需的系统资源。 2. 核心调度算法深度解析FCFS (先来先服务) 痛点:护送效应 (Convoy effect)。如果一个 CPU 密集型的长进程排在前面,后面一群 I/O 密集型的短进程只能被迫长时间等...
LaTeX-Tutorial
lz时隔大半年重新拾起LaTeX写算法作业,发现符号忘的稀碎,于是特出此tutorial,记录一些常用的LaTeX数学符号和环境,方便以后查阅。 LaTeX Tutorial1. 基础语法1.1 文档结构1234567\documentclass{article} % 文档类型\usepackage{amsmath} % 数学包\usepackage{amssymb} % 数学符号包\begin{document}% 文档内容\end{document} 1.2 文本格式1234\textbf{粗体} % 粗体\textit{斜体} % 斜体\underline{下划线} % 下划线\texttt{等宽字体} % 打字机字体 2. 数学模式2.1 行内公式与行间公式1234行内公式: $E = mc^2$行间公式: $$...
JaneZ-Claw
错峰入了虾教,将不定期更新关于龙虾配置以及神秘skill的使用心得,欢迎各位虾教徒交流讨论。 JaneZ-Claw其实吧,应该是JaneA-Claw,毕竟JaneA的主人是JaneZ。 配置如大多数人一样,采用了阿里云服务器配置,首先你需要购买一台阿里云轻量应用服务器,应用镜像设置为openclaw,选择一年的使用期限,由于我错过了入教的黄金时间,价格已由68rmb/Y上调到79rmb/Y,白花11rmb,感觉如果想配还是尽早配,毕竟价格大概还会继续上涨。 接下来的操作都非常傻瓜,你需要等待1-5分钟,直到服务器部署完成,然后一键连通,选择你的API,填入API key,然后就可以获取你的网页端地址了,打开它,你就可以看到xxx-Claw的界面了。 API 购买本人最近购买了多种不同类型模型的API,包括文本生成模型、图像生成模型和多模态模型,价格从几十到几百不等。由于本人目前对图像生成和多模态模型孰优孰劣还心存疑虑(真神是nano banana pro,但买不起,以及这里穿插一则趣事,lz在使用nano banana pro创作时,众所周知得到的图片会有水印...
26-Spring
1How are you gonna be a revolutionary if you’re such a traditionalist? 我最喜欢的电影LaLaLand中的一句台词,希望这学期能够更勇敢地尝试,跳出常规。 26 Spring Record0 觉得这个record还是有存在的必要,就写一写吧。 1 可以预料这个学期的os又将是一坨,想选track1,完全手搓一个结合了page attention和radix attention的os kernel 有意思,但这真是一件有意义的事情吗?如果手搓kernel更好为什么还有vllm和sglang,不懂啊不是很了解。track2确实简单一些,通过rcore也可以学到一些os的基础知识,感觉也挺好,搞不懂了。upd: 最后还是选了track2,少给自己添糟心事吧😆 这学期开始了跑步健身,感觉颇有成效。周末和学妹吃滨。下周末去看F1!清明估计会回南京,手机摄像头外壳碎了,上海苹果直营店真远。感觉还要抽个周末回南京办个签证。 2 去看上赛应该算是入坑F1一周年了。我真蠢,以为清明前大概不会用到相机了于是把Z30丢家里了,感...
26 Winter
这是一个寒假日记楼。 2026.1.296点起来逛吉林的早市,发现啥都没有,于是回酒店睡到11点,然后就退房去龙嘉机场了。孩子人生第一次坐九元,为了省托运钱把相机直接带上飞机了(事实上只省了15)。感觉已经彻底爱上滑雪了,鼠鼠我属于那种又菜胆子又小但瘾特别大的,打算每年雪季都去滑几次,平常还可以在耀雪练练。南京真是温暖如春啊。回来就开始做正事了,还要准备去新加坡的手续和行李。 2026.2.14忘了还有这个楼的存在了。月记楼养成中… 新加坡是真好玩吧我说。站在亚洲大陆最南端的海边,看了我人生中最美的日落,此生难忘了。在内陆长大的人总会对海有种莫名的憧憬。新加坡动物园一进门有一片大草坪,有天黄昏躺了很久。一些本地或者菲律宾马来小孩在疯跑,抓拍了很多,生命力啊。热带地区7点多天还是亮的,天空深处是我遥远的梦。 港,新,下一站会是北美吗?看B1/2签。 长沙好吃,但也是真辣啊。每天就是吃几顿好的,喝点酒,辣和酒精一起刺激,胃痛,第二天起来好了又继续。感觉csc并没有比南京落后,城建感觉和南京上海的很多地方没啥区别。瞻仰了大名鼎鼎的——长郡中学。 前天和初中同学聚会,感觉大家都...
Mlsys Learning
挖个坑,记录一下寒假读的一些paper和入门mlsys的过程。 关于os学习了rCore LLM LearningRAG理论提出在2020年之前,学术界已有将检索与生成结合的零星尝试,但尚未形成系统化的方法论。2020年,这一领域迎来了两个具有里程碑意义的工作:Facebook在论文Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks正式提出”RAG”概念并将其应用于知识密集型任务,同时Google的REALM通过在预训练阶段融入潜在知识检索器,显著提升了开放域问答的性能。 ChatGPT发布后,RAG研究更是进入了加速发展的黄金时期。在这个过程中,RAG技术逐渐从单一的检索-生成框架,演化为包含多跳推理、记忆增强和多模态等复杂功能的综合系统。 Naive RAG2020年10月,Meta团队在论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》中首次定义Naive RAG架构,确立了”索引-检索-生成”三阶段流程: 索...
Explore RCompiler
埋一个坑,有空整理一下自己在完成RCompiler和学习编译原理过程中学到的东西。况且下学期也选了高编,也可以往里面加后端和优化的内容。 Codegen实现:不做任何寄存器分配,所有东西都spill 到栈上,每次需要操作时,把变量从栈上load 到寄存器里,操作完了再store回去。但这样会造成大量的load和store指令,性能很差。 一些可能的雷点: 能容纳函数参数的寄存器数量有限,只有a0-a7 8个寄存器,参数大于8时需要spill到栈上;m-extension 指令注意符号拓展;指针解引用时的load store操作;reimu模拟器栈内存默认是32K,很多点需要认为调大栈内存,亲测4096K差不多了;函数返回值是数组或结构体时需要最后将返回值写入a0寄存器;phi指令在ASM中时不存在的,需要人为拆解,一个简单的想法是,每次处理IR Br指令时,前瞻一下跳转到的块内有没有phi指令,如果有,就把phi指令的结果先spill 到栈上保存下来,因为ASM无法记录你是从哪个块跳转过来的。 Register AllocationTBD
Modern Cpp
是从1.0版本移植过来的,但经过了gemini老师的润色和补充。 Modern C++ Overview: 从底层逻辑到语法糖 前言:上机课偶遇 Modern C++,拼劲全力无法战胜?在习惯了 Java 的自动内存管理和 Python 的灵活后,C++ 的语法规则确实显得复杂(甚至有些诡异)。 关于 C++ 的刻板印象 (Stereotypes): Old, out-dated, less-frequently used Unsafe (最大的痛点,内存泄露和越界) Hard to use & Various Compilation Issues 尽管如此,我们仍然需要学习 Modern C++,因为它在系统编程和高性能领域依然是无可替代的。 1. Value Types & Move Semantics (值类型与移动语义)左值 (lvalue) vs 右值 (rvalue) 左值 (lvalue):表示占据内存中某个可识别位置(也就是一个地址)的对象。可以使用 & 取地址。 右值 (rvalue):与之相反,通常是临时对象,不可以使用 &am...
25 Fall
25 Fall Learning Record 25 Fall 开始,依托的RCompiler,混乱的Arch课程,两门😇的数学课,三节早八的物理课,TA 工作, 原来已经大二了😥 学期有些规划。 快让我润出去吧,每天都在幻想能不能直接跳过本科3年直接润美😇 大多数人都生活在平静的绝望中:欲言又止。 最优化有意思。 天热总是令人头痛,再喝可乐,就会变成可乐了。 Compiler 进展挺好,但是欠了一大堆物理课🤗 前天在水源上回了一个帖子:想听一下源友们对于生命结束的看法 JaneZ: 可以想一想自己还有什么想做的事情,还有怎样的风景没有看过,and all the crazy things! 如果全都没有了,那我想是时候开始 afterlife 了 对物理早八的怨气来到了一个新的高峰。 小失误会酿成大祸,差点就把主板烧了 看了coderaka的帖子,想想自己这一年又何尝不是这样呢,一点锐气都没有了。 国庆说走就走的港深之行,想去HK很久了,毕竟上一次去是15年前。10.3出发的,10.2订的机酒。往返都是MU,回来为了省钱前一天晚上到深圳,第二天中午从宝安飞浦...
