vortezwohl

论文精读：LLMs Get Lost in Evolving User Intent

Aug 1, 2026
这篇论文研究的不是模型会不会做题，而是模型能否在多轮协作里持续跟住“用户现在真正想要什么”。作者没有重新手搓一个昂贵的多轮数据集，而是把已有单轮 benchmark 反向展开成可验证的 evolving-intent 对话：用户会逐步补条件、推翻旧条件，甚至中途切换任务。实验显示，许多在单轮上很强的模型，一旦进入这种动态协作环境就会明显“迷路”；最致命的并不是缺少上下文，而是任务切换后的信念状态更新失败。对工程实践来说，这篇论文最重要的启发不是再堆一点提示词，而是显式维护当前意图状态、把任务切换当成一级事件、用结构化 recap 替代被动回看整段 transcript，并建立专门覆盖 reveal、revision、switch 的多轮回归评测。全文的价值在于，它把“Agent 为什么老是越聊越偏”这件事，从抱怨变成了一个能系统构造、自动验证、稳定复现的问题。
深入模型剪枝与量化：LLM 原理、工程实践与代码实现

Jul 29, 2026
模型剪枝和量化都属于模型压缩，但回答的是两类不同的问题：剪枝要决定哪些权重、通道、注意力头或层可以删除；量化要决定如何以更少比特近似原有数值。大语言模型的真实部署不能只比较 checkpoint 从多少 GB 变成多少 GB，还要同时理解权重显存、KV Cache、预填充与逐 token 解码、目标硬件内核、并发、首 token 延迟、长上下文质量和安全能力。本文从矩阵乘法与浮点数表示出发，系统梳理非结构化、N:M 和结构化剪枝，PTQ、QAT、权重/激活/KV Cache 量化，并解释 GPTQ、AWQ、SmoothQuant、SparseGPT、Wanda、LLM-Pruner 的关键直觉。文中给出 PyTorch、Transformers + bitsandbytes 和 llama.cpp/GGUF 的操作代码，最后准备 55 个可继续追问的高频面试问答，帮助新手建立从原理到一线工程决策的完整框架。
贝尔曼方程：从递推直觉到强化学习算法

Jul 24, 2026
贝尔曼方程不是一条需要死记的公式，而是强化学习把“遥远未来的后果”变成可计算、可学习的局部更新的共同语言。本文面向熟悉程序设计、但数学基础较薄弱的读者，从状态、动作、奖励、回报和期望这些最小概念开始，解释为什么一个决策问题能写成“当前一步的奖励加上下一步的价值”，并区分固定策略下的贝尔曼期望方程与寻找最佳决策时的贝尔曼最优方程。文章用一个可手算的两阶段例子逐项展开概率、折扣和最大化，随后把方程映射到动态规划、蒙特卡洛、TD、SARSA、Q-learning 与 DQN 的训练目标，说明它们真正不同的是如何获得或近似右侧的目标值。最后给出程序实现时的符号对照、终止状态处理、探索与利用、函数逼近不稳定等常见坑，以及一条可执行的学习路线。读完后，读者应能看到任何价值型强化学习算法中的 target、TD error、critic loss 或 Bellman backup 时，准确说出它在估计什么、为何成立，以及它依赖哪些假设。
Toolformer 精读：从自监督工具调用到现代 Agent 的训练范式

Jul 24, 2026
Toolformer 不是简单地给语言模型接上搜索、计算器或翻译接口，而是提出了一种训练数据构造方法：先让基础语言模型根据少量格式示例，在真实文本中提出候选 API 调用；再真正执行这些调用；最后以“工具返回值是否使模型更容易预测原始文本的后续内容”为标准，自动筛掉没有帮助的调用。保留下来的调用被插回同一批预训练文本，模型再以普通因果语言模型目标微调，从而学习何时调用哪种工具、如何填写参数，以及如何把返回结果用于后续生成。本文从问题定义、符号、候选调用采样、带权交叉熵过滤、训练与推理流程逐步推导 Toolformer，并结合五种工具、零样本评测、解码策略、规模效应和消融实验解释论文证据。文章也明确划出结论边界：它依赖少量人工示例，不具备多工具链式规划、交互式搜索、调用成本建模、结构化参数校验或可靠的失败恢复；所谓“不损失通用能力”只是在特定困惑度评测上的有限证据。读完后，读者应能复述其核心目标函数，判断一条工具调用为何会被保留，并分辨 Toolformer 与今天函数调用、ReAct 和多步 Agent 系统之间的本质差异。
LLMLingua 深度调研：从困惑度压缩到长上下文、蒸馏分类与越狱意图提取

Jul 23, 2026
LLMLingua 不是单一的删词工具，而是一条持续演化的提示词压缩研究线：初代以小型因果语言模型的困惑度作为信息重要性近似，通过预算控制、示例筛选和迭代 token 压缩降低黑盒大模型的输入成本；LongLLMLingua 再将问题相关性、动态预算和文档重排加入长上下文 RAG，试图同时降低噪声与缓解 lost in the middle；LLMLingua-2 则以 GPT-4 蒸馏的抽取式数据训练双向编码器，把压缩改写为保留/删除分类问题；SecurityLingua 将同一机制转用于从越狱包装中抽取真实意图，并通过 system prompt 激活目标模型既有的安全护栏。本文逐篇对照论文和官方实现，解释其研究背景、数学目标、关键算法、代码路径、实验结果、可落地边界与尚未解决的局限。
港股窝轮（Warrant）与牛熊证（CBBC）交易教程

Jul 21, 2026
港股市场常见的窝轮（Derivative Warrant）和牛熊证（CBBC）都是由金融机构发行、可在交易所买卖的高杠杆结构性产品，而不是股票本身。窝轮本质接近期权：认购证押注上涨、认沽证押注下跌，其价格同时受标的方向、行使价、剩余期限、隐含波动率、换股比率与买卖价差影响；即使方向判断正确，也可能被时间价值损耗或波幅回落侵蚀。牛熊证更接近带融资的方向仓位，价格通常较贴近标的变动，但设有收回价，触及即发生强制收回，可能损失全部本金。本文从结算公式、定价因素、杠杆、下单方式、产品筛选到常见误区逐步说明，并强调：新手应先理解标的与风险上限、使用限价单和极小仓位，而不要把低单价误当成低风险。
期权衍生品如何影响现货价格：窝轮、牛熊证、期权墙与比特币永续合约

Jul 21, 2026
窝轮、牛熊证、交易所期权和比特币永续合约通常不会凭空决定现货价格；它们的影响来自发行人、做市商和高杠杆交易者为管理风险而产生的真实买卖。港股窝轮的 Delta 与 Gamma 对冲，可能让发行人在上涨时追买、下跌时减仓；牛熊证在收回价触发强制收回后，产品终止及对冲平仓可能放大关键价位附近的波动。所谓期权墙，是某行使价附近期权未平仓量和 Gamma 对冲可能集中的风险区，而非必然支撑或阻力。比特币永续合约没有行使价和到期日，资金费率、保证金及强平链条才是核心：拥挤的高杠杆多空可能在价格反向波动时被迫平仓，形成踩踏或挤压。本文用公式、例子与比较表说明四种机制，并强调新手应优先识别最大亏损与退出条件。
使用 LangGraph：用法与应用场景

Jul 16, 2026
基于 LangChain 官方 LangGraph 文档整理，回答三个问题：LangGraph 怎么用、适合什么场景，以及它和普通 ReAct Agent 到底是什么关系。
LangGraph 深度调研：从 Graph API、Pregel 执行引擎到 Checkpoint / Interrupt / Time Travel 的完整源码级理解

Jul 15, 2026
这篇文档的目标不是“带你快速上手 LangGraph”，而是把 LangGraph 彻底剖开：它解决什么问题、抽象边界在哪里、Graph API 和 Functional API 是如何落到同一套运行时上的、为什么它的核心不是 prompt 而是 runtime、为什么 checkpoint 不是可有可无的 memory、为什么 interrupt / resume / replay / time-travel 能成立，以及在真实工程里到底该怎么用、怎么避坑。
LLM Agent 设计架构综述：从 ReAct 与 Workflow 到规划、搜索、记忆、多 Agent 协作与场景选型

Jul 13, 2026
本文整理截至 2026 年 7 月 13 日可公开查证的学界研究与业界实践。它将 Workflow（包括线性形式 Pipeline）、单 Agent 与多 Agent 视为可组合的系统架构，重点讨论目标、状态、工具、反馈、验证和控制边界如何被组织。研究论文的实验结论通常受模型、工具、基准和成本约束，不能直接外推为生产结论。
公司估值方法论：从 PE/PB/PS 到招股书、财报与 A 股/港股/美股 IPO 分析框架

Jul 2, 2026
公司估值不是简单回答“这只股票贵不贵”，而是在判断一家企业未来能创造多少可持续回报，以及当前市场价格是否已经充分反映这些预期。PE、PB、PS 只是入口，不是答案；真正有效的估值，必须把商业模式、行业位置、盈利质量、现金流、资产质量、资本结构和增长持续性结合起来看。估值的意义，在于把“好公司”和“好价格”拆开分析，避免只看热度、故事或短期涨跌。IPO 场景下，估值尤其关键，因为投资者面对的不只是公司本身，还包括发行价、股本结构、配售机制、锁定期和市场情绪。A 股、港股、美股的发行规则、投资者结构和定价逻辑并不相同，因此同一家公司在不同市场里的估值中枢也可能不同。理解估值，本质上是在理解企业、理解预期，以及理解价格和价值之间的偏差。
Scrapling 深度调研：它为什么让爬虫从“东拼西凑”变成一套完整框架

Jun 23, 2026
Scrapling 不是单纯的 HTML 解析库，也不是单纯的浏览器自动化库。它试图把选择器解析、动态网页抓取、反反爬、并发 Spider、CLI 与 MCP 组合进一套统一接口里。本文面向爬虫小白，系统解释 Scrapling 的原理、创新点、适用场景，以及它和 Scrapy、Playwright、Crawl4AI、Firecrawl 的差别。
Codex + Blender 自动 3D 建模实践

Jun 19, 2026
如果你想让 Codex 直接控制 Blender 做 3D 建模，最简单的方式是接入 blender-mcp。整个流程并不复杂，本质上只有两部分：一部分是在 Blender 里安装 addon.py，另一部分是在 Codex 里配置 MCP server。两边都完成后，Codex 就可以直接读取场景、创建物体、修改模型。
美团 PosterCraft 海报生成方案调研：统一式高审美海报生成框架

Jun 18, 2026
PosterCraft 是一套面向高审美海报生成的统一式工作流。它以 FLUX.1-dev 为基座，通过文本渲染优化、区域感知微调、审美偏好优化和视觉语言反馈四个阶段，把“文字写准、构图像海报、风格有张力”这三件事放到同一条训练链路里解决。本文基于公开仓库、项目主页与 arXiv 论文，对其方法设计、数据集构造、代码实现、评测结果与复现门槛做完整拆解。
Web 原生 2D / 3D 图形引擎概览：Canvas、Phaser、three.js 与 three.js 生态

Jun 18, 2026
Web 原生图形开发并不存在一个“万能引擎”。Canvas 2D 是最底层、最稳定的 2D 绘图能力；Phaser 是建立在 Canvas / WebGL 之上的 2D 游戏框架；three.js 是面向 3D 场景和渲染的 JavaScript 库，而不是完整游戏引擎。本文基于官方文档、规范与项目主页，系统梳理三者的定位、原理、实践方式、社区生态、典型案例，以及 three.js 周边可作为 3D 游戏引擎或框架的代表性项目。
Blender 入门学习：从下载、建模到 Python 自动化的系统入门

Jun 18, 2026
这是一篇 Blender 入门文章。内容覆盖 Blender 的定位、免费与授权、安装下载、基础建模方法、常见导出格式选择，以及 Blender Python API 的学习路线。
深入拆解 World of ClaudeCraft —— 由 Claude Fable 5 自主实现的完整魔兽世界游戏

Jun 17, 2026
World of ClaudeCraft（WoCC）是一个开源的经典 MMO 风味微 MMO，全部使用 TypeScript 编写。它在浏览器中呈现实时 3D 多人游戏——包含 9 个职业、130+ 技能、怪物 AI、地下城、团本、竞技场、交易系统，以及完整的经典风格 UI——全部由单一权威 Node.js 服务器和 PostgreSQL 数据库支撑。它最厉害的设计在于：同一套确定性仿真核心同时驱动三种截然不同的运行上下文——在线多人（WebSocket 连接共享服务器）、离线模式（整个世界在浏览器内运行，无需服务器）、无头 RL 训练（仿真暴露为 Gym 风格环境，供 Python 训练强化学习代理）。
Canvas 2D 技术深度调研：规范、API 全景、开源生态与未来方向

Jun 17, 2026
Canvas 2D 是 Web 平台的核心图形技术，通过 JavaScript 操作 HTML 元素实现编程式 2D 绘制。该技术由 Apple 于 2004 年首创，后被纳入 HTML5 标准，自 2015 年起成为所有浏览器普遍支持的 Baseline 特性。核心设计哲学是即时模式（immediate-mode）渲染——每条绘制命令直接修改像素缓冲区，不保留场景图。这使 Canvas 天然适合像素级操作、实时动画、游戏循环和数据可视化，但不擅长 UI 密集型交互场景。本文不是一篇简单的 Canvas API 清单，而是一份把 Canvas 2D 的规范演进、完整 API 表面、状态与变换模型、像素管线、性能优化策略、OffscreenCanvas 架构、开源库生态、跨技术对比以及 WebGPU/HDR 等未来方向串联起来的系统调研。正文优先引用 WHATWG/HTML Living Standard、MDN Web Docs 和各开源项目的官方文档。