2026 monthly harvest cover

一、LLM 与 AI 工作流:可信输出来自系统工程,不来自模型自觉正确

1. 大模型面对矛盾语料时,不是消灭矛盾,而是学会输出更受偏好的路径

LLM 训练数据中有大量相互冲突的信息,模型本身没有内置真理判别器。输出质量来自系统工程:预训练前的数据清洗和来源加权,让高质量语料密度更高;SFT 用专家问答和推理过程塑造回答范式;RLHF 或 DPO 用人类偏好奖励事实准确、逻辑严密、不自相矛盾的输出;代码、数学和思维链训练加强逻辑约束。模型并没有把世界中的矛盾统一解决,只是在参数空间中强化更符合主流证据和人类偏好的激活路径。细分领域、低密度知识和未覆盖矛盾仍会暴露幻觉,所以严肃场景必须做外部事实核验。

2. Claude Code 与 Codex/Copilot 应分工:一个管项目,一个管心流

论文写作和代码研究中,Claude Code 更适合做项目级任务:跨文件读取、章节重构、编译排错、文献和数据目录检查、Git 操作和批量修改。Codex 或 Copilot 更适合在 VS Code 中做编辑器内补全:补句子、补公式、补 LaTeX、补短代码、做局部润色。两者的上下文同步应依靠项目文件,而不是聊天记忆:根目录放 project_rules.md、术语表、写作规范、审稿偏好和数据说明;Claude Code 显式读取规则文件,编辑器内联模型通过打开的规则文件获得上下文。宏观架构和微观心流分开,AI 协作才不会互相覆盖。

3. VS Code 智能体窗口把 Claude Code 从终端任务变成可审查任务

新的智能体窗口的关键价值不是多一个聊天框,而是会话管理、独立 worktree、Plan 模式、diff 审查和跨工作区任务聚合。复杂论文或代码改动可以在独立工作树中执行,不污染当前目录;Plan 模式先生成 Markdown 执行计划,用户可以行内批注,再允许修改;任务结束后用统一 diff 合并。终端 Claude Code 适合快速命令和局部排错,VS Code 智能体窗口适合长流程、可视化审查和多文件合并。AI 从“在当前目录直接动手”变成“在隔离环境提出计划、执行、交付差异”。

4. AIGC 使用披露要写清辅助范围和作者责任

中文论文投稿中的 AIGC 披露,应把工具使用限定清楚:文字语法修正、表述润色、代码排错、格式检查等辅助工作可以写;研究假设、实验设计、数据分析、结果解释、核心创新和最终结论由作者负责。声明中要说明作者对 AI 建议进行了人工审查、修改和确认,AI 不作为合著者,所有作者对准确性、真实性和原创性承担责任。披露文件的重点不是显得先进,而是切断“AI 代替学术判断”的风险。

二、硬件与工具维护:容量、带宽、散热和更新方式要分开判断

1. V100 16GB 与 2080 Ti 22GB 的取舍是速度和能否跑通的取舍

V100 的 HBM2 带宽高,FP16 推理生成速度更快,长期满载稳定性更强;2080 Ti 魔改 22GB 的优势是显存容量大,能塞下 V100 16GB 跑不通的 7B/多模态/OCR 满血任务。两者都属于旧架构,vLLM 可运行但缺少新一代 FlashAttention 和 BF16 支持,长上下文和新模型兼容性都有折扣。模型和 KV Cache 能塞进 16GB 时,V100 更快;塞不进时,速度归零,2080 Ti 22GB 才有意义。推理硬件先看显存能否容纳,再看带宽和算力。

2. 4090 机器上,9900X 与 9950X 的差异主要出现在多核 CPU 任务

本地大模型推理在单卡 4090 上主要受 GPU 张量核心、显存容量和显存带宽限制,9900X 与 9950X 的 tokens/s 差异很小。日常办公几乎无感。视频剪辑中,如果使用 GPU 解码、调色和 NVENC,CPU 只承担调度和部分 I/O,差异有限。Python、MATLAB 和文本处理若能充分多进程,9950X 的 16 核会比 9900X 更快;若算法单线程、内存敏感或主要调用 GPU,提升有限。9950X 的额外价值是并行吞吐,不是所有任务都更顺手;散热上也要给 16 核持续满载预留更高冗余。

3. VS Code 升级问题通常是安装方式问题,不是软件本身必须手工覆盖

VS Code 正常应由内置更新或系统包管理器接管。macOS 上应用应放在 /Applications,否则可能受安全隔离影响;Windows 应优先使用安装版或 winget,不要反复下载 zip 解压覆盖;Ubuntu 应接入官方源后随 APT 更新。Windows zip 包如果下载后没有解除网络标记,解压出的 .exe.dll 会继承 Mark of the Web,导致每次升级后都要手工解除限制。解决方式不是关闭系统安全机制,而是停止用 zip 手动覆盖,改用安装包或包管理器。

三、学术发表与出版:渠道价值不同,不能混用评价标准

1. ABS/AJG 期刊不是都要付费,传统订阅模式通常可免费发表

ABS/AJG 2、3、4 星期刊中大量是 hybrid journals。作者录用后通常可以选择 traditional/subscription 模式,读者通过机构订阅访问,作者不支付 APC;也可以选择 Gold OA,作者支付高额开放获取费用。想免费发表,关键是确认期刊不是 Gold OA only,并在出版协议中选择传统订阅模式。少数期刊可能有投稿费、超页费或彩图费,但这与 OA APC 不是同一类费用。投稿前要查 author guidelines、APC 页面和 open access options,不能把高星级、开放获取和付费发表直接画等号。

2. Research Policy 的门槛在理论贡献、方法贡献和问题高度

Research Policy 之所以重要,不只是分区或评级高,而是它要求研究对创新、科技政策、技术管理或科学学问题有实质推进。纯数据拼接、热门模型套用和中国情境描述不够,必须在理论、机制、方法或政策理解上有可迁移贡献。它的审稿周期和修改强度通常较高,审稿意见会逼迫作者解释为什么这个问题重要、为什么数据能回答问题、为什么方法不是装饰、为什么结果对全球研究有意义。能进入这类期刊,说明研究不只是完成一个实证任务,而是在国际知识体系中占了一个可讨论的位置。

3. KDP 适合快速传播,不适合替代正式学术出版

Kindle Direct Publishing 是亚马逊自助出版平台,可以发布电子书和按需印刷实体书。优点是前置成本低、效率高、作者自主权大、全球可售,适合技术手册、课程辅助材料、研究框架、个人知识产品和快速迭代内容。局限也明确:缺乏同行评审和传统出版社背书,在国内科研评价、职称、项目结项和正式学术专著认定中的权重很低。KDP 是传播渠道,不是学术认证机制。若目标是快速让内容被读到,它有价值;若目标是体制内学术成果认定,仍需传统学术出版。

四、内容分发与技术分析:信息要能被订阅,也要能被发现

1. 播客的技术核心是 RSS:中心托管,去中心分发

播客上架小宇宙、Apple Podcasts、Pocket Casts、Spotify 等平台,本质不是每个平台重复上传文件,而是先选一个 hosting 平台存放音频、封面和节目元数据,由托管平台生成 RSS Feed。首次提交时,把 RSS 链接登记到各平台;之后只需在托管平台发布新音频,各客户端会定期抓取更新。准备工作包括首期 MP3 或预告、正方形封面、节目名、简介和作者信息。播客分发的稳定性来自 RSS 链接,平台只是订阅入口。

2. 独立博客不是自传播平台,长期流量来自搜索和链接网络

独立博客没有视频平台那种中心化推荐引擎,发布后不会自然获得推送流量。它的传播像引文网络:搜索引擎索引、其他网站反链、邮件通讯、RSS 订阅、社区引用和读者主动分享。博客的筛选机制是慢共识,不是即时算法;优质内容通过长尾搜索和权威链接沉淀权重。视频平台是注意力租赁,流量可以靠投放换来;博客是数字资产,成本主要是高信息密度、结构化写作、长期更新和外部链接建设。博客不负责帮内容爆红,它负责让内容长期可访问、可引用、可检索。

3. 技术三元组作为 embedding 输入,是给文本脱水

原始摘要为人类阅读而写,包含背景、修辞、过渡和词汇通胀;技术三元组把文本压成实体、关系、实体或功能结构,只保留技术主干。将三元组作为 embedding 输入,可以减少冗余叙述和夸张词对向量空间的污染,使相似度更接近技术关系本身。这个方法不是说摘要无用,而是说向量化前最好先把“宣传语言”和“核心机制”分离。技术分析中,输入形态决定向量含义;把水分带入 embedding,后续聚类和检索都会被水分牵引。

4. 专利文本适合领域内精筛,专利附图适合跨领域结构扫描

“Text excels intra-domain; vision excels inter-domain”的含义是:同一领域内共享术语体系,文本检索和 NLP 更适合精细筛选;跨领域时,术语壁垒会让文本失效,而附图中的结构、连接关系和形态更可能暴露相似物理方案。专利附图可被视为一种 honest signal,因为充分公开要求使它不能像权利要求文本那样过度策略化模糊。文本可能隐藏结构真相,图像反而泄露底层结构。若再按 assignee diversity 筛选,就能发现常规竞品监控看不到的交叉许可、战略联盟或收购线索。文本负责圈定领域,视觉负责穿透领域。

5. 多个 docx 合并要先看数量、格式和保密要求

少量 Word 文档合并,最稳的是 Word 内置“插入文件中的文字”,并提前用 0102 这样的文件名控制顺序。大量文档可用 docxcompose 自动合并,第一份作为主文档,后续文档 append。在线合并工具方便,但不适合含有隐私、审稿、合同或未公开研究内容的文件。合并前要统一样式、标题级别、页眉页脚和编号规则,否则自动目录、交叉引用和段落格式会互相污染。Word 合并不是把文件拼接,而是把多个样式系统放进同一个容器。

Avatar photo