2026 年 1 月收获

一、AI 工具与论文工程：把大模型放进可复用流程

1. 多 Agent 咨询报告不是多放几个角色，而是补齐论证环节

咨询报告型多 Agent 系统中，企业方、政策方、技术专家、财务顾问、环境评估只能覆盖部分维度。更完整的架构要增加法律合规、市场竞争、风险控制、供应链、人力组织、数字化转型等职能角色，也要增加不直接生产内容的元角色：主持人负责冲突仲裁、节奏推进和观点收敛，红队负责攻击逻辑漏洞和证据薄弱处。系统不要把角色做成静态摆设，而要按项目类型动态加载角色池。例如面向跨境数据项目，法律合规和市场准入权重上升；面向工程建设项目，供应链、环保和风险控制权重上升。多 Agent 的价值不是“热闹讨论”，而是把报告中的利益相关方、证据链、反证、风险和决策建议拆成可检查的结构。

2. AI 生成界面趋同，是概率平均、技术栈约束和可运行性共同造成的

Claude Code 等工具生成的网页常常像同一个模板：灰色字体、蓝色按钮、圆角卡片、侧栏导航、Tailwind 风格。这不是模型没有见过其他设计，而是模型在“能运行、少出错、代码短、依赖少”的约束下自然收敛到最大公约数。Tailwind 把样式压进原子类，适合线性文本生成；shadcn/ui 一类组件结构模块化，适合拼装；系统提示词又常常要求干净、现代、可访问。要打破这种默认审美，不能只说“做得特别一点”，必须显式指定流派、年代、布局禁忌、颜色逻辑和技术限制，甚至明确禁止常见组件库。默认概率不会自动产生设计个性，个性需要被写成强约束。

3. 终端 AI 编程工具要按模型锁定、上下文、权限和生态选择

OpenCode、Claude Code、Gemini CLI 不是同一种工具换名字。OpenCode 的核心优势是供应商无关，可以切换不同模型，也可以接本地模型；Claude Code 的优势是与 Claude 模型深度适配，复杂代码修改、权限控制和交互式 diff 更稳；Gemini CLI 的优势是大上下文和 Google 生态。选择时不要先问哪个“更强”，而要先问任务：复杂重构优先稳定工具调用和代码正确率，超大仓库阅读优先上下文窗口，多模型比较和成本控制优先供应商无关，本地隐私任务优先 Ollama 或可接本地模型的工具。AI CLI 的本质不是聊天入口，而是一个能读文件、执行命令、修改项目、管理上下文的工程代理。

4. 完整论文写作应按 Paper-as-Code 管理

AI 帮助写完整论文，不能停留在网页聊天框里。论文应被组织成工程项目：main.tex 或 main.md 作为入口，章节文件、图表、数据、参考文献、模板论文、写作规范、术语表和审稿偏好都放入可版本控制的目录。Claude Code 或类似工具负责跨文件读取、结构重构、编译排错、引用检查和大段生成；个人经验通过注释、规则文件、模板库和任务清单介入；BibTeX、Zotero、PDF、实验数据通过 MCP 或本地脚本暴露给模型。关键不是让 AI 一次写出全文，而是让它在同一项目语境中反复执行：读规则、查数据、写一段、编译、对照前文、修订、提交版本。论文的可复用性来自目录结构、规则文件和迁移脚本，不来自某次对话的临场发挥。

5. 课堂中的 AI 编程展示应从知识讲授转为产品迭代

用 Claude Code 现场完成技术分析产品制造，课程结构会从“理论讲解后做练习”变成“讲一个概念，立刻把概念变成可运行功能”。例如数据基础对应行情数据中心，趋势线对应交互式图表，形态识别对应信号标注，指标知识对应可勾选仪表盘，交易系统对应回测引擎。课堂参与者提出的“能否看实时数据”“能否增加成交量条件”“金叉是否真的有效”等问题，不再是插话，而是产品需求。教师的任务变成控制功能迭代的方向：每个新功能必须回扣当前知识点，不能让现场编程变成纯工具演示。这样课程的吸引力来自“输入会改变系统”，但知识主线仍由教师控制。

二、技术识别与弱信号：从主题统计走向结构和边界

1. 弱信号识别不能只看主题频率，要看语义运动和跨源共振

新兴技术早期往往文档量小、术语不稳定、分布边缘化，只用主题热度会把它当成噪声。更有效的框架是把专利、论文、新闻等多源文本映射到统一语义空间，按时间切片观察主题中心的速度、加速度和漂移方向；再计算不同来源之间是否在同一时间窗口出现语义对齐。单一数据源的微弱波动很可能是噪声，多源数据同时在相近语义区域发生轻微但同步的移动，才更像有效弱信号。BERTopic 中的 outlier 也不能直接丢弃，弱信号常常就藏在主流主题边缘，需要二次聚类、距离测量和轨迹可视化。

2. 技术范围可以用 CPC 定义和 OC-SVM 构造语义包络面

CPC 文本代表专家共识下的规范性技术分类知识，可以作为“标准技术语义”的锚点。把 CPC 定义文本向量化后，用 One-Class SVM 学习其最小体积边界，本质是在语义空间中构造现行分类体系的 semantic envelope。边界内表示符合当前分类定义的常规技术区域，边界外表示偏离规范分类的语义点。这个方法的合理性来自三点：CPC 是规范知识，OC-SVM 适合只用正类样本学习边界，RBF 核可以把离散定义泛化成连续语义场。技术空白要分两类：圈外专利表示分类外的新组合或跨界偏离，圈内稀疏区域表示分类定义存在但现实专利落地不足。两者含义不同，不能混写。

3. One-Class SVM 的价值在于学边界，不在于分类万能

One-Class SVM 只使用正常样本学习边界，适合故障、入侵、技术范围、异常点等负样本稀缺问题。nu 决定允许训练集中多少样本被视为异常，也影响支持向量比例；gamma 决定 RBF 边界的复杂程度。它的优势是无监督、能处理非线性、高维场景尚可；缺点是参数敏感、样本量大时计算慢、多簇正常分布时边界可能扭曲。用于技术空白识别时，不要把二维降维图上的“圈”解释成真实物理边界，而应把它解释成基于规范文本、语义向量和核函数共同构造的判别区域。模型给出边界，论文仍要解释边界的知识来源、参数选择和稳健性。

三、影像与音频：格式、同步和后期都要按链条理解

1. HLG/HEIF 相比 JPEG 的优势来自 HDR 链条，不是单个文件后缀

HLG/HEIF 静态照片可以理解为静态 HDR 视频帧：10-bit 色深、更宽动态范围、更大色域、更高压缩效率。它能记录 JPEG 容易丢掉的高光亮度和色彩过渡，但正确观看依赖完整链条：HDR 显示器、系统 HDR 支持、HEIF 解码、色彩管理和支持 HDR 的查看或编辑软件。RAW 与 HIF 的关系要分清：原始传感器信息在 RAW 中更完整，HIF 不包含 RAW 没有的原始数据；但 HIF 包含机内处理决策，如色彩、降噪、镜头校正和厂商直出风格。不能保存 HIF 的相机理论上可以由 RAW 后期转出 HDR/HEIF，但能否复刻机内观感取决于软件色彩科学和处理链。

2. 时间码不能被系统时间替代

多机位同步中，系统时间只适合按日期找文件，不能替代时间码。系统时间通常到秒，录制帧率却是 24、30、60fps，秒级同步天然有数十帧误差；不同设备晶振还会随温度和硬件差异产生时钟漂移。时间码按帧编号，Free Run 模式停录也持续流动，可以让后期软件把多个片段自动排进真实时间线。没有专业时间码设备时，音频波形同步和拍手峰值比系统时间可靠，LTC 音频时间码则可以把时间码写进音轨后再由软件解析。同步问题的核心是帧级精度和长期漂移，不是开拍前把两台机器时间调到一致。

3. H.265 的剪辑卡顿主要看解码，不看编码宣传

H.265 相比 H.264 的优势是同画质下体积小、4K/8K 和 10-bit HDR 支持更好；劣势是解码复杂，剪辑更吃硬件。剪辑卡不卡主要看硬件解码，不是硬件编码。显卡宣传支持 HEVC，并不等于支持所有 H.265 规格，尤其是 10-bit 4:2:2。很多消费级独显能流畅处理 4:2:0，却无法硬解 4:2:2，此时 CPU 会被迫承担解码。Intel QuickSync 和 Apple Silicon 媒体引擎在部分专业素材上更稳。代理剪辑仍然是最终稳定方案：原片保留画质，代理保障时间线流畅，导出时再回到原片。

4. Open Gate 与后期裁切不是同一件事

Open Gate 是使用传感器全宽和全高录制，保留原生 3:2 或接近全画幅比例；从 16:9 视频后期裁出 3:2，则是在已经丢失上下视野后再砍掉左右画面。两者看似得到相同比例，实际视野、分辨率和二次构图空间完全不同。没有 Open Gate 的相机想模拟 3:2，只能用更广镜头、开安全框、拍摄时给左右留弃用余量。原生 Open Gate 的价值不是比例本身，而是保留垂直视野，让横屏、竖屏、变形宽银幕和二次构图都有更大余量。

四、兴趣问题也有工程骨架

1. 电子音乐的重复推进来自音色、空间和密度的变化

Betamaxx 一类 Synthwave 开头常常听起来像在重复，但体验上持续推进，原因是音符没有明显变化，滤波器、空间和编曲密度在变化。低通滤波器 Cutoff 从低到高，会让同一段琶音从闷到亮，形成“开门效应”；每 4 或 8 小节加入踩镲、铺底和声、白噪上升音效，会增加能量密度；PWM、Detune、LFO 等微调制会让合成器声音带有流动感。制作这类 intro 时，关键不是堆旋律，而是控制能量释放速度。重复不是问题，静止才是问题。

由

相关文章

2026 年 5 月收获

2026 年 4 月收获

2026 年 3 月收获