2026 monthly harvest cover

一、Agent 与 LLM:不要把工作流误认为智能体

1. Agent 不是“LLM + 提示词 + 固定流程”

LLM 是推理和生成引擎,本身被动、无状态、只做输入到输出的概率映射。固定的 LLM workflow 是预先写死的流程:先总结,再分类,再调用工具,再输出。Agent 的差异在于自主拆解任务、动态规划、工具调用、环境反馈、记忆和反思。一个系统是否是 Agent,不看它是否用了大模型,而看它能否根据中间结果改变执行路径,能否在失败后重规划,能否把外部文件、命令、搜索、数据库和历史状态纳入决策。提示词仍然重要,但它只是规定工具边界、角色和思考范式,不是智能体本身。

2. 把关键判断交给 LLM,常常只是把问题转移到另一个黑盒

在技术预测、图模型、化学组合或工程可行性判断中,直接让 LLM 打分并不能解决方法论问题。它可能给出看似合理的 plausibility score,但核心困难没有被解释:模型为什么会预测某个组合,错误来自数据提取、图结构、负样本构造、过度平滑,还是物理互斥没有被建模。严肃方法应回到底层机制:如果组合内部存在互斥,就需要 pairwise compatibility 和 weakest-link penalty;如果出现测试期新节点,就需要归纳式节点生成或语义邻近的结构对齐。LLM 可以辅助解释,但不能替代模型结构中的约束。

二、新兴技术预测:从文本主题转向技术元素和模体融合

1. 专利文本聚类是后验总结,不足以预测新技术从哪里来

主题聚类只能识别已经形成文档规模和词汇共现的技术,它描绘成熟趋势,不解释新技术如何由旧元素组合产生。基于《技术的本质》的组合进化思路,粒度必须从文献级下沉到元素级:组件、机制、动作、对象、功能、应用场景、物理效应。预测新兴技术,不应只是预测某个主题会升温,而应预测哪些原本分散的元素会发生新连接,哪些结构洞会被桥接,哪些技术模块会跨域融合。技术预测的问题从“哪些词一起出现”转为“哪些有效功能单元未来会形成新组合”。

2. 网络模体可以作为中观技术元素

单个词太碎,整篇专利太粗,网络模体提供了中观层级。专利术语共现网络中,显著高于随机网络频率出现的三节点或四节点子图,不只是词的偶然同现,而可能是经过研发实践筛选后的稳定功能组合。把网络模体定义为“技术元素群”,就能把组合进化翻译成图论语言:新兴技术是原本独立的模体通过桥接节点或新边发生融合。这个定义的理论支撑在于技术系统的层级性和模块化;方法优势在于模体既有结构稳定性,又比主题更早、更细地捕捉弱信号。

3. 模体方法必须同时解决算力爆炸和语义还原

全量子图同构是 NP-Hard,不能把几十万节点网络直接拿去穷举高阶模体。合理做法是先语义剪枝,用 TF-IDF、C-value、领域停用词和频率阈值压缩到核心术语网络;再限制模体阶数到 3 或 4;再用 RAND-ESU 或 FANMOD 一类启发式采样估计显著模体。模体发现后,还要解决“这个三角图到底是什么技术”的语义黑盒:把模体反查回包含它的专利,统计最高关联的 CPC 组别,抽取原句中的中心名词短语,生成可读的技术功能标签。算力问题靠剪枝和采样,语义问题靠 CPC 锚定和语境回溯,不靠 LLM 猜。

4. 预测类研究要用时间回溯、基线模型和外部印证验证

技术预测不能只展示网络图。最基本的验证是时间切片回溯:用早期数据提取模体和潜在链接,预测后续时间窗是否真的出现模体融合。还要设置基线模型,例如关键词共现、主题模型、普通链路预测、专利分类相似度,用早期捕获率、假阳性率和预测提前量比较优势。管理学价值不能只停留在 AUC,还要把高潜力模体融合与后续产业报告、前沿技术清单、企业布局或专利族扩张进行外部印证。预测模型的价值是提前给出可解释路径,不是事后把已知趋势重新命名。

5. 超图预测要能处理互斥组合和新节点冷启动

超图模型如果只做集合池化,可能把整体看似相关但内部互斥的元素组合打高分。改进方向是在超边内部计算两两兼容性矩阵,把最低兼容性的元素对作为惩罚项,形成 veto-aware hyperedge scoring。一个技术组合只要存在硬互斥,整体得分就应被拉低。测试集中还会出现训练期没有的新技术元素,不能默认模型知道它们的拓扑位置。可用语义嵌入找到最相近的已知节点,再聚合这些已知节点的拓扑嵌入,为新节点生成结构位置。这样模型才具备零样本或归纳式技术预测能力。

三、证据源与数据结构:先问数据能回答什么

1. 看 AI 技术突破,论文、技术报告和开源社区比专利更快;看产业布局,专利更有用

AI 技术前沿的主要载体是 arXiv、顶会论文、头部机构技术报告、GitHub 和模型社区。专利公开通常有时间滞后,文本也常为法律保护而写得宽泛,难以追踪最新算法细节。但专利并非无用,它更适合看产业化、技术护城河、共性技术、专利池和企业战略布局。用专利看 AI,不应问“最前沿模型是什么”,而应问“哪些技术开始被商业主体保护,哪些应用方向开始形成资产,哪些组织在布局同一底层能力”。不同证据源回答不同问题。

2. OpenAlex 倒排摘要是法律工程与数据结构的结合

OpenAlex 的 abstract_inverted_index 不是摘要文本,而是词到位置数组的倒排索引。这样做的原因是版权边界:完整摘要是表达,批量分发可能涉及版权;单词出现位置更接近事实数据,便于开放。还原文本时,只需按位置把词放回数组再拼接;做词频、共现和关键词距离时,也可以直接利用倒排结构。这个设计说明数据开放不只是技术问题,也是在法律约束下重新组织数据结构。文本挖掘中,数据形态本身往往已经包含了合规策略。

3. 正交实验不要求线性关系,真正要警惕的是交互作用

DOE 正交实验的核心是用均衡分散的少量实验覆盖多因素多水平,不要求因素和结果之间存在严格线性关系。每个水平都可以被看成离散分类,极差分析只比较不同水平的平均效果。真正的限制是交互作用:标准正交设计往往默认因素影响可以加法叠加,如果 A 的效果取决于 B 的水平,忽略交互就可能得出错误结论。参数多、目标是筛选主要因素,用正交实验;已知关键因素、希望拟合连续曲面和最优区域,用响应面。不要把正交实验误解成线性模型的低配版。

四、文本、图表与排版工程:可编辑性和可投稿性要同时满足

1. LaTeX 主文件命名优先遵循入口约定

LaTeX 编译器不在乎主文件是否叫 main.tex,但自动化工具、协作人员、CI、编辑器插件和论文模板常常默认寻找这个入口。复杂项目应保留 main.tex 作为控制层,用 \input\include 加载章节文件。个人想用项目名命名主文件,可以通过软链接或编辑器配置解决。命名本身不是技术限制,约定能降低协作和自动化成本。

2. 自动修复中文引号要先做奇偶校验,再做替换

大模型生成 TeX 时容易混淆中文左右引号,原因是英文 LaTeX 引号语法、中文全角标点和自回归生成状态混在一起。直接用正则替换所有成对引号有误伤风险,尤其在缺失一个引号时,会把中间大段正文错误包进引语。安全策略是按自然段拆分作用域,统计每段中文引号数量,偶数才交替纠正,奇数直接报错并提示人工检查。自动化清洗的原则是宁可停止处理,不要为了“修好”而扩大破坏半径。

3. Word 复杂格式要用原生对象操作,Pandoc 不是万能管道

Pandoc 的强项是文档格式转换和结构化文本,但 Word 的复杂格式、段落 run、表格、对象和页面样式常常会在 AST 转换中丢失。需要精细修改 docx 时,更合理的是通过 MCP 调用 python-docx、OpenXML SDK 或其他原生文档处理库,对段落、文本块和表格对象直接操作。MCP 本身不是解决格式的魔法,它只是让大模型能调用外部工具;真正的格式保真来自底层库是否理解 Word 对象模型。

4. Matplotlib、Inkscape、Draw.io 和 TeX 要按职责分工

Matplotlib 生成的 SVG 往往是大量硬编码 path,Draw.io 不适合拆解这种复杂图形;TeX 原生也不适合直接插入 SVG,投稿系统更容易出问题。更稳的工作流是:Matplotlib 输出底层数据图为 PDF 或可编辑 SVG;若要微调曲线、文字和矢量节点,用 Inkscape;若要加逻辑框、箭头、模块关系,用 Draw.io 作为上层标注工具;最终导出 PDF,再由 TeX 用 \includegraphics 引入。数据图、矢量编辑、逻辑图和排版系统各司其职,少走“一个工具解决一切”的弯路。

5. Visio 到 PPT 的中文碎字,是 PPT 矢量解析引擎的问题

Visio 图复制到 PPT 后取消分组,中文文本被拆成单字或碎片,根源是 EMF 到 Office 形状的逆向转换。PPT 为保持视觉位置,牺牲了文本框结构。无损编辑的方案是把 Visio 作为嵌入对象保留,双击回到 Visio 修改;必须在 PPT 中改时,可以尝试 Word 的 PDF 重排引擎做中介;如果要做长期可维护的逻辑图,更应使用 Draw.io 插件或在 PPT 内原生绘制文字。Illustrator 适合平面设计,不适合作为逻辑图和 PPT 可编辑性的终极方案。

Avatar photo