2025 年 11 月收获

一、论文与研究方法：方法必须服务问题，不能反过来统治问题

1. QCA 图表还原要依据论文注释和路径解释，不靠猜符号

QCA 表格中的实心、空心、大圆、小圆分别对应核心条件存在、边缘条件存在、核心条件缺失、边缘条件缺失。符号尺寸丢失时，不能凭视觉习惯补回去，而要先找表注、变量说明、路径命名和正文解释，再逐行确认每个条件在每条路径中的角色。图表编辑不是美工修复，而是方法信息恢复；一旦核心和边缘被混淆，整条解释路径都会变形。

2. 专利语义增量要同时给出增量度量和增量内容

比较两个年份同一技术主题内的专利摘要，不能只算词频变化。可先把同一主题内两年的摘要合并，用 BERTopic 识别子主题，再用 JSD 衡量年度子主题分布差异，找出占比显著上升的子主题作为增量内容。也可以用 SBERT 计算每篇新年份摘要到旧年份语义空间的最近距离，1 - max cosine similarity 作为新颖性分数，Top K 文档就是具体增量文本。前者适合主题层解释，后者适合定位具体新专利，LLM 适合总结内容但不适合单独提供可复现度量。

3. 耦合协同度很容易把同步高水平误判成相互作用

耦合协同模型的核心问题在于，它常常测到的是两个系统得分是否接近、是否同时较高，而不是真正的机制耦合。两个完全独立但都上升的序列，也可能得到很高的耦合协同度。D = sqrt(C × T) 中的 C 往往区分度不强，结果经常退化为综合发展水平的变形。使用这类方法时，应把它限定为描述性分类工具，同时展示两个子系统原始趋势，并用 PVAR、交互项、格兰杰检验、空间计量或其他机制模型补充验证。不要把“状态相似”写成“互相促进”。

4. 论文选题论证可以做成结构化流水线

一篇论文可以被拆成题目、关键词、摘要、研究背景、待解决问题、现有文献、文献缺陷、研究方案、创新点、相关领域、方法、数据、预处理、结果、验证和结论。把这些要素放入多维表格，再用按钮触发 AI 工作流，可以把选题推导变成可追踪流程。更适合的组合不是纯 Python 或通用自动化工具，而是“表格前端 + AI 工作流后端”：前者负责录入、触发、回填和批量管理，后者负责逐节点推导、结构化输出和调试提示词。

二、AI 开发与知识结构：人负责定义问题，AI 负责扩展执行

1. Agent 写代码的确认流程应看计划、权限、差异和证据

AI 开发工具给出的方案不能只看生成的代码。确认流程应先看任务清单和实施计划，再看它申请执行的终端、浏览器或文件权限，然后看 diff，最后看测试日志、截图、运行结果和错误复现。对 Agent 来说，最危险的不是写错一行代码，而是它在错误计划下正确执行。人的职责从逐字敲代码转为审查意图、控制副作用、核验证据。

2. AI 时代的知识广度是索引能力，不是百科背诵

知识广度的价值在于知道哪些学科、概念和模型可以被调用。数学、逻辑、信息论提供形式语言；物理、化学、生物提供自然层级；心理、社会、经济、政治提供人类行为层级；哲学、艺术、伦理提供意义和判断边界。人不需要记住全部事实，但需要知道问题属于哪一层、该调用哪些模型、哪些答案违反基本常识。所谓“眼高手低”在 AI 时代可以变成优势：人提供问题框架和跨域连接，AI 补足执行细节。

3. 多智能体 RAG 系统要把角色、证据和结论分开

面向咨询报告的本地知识库问答，不应只是“上传文档然后聊天”。更好的结构是：先检索和引用本地材料，再让不同角色分别分析，例如企业视角、政府视角、技术视角、风险视角，最后由汇总节点生成建议。Dify 适合低代码实现知识库、Ollama、本地模型、引用溯源和工作流；CrewAI + Chainlit 更适合多主体辩论和过程展示。系统的关键不是让模型说得像专家，而是让每个观点都能回到材料证据。

三、网站、网络与本地设备：能访问、能维护、能解释

1. WordPress 首页可以用查询规则把内容分流

同一个站点中，不同标签或分类的文章可以不进入主页主循环，而在单独模块中展示。实现逻辑是：主查询中排除特定 tag 或 category，再用 shortcode、模板片段或自定义查询把这些文章列表显示在指定区域。这样主页不再只是按时间混排，而可以成为内容管理界面。关键点是不要直接删文章或改发布日期，而是控制查询和展示层。

2. 路由器固件资源需求取决于用途，不取决于固件名

OpenWrt 原版可以很轻，但一旦加入广告过滤、代理、Docker、NAS、监控和图形插件，内存需求会快速上升。硬路由刷机要看 RAM、Flash、芯片、驱动和散热；软路由则要把 x86 设备当小服务器看，2GB 内存只是舒适起步。Padavan、Tomato、DD-WRT、Merlin、iStoreOS 各自适合不同硬件和目标。判断标准不是“哪个固件更强”，而是设备资源、功能需求、维护能力和稳定性。

3. 无线网桥适合跨办公室打通局域网，电力线通常不适合

两个空间之间无法布线、距离不远、又希望局域网级互通时，无线网桥比 VPN 或公网中转更直接。60GHz 适合无遮挡高速短距，5.8GHz 适合成本和穿透折中。电力线通信看似方便，但跨电表、跨空气开关、跨相位、长线路和办公电气环境都会造成严重不稳定。网络方案不能只问“能不能通”，还要问延迟、带宽、稳定性、维护成本和故障定位。

4. 笔记本中端显卡做 AI 的限制主要是显存，不是是否支持

新一代笔记本显卡遇到深度学习报错，很多时候是 CUDA、PyTorch、驱动和依赖版本不匹配，不是硬件不能做。BERT、传统 Transformer 微调和推理通常可以在 8GB 显存级别运行；大语言模型则更依赖量化、上下文长度和是否训练。7B 级模型量化推理有机会可用，全量训练和大模型微调基本不现实。判断一张卡能做什么，要看显存、驱动栈、模型精度、batch、任务类型和项目默认配置。

四、信息源、排版与兴趣知识：细小问题背后有稳定规则

1. 专利文本挖掘没有单一组织归口，要按学科入口进入

专利文本挖掘做技术识别，是 NLP、信息检索、科学计量和技术管理的交叉领域。算法侧可关注 NTCIR、CLEF-IP、TREC、ACL；计量侧可关注 ISSI、Scientometrics、STI；技术管理和应用侧可关注 IAMOT、PICMET、IEEE TEMS。找不到完全对口组织并不是坏事，说明该领域应按问题拆入口：怎么挖掘、怎么验证、怎么用于技术情报。

2. 咨询报告资料源要按生产者类型分类

公开咨询报告不是严格意义上的开源，但存在大量可公开获取的战略情报。管理咨询公司提供方法论和行业框架，四大提供风险、合规、财务、人力资本和技术落地资料，国际组织提供宏观数据库和政策研究，投行和市场研究机构提供资本、行业和趋势材料。搜集时要记录来源、发布日期、行业、地区、报告类型、数据口径和可引用性。资料库的价值不在下载数量，而在可检索、可比较、可复用。

3. 字号、pt 和 px 不是同一个概念

pt 是印刷物理单位，1 pt 等于 1/72 英寸；中文字号是传统排版命名系统，如小四、五号；px 是屏幕像素单位，受分辨率和缩放影响。Word、PDF 和正式文档优先用字号或 pt；网页和 UI 设计更多用 px。常见对应关系里，小四约 12 pt，五号约 10.5 pt。把 pt 当像素，会导致屏幕显示和打印尺寸混乱。

4. 玛丽之屋和中文屋分别攻击还原论的不同位置

中文屋讨论的是语法操作是否等于理解，重点是意向性和语义；玛丽之屋讨论的是掌握全部物理事实后，第一次体验颜色是否获得新知识，重点是感质和第一人称体验。前者反驳“会处理符号就等于懂”，后者质疑“物理知识是否穷尽体验”。两者都说明，意识问题不能只靠外部行为或客观描述轻易消解。

由

相关文章

2026 年 5 月收获

2026 年 4 月收获

2026 年 3 月收获