一、论文与研究方法:方法必须服务问题,不能反过来统治问题

1. QCA 图表还原要依据论文注释和路径解释,不靠猜符号

QCA 表格中的实心、空心、大圆、小圆分别对应核心条件存在、边缘条件存在、核心条件缺失、边缘条件缺失。符号尺寸丢失时,不能凭视觉习惯补回去,而要先找表注、变量说明、路径命名和正文解释,再逐行确认每个条件在每条路径中的角色。图表编辑不是美工修复,而是方法信息恢复;一旦核心和边缘被混淆,整条解释路径都会变形。

2. 专利语义增量要同时给出增量度量和增量内容

比较两个年份同一技术主题内的专利摘要,不能只算词频变化。可先把同一主题内两年的摘要合并,用 BERTopic 识别子主题,再用 JSD 衡量年度子主题分布差异,找出占比显著上升的子主题作为增量内容。也可以用 SBERT 计算每篇新年份摘要到旧年份语义空间的最近距离,1 - max cosine similarity 作为新颖性分数,Top K 文档就是具体增量文本。前者适合主题层解释,后者适合定位具体新专利,LLM 适合总结内容但不适合单独提供可复现度量。

3. 耦合协同度很容易把同步高水平误判成相互作用

耦合协同模型的核心问题在于,它常常测到的是两个系统得分是否接近、是否同时较高,而不是真正的机制耦合。两个完全独立但都上升的序列,也可能得到很高的耦合协同度。D = sqrt(C × T) 中的 C 往往区分度不强,结果经常退化为综合发展水平的变形。使用这类方法时,应把它限定为描述性分类工具,同时展示两个子系统原始趋势,并用 PVAR、交互项、格兰杰检验、空间计量或其他机制模型补充验证。不要把“状态相似”写成“互相促进”。

4. 论文选题论证可以做成结构化流水线

一篇论文可以被拆成题目、关键词、摘要、研究背景、待解决问题、现有文献、文献缺陷、研究方案、创新点、相关领域、方法、数据、预处理、结果、验证和结论。把这些要素放入多维表格,再用按钮触发 AI 工作流,可以把选题推导变成可追踪流程。更适合的组合不是纯 Python 或通用自动化工具,而是“表格前端 + AI 工作流后端”:前者负责录入、触发、回填和批量管理,后者负责逐节点推导、结构化输出和调试提示词。

二、AI 开发与知识结构:人负责定义问题,AI 负责扩展执行

1. Agent 写代码的确认流程应看计划、权限、差异和证据

AI 开发工具给出的方案不能只看生成的代码。确认流程应先看任务清单和实施计划,再看它申请执行的终端、浏览器或文件权限,然后看 diff,最后看测试日志、截图、运行结果和错误复现。对 Agent 来说,最危险的不是写错一行代码,而是它在错误计划下正确执行。人的职责从逐字敲代码转为审查意图、控制副作用、核验证据。

2. AI 时代的知识广度是索引能力,不是百科背诵

知识广度的价值在于知道哪些学科、概念和模型可以被调用。数学、逻辑、信息论提供形式语言;物理、化学、生物提供自然层级;心理、社会、经济、政治提供人类行为层级;哲学、艺术、伦理提供意义和判断边界。人不需要记住全部事实,但需要知道问题属于哪一层、该调用哪些模型、哪些答案违反基本常识。所谓“眼高手低”在 AI 时代可以变成优势:人提供问题框架和跨域连接,AI 补足执行细节。

3. 多智能体 RAG 系统要把角色、证据和结论分开

面向咨询报告的本地知识库问答,不应只是“上传文档然后聊天”。更好的结构是:先检索和引用本地材料,再让不同角色分别分析,例如企业视角、政府视角、技术视角、风险视角,最后由汇总节点生成建议。Dify 适合低代码实现知识库、Ollama、本地模型、引用溯源和工作流;CrewAI + Chainlit 更适合多主体辩论和过程展示。系统的关键不是让模型说得像专家,而是让每个观点都能回到材料证据。

三、网站、网络与本地设备:能访问、能维护、能解释

1. WordPress 首页可以用查询规则把内容分流

同一个站点中,不同标签或分类的文章可以不进入主页主循环,而在单独模块中展示。实现逻辑是:主查询中排除特定 tag 或 category,再用 shortcode、模板片段或自定义查询把这些文章列表显示在指定区域。这样主页不再只是按时间混排,而可以成为内容管理界面。关键点是不要直接删文章或改发布日期,而是控制查询和展示层。

2. 路由器固件资源需求取决于用途,不取决于固件名

OpenWrt 原版可以很轻,但一旦加入广告过滤、代理、Docker、NAS、监控和图形插件,内存需求会快速上升。硬路由刷机要看 RAM、Flash、芯片、驱动和散热;软路由则要把 x86 设备当小服务器看,2GB 内存只是舒适起步。Padavan、Tomato、DD-WRT、Merlin、iStoreOS 各自适合不同硬件和目标。判断标准不是“哪个固件更强”,而是设备资源、功能需求、维护能力和稳定性。

3. 无线网桥适合跨办公室打通局域网,电力线通常不适合

两个空间之间无法布线、距离不远、又希望局域网级互通时,无线网桥比 VPN 或公网中转更直接。60GHz 适合无遮挡高速短距,5.8GHz 适合成本和穿透折中。电力线通信看似方便,但跨电表、跨空气开关、跨相位、长线路和办公电气环境都会造成严重不稳定。网络方案不能只问“能不能通”,还要问延迟、带宽、稳定性、维护成本和故障定位。

4. 笔记本中端显卡做 AI 的限制主要是显存,不是是否支持

新一代笔记本显卡遇到深度学习报错,很多时候是 CUDA、PyTorch、驱动和依赖版本不匹配,不是硬件不能做。BERT、传统 Transformer 微调和推理通常可以在 8GB 显存级别运行;大语言模型则更依赖量化、上下文长度和是否训练。7B 级模型量化推理有机会可用,全量训练和大模型微调基本不现实。判断一张卡能做什么,要看显存、驱动栈、模型精度、batch、任务类型和项目默认配置。

四、信息源、排版与兴趣知识:细小问题背后有稳定规则

1. 专利文本挖掘没有单一组织归口,要按学科入口进入

专利文本挖掘做技术识别,是 NLP、信息检索、科学计量和技术管理的交叉领域。算法侧可关注 NTCIR、CLEF-IP、TREC、ACL;计量侧可关注 ISSI、Scientometrics、STI;技术管理和应用侧可关注 IAMOT、PICMET、IEEE TEMS。找不到完全对口组织并不是坏事,说明该领域应按问题拆入口:怎么挖掘、怎么验证、怎么用于技术情报。

2. 咨询报告资料源要按生产者类型分类

公开咨询报告不是严格意义上的开源,但存在大量可公开获取的战略情报。管理咨询公司提供方法论和行业框架,四大提供风险、合规、财务、人力资本和技术落地资料,国际组织提供宏观数据库和政策研究,投行和市场研究机构提供资本、行业和趋势材料。搜集时要记录来源、发布日期、行业、地区、报告类型、数据口径和可引用性。资料库的价值不在下载数量,而在可检索、可比较、可复用。

3. 字号、pt 和 px 不是同一个概念

pt 是印刷物理单位,1 pt 等于 1/72 英寸;中文字号是传统排版命名系统,如小四、五号;px 是屏幕像素单位,受分辨率和缩放影响。Word、PDF 和正式文档优先用字号或 pt;网页和 UI 设计更多用 px。常见对应关系里,小四约 12 pt,五号约 10.5 pt。把 pt 当像素,会导致屏幕显示和打印尺寸混乱。

4. 玛丽之屋和中文屋分别攻击还原论的不同位置

中文屋讨论的是语法操作是否等于理解,重点是意向性和语义;玛丽之屋讨论的是掌握全部物理事实后,第一次体验颜色是否获得新知识,重点是感质和第一人称体验。前者反驳“会处理符号就等于懂”,后者质疑“物理知识是否穷尽体验”。两者都说明,意识问题不能只靠外部行为或客观描述轻易消解。

Avatar photo