2025 年 7 月收获

一、AI 工具与软件开发：把模型、流程、工具和责任拆开

1. Agentic Intelligence 的边界是目标、规划、工具和反馈，不是会聊天

Agentic Intelligence 指大语言模型从被动生成转向目标导向的任务执行。它不只是回答问题，而是理解目标、拆解步骤、选择工具、执行动作、观察结果、调整计划，形成“计划-行动-反馈”的循环。模型在其中只是认知核心，真正的智能体还需要工具权限、状态记忆、环境接口、失败恢复、过程评估和安全边界。如果没有外部工具调用、持续计划和结果校正，只是对话更自然，仍然只是生成式 AI，不是完整的智能体系统。

2. LangChain 和 n8n 相似在工作流，差异在决策中心

LangChain 和 n8n 都能把步骤连接成流程，但它们的决策逻辑不同。n8n 适合确定性业务流程：触发器、节点、条件、HTTP 请求、表格数据、邮件、数据库、通知，流程由人预先画好。LangChain 适合以大语言模型为中心的动态任务：检索、记忆、工具调用、代理决策、非结构化文本理解，下一步可能由模型根据上下文决定。流程已知、数据结构清楚、只需要连接应用时用 n8n；任务依赖语义理解、检索增强、工具选择和多步推理时用 LangChain；两者也可以组合，让 n8n 负责触发和业务流转，让 LangChain 负责复杂文本和智能决策。

3. Vibe Coding 提高速度，同时把编程责任转移到问题定义和审查

Vibe coding 不是不用编程，而是把大量代码书写转成自然语言规格、迭代反馈、测试约束和代码审查。它适合快速原型、小工具、界面草图、脚本自动化和局部功能验证；它不适合在没有理解生成代码的情况下直接处理权限、安全、支付、数据库迁移、生产部署和关键业务。开发者的工作从“逐行写代码”转成“定义目标、约束接口、提出测试、检查副作用、重构输出、确认安全”。如果只接受模型生成结果，不读代码、不跑测试、不检查边界，速度会变成债务。

4. 符号代码检索是代码结构检索，不是关键词搜索

符号代码检索把代码中的函数、类、方法、变量、模块、定义、引用和调用关系当作可检索对象。普通搜索只能告诉某个字符串在哪里出现，符号检索能区分它是函数定义、变量声明、方法调用还是跨文件引用，并能沿着语言服务器、AST 或索引结构找到真实依赖关系。对大型代码库、重构、定位接口、检查调用链和 AI 编码代理都更重要。AI 写代码时，如果只靠全文片段，很容易错过上下文；如果能检索符号和引用关系，就更接近开发者在 IDE 中理解项目的方式。

5. 技术栈是系统选择，不是技术名词堆叠

技术栈是一个软件或系统从前端、后端、数据库、运行环境、服务器、部署、监控到运维工具的整体组合。前端处理用户界面和交互，后端处理业务逻辑和接口，数据库处理持久化数据，基础设施处理服务器、网络、容器、缓存、日志、安全和扩展。选择技术栈不是把 React、Node、MySQL、Docker 这些词排在一起，而是判断用户交互复杂度、数据结构、性能压力、团队能力、维护成本、部署环境、扩展需求和生态成熟度。技术栈选错，后续不是换几个库的问题，而是开发效率、稳定性和人员组织都会被限制。

二、教材、课程与知识工程：把内容转成结构，再转成材料

1. 教材知识图谱必须先解决长文本、结构化输出和解析兜底

从教材文本生成知识图谱，不能直接让模型“提取知识点”后就画图。稳定流程应当包括：读取教材文本，按章节或语义边界分块，保留适当重叠；要求模型输出知识点名称、描述、类别、关键词、相关概念、难度、来源文件等结构化字段；解析 JSON，并准备代码块清理、括号截取、文本格式解析等兜底策略；合并同义知识点，去除空节点和噪声边；最后再构建图谱。长文本、模型输出不稳定、JSON 解析失败、知识点重复和关系误判，是这个任务的主要失败点。

2. 层级化知识点比平面知识点更适合教学材料

平面知识图谱只能显示“哪些概念相关”，但课程建设还需要知道“哪个是课程级目标，哪个是章节级主题，哪个是知识点，哪个是细节”。层级化知识点应区分课程、章节、知识点、细节四类层级，并建立父子关系和横向关联。这样才能服务课程大纲、PPT、题库、复习路径、知识点检测和教学诊断。可视化时不能只追求力导向图好看，还要保留层级、先修关系、主题聚合和来源依据；否则图会很热闹，但不能指导教学。

3. 教材生成 PPT 的关键不是一键生成，而是先规定幻灯片语法

教材章节可以自动生成 PPT，但稳定方案不是把一章书丢给工具等它自由发挥。更可靠的做法是先建立中间格式，例如用标题行表示一页幻灯片，用项目符号表示要点，用普通段落表示解释，用占位符标记图片、表格、案例和课堂讨论。AI 可以负责提取摘要和初步重组，脚本或模板负责版式、页数、层级和文件生成。AI 演示文稿工具速度快但结构不稳；PowerPoint 设计器和 VBA 适合半自动；Python 的 python-pptx 最可控。教学材料的第一要求是可讲、可改、可复用，不是第一眼像模板。

4. 课程大纲对比要拆内容和方法两个维度

比较多个课程大纲，不能只看课程名和章节标题是否相似。教学内容要比较课程主题、知识点、学习目标、章节重叠、技能要求、深度和广度；教学方法要比较讲授、讨论、实验、案例、项目、作业、考试、工具资源和学习活动。两门课可能知识点高度重合，但教学方法完全不同；也可能方法相同，但课程目标不同。对比报告应当分别给出内容重合度和方法重复度，并解释证据，不要用一个总分掩盖不同类型的相似。

5. 计算机系统课的价值在于建立底层心智模型

进程、二进制程序、链接、ELF 文件、缓冲区溢出这些内容，看似离数据挖掘和专利分析很远，实际提供的是底层约束意识。理解进程和内存，能更清楚地判断数据任务为什么 OOM、为什么 I/O 成为瓶颈、为什么本地能跑服务器不能跑；理解链接和动态库，能看懂软件依赖和技术栈；理解二进制分析，能为软件专利、技术尽调和技术竞争分析提供新的证据入口。前置基础至少包括 Linux 命令行、C 语言指针、栈和堆、寄存器概念、编译链接流程、GDB 基础。

6. 工程管理案例和教学创新比赛都要从真实问题进入

案例类比赛的本体不是理论展示，而是真实问题、真实数据、分析方法、解决方案、实施成效和推广价值。工程管理案例要说明实际工程或项目管理中存在的核心问题，选择能解释该问题的工具，例如 DMAIC、FMEA、环境分析、竞争分析、流程分析等，再提出可落地方案。理论不是单独摆一节，而是嵌入问题诊断、分析过程和解决方案。教学创新比赛也一样，不能说“原来不好”，而要说“在高质量基础上需要提升哪一层目标、内容、方法或评价”。报告还必须处理匿名、数据授权、查重、术语准确、图表不泄露身份等细节。

三、技术预见、专利分析与知识产权战略：从主题到结构，从结构到行动

1. 技术主题识别和技术融合预测不能只靠主题模型

BERTopic 可以把专利文本转成语义向量，经 UMAP 降维、HDBSCAN 聚类，再用 c-TF-IDF 和 MMR 提取主题词；HMM、DTM 或时间序列模型可以处理主题随时间的变化；余弦相似度、网络指标和中心性可以处理主题之间的关系。有效的技术预见流程必须说明每一段方法承担什么任务：哪一步识别主题，哪一步测度强度，哪一步判断新颖性，哪一步分析演化，哪一步做预测，哪一步验证结果。方法越多，越要把流程讲清楚，否则复杂度只是装饰。

2. 技术融合研究的粒度决定结论含义

专利分类号共现可以观察技术类别之间的融合，引文关系可以观察知识流动，文本语义可以观察技术内容接近，主题模型可以观察领域内部问题聚合，网络指标可以观察结构位置。不同粒度回答不同问题：分类号稳定但粗，主题词细但噪声大，专利文本信息密度高但需要清洗，主体网络能看竞争格局但不能替代技术内容。研究如果说“技术融合”，必须先说明融合发生在分类、主题、术语、主体、应用场景还是技术路径之间。

3. 专利主题的层级结构比主题清单更有情报价值

大规模 BERTopic 会生成成百上千个细粒度主题。过早把主题压成少数宏观类别，会丢失技术细节；保留平面主题清单，又无法解释结构。更合适的是做层级聚类，并用轮廓系数等指标寻找相对稳定的切割点，形成宏观板块、中观集群和微观技术节点。这样得到的不是“主题列表”，而是技术知识架构：能看清领域由哪些大类构成，每个大类内部有哪些技术簇，哪些节点处于边缘，哪些节点连接多个方向。这比单纯列前十主题更适合技术图谱、路线图和竞争情报。

4. 主题爆发指数要用份额变化和时间截断

测度技术主题爆发，不能只用专利数量的前后差值，因为总体专利规模增长会把所有主题都抬高。更稳的做法是使用某主题在当年全部专利中的份额，再计算份额的绝对变化。引入高斯衰减时也要避免未来信息影响过去判断：对某一年份的爆发状态，只能使用该年以前或截至该年的历史信息，不能让之后年份反向参与权重。每一年都可以被当作候选爆发点逐一计算，但权重函数应当是单侧历史衰减，而不是对称时间窗口。

5. 战略研究要按战略逻辑展开，不要按材料堆叠展开

战略研究的基本结构应当包括对象界定、需求关系、内外部环境、战略目标、战略举措、实施路径、运行机制、监测评估、反馈纠偏和政策工具包。“困境”只是环境分析的一部分，不能替代优势、劣势、机会、挑战和约束条件；绩效评估不能孤立存在，它应当反馈到战略构建和实施调整；逻辑图也不能只有自上而下一条线，还要表现并列关系、反馈关系和循环关系。战略研究如果没有学理依据、科学性和可行性，就只剩材料汇编。

6. 面向不确定技术的知识产权战略必须能自我修正

未来产业的不确定性、融合性和开放性，要求知识产权战略不能停留在专利数量、保护口号和制度清单上。更完整的体系应当包括技术预见、专利地图、产业路线图、高价值 IP 识别、转化模式、国际化布局、风险监测、多主体协同和动态纠偏。评估指标也不应只看结果，例如转化率和授权量，还要看过程绩效、结构绩效、治理绩效、协同绩效和风险响应能力。不能根据新信号调整的战略，不适合处理快速演化的技术领域。

7. 专利分析提示词可以复杂化，但复杂化要服务验证

简单要求模型从专利摘要中抽取“新技术名称”和“改进方法”，容易得到短而薄的结果。更稳的提示词应要求模型先判断技术领域，再提取待解决问题、技术身份、核心原理、技术步骤、关键组件、声称优势，并给出原文证据句、置信度和信息缺失说明。复杂化不是为了让提示词显得高级，而是为了减少幻觉、保留证据、方便复核、统一输出结构。每个字段如果不能被原文支持，就应当标记为不确定，而不是让模型补完。

四、科研写作、投稿与学术评价：贡献、证据、格式必须对齐

1. 管理学论文的贡献不能只写方法新

管理学研究中的方法通常是工具，不是贡献本身。更有力的贡献应当说明：拓展了什么理论，揭示了什么机制，解决了什么现实问题，或者把已有理论应用到什么新的情境并产生什么解释增量。引言需要先说明问题为什么重要，再说明已有研究缺在哪里，最后说明本研究如何回应这些缺口。不要轻易写“填补空白”，这种说法过满；可以写丰富、拓展、揭示、修正、补充。方法可以新，但必须服务理论和问题。

2. 摘要和引言的首要任务不同

摘要负责压缩研究必要性、理论视角、研究过程和主要结论。英文论文尤其重视开头一两句是否清楚说明研究为什么重要；中文论文更常接受“基于什么理论、通过什么方法、构建什么框架”的过程表达，但也不能缺少问题必要性。引言不是背景堆砌，它应当建立问题、回顾缺口、提出贡献，并让每条贡献对应前面的缺口。引言最后一段相当于整篇论文的合约，贡献说不清，后文再复杂也很难成立。

3. 文献回顾按学派和问题组织，不能按作者排队

文献回顾不应写成“张三说、李四说、王五说”的作者列表。更好的结构是：现有研究主要从几个视角解释该问题；每个视角下说明核心观点、代表文献、解释了什么、仍缺什么；不同视角之间有什么重合、冲突或互补。如果某篇文献跨越两个视角，应当说明它的桥接作用。文献回顾的任务不是证明自己读得多，而是把研究问题逐步收窄到尚未解决的关键点。

4. 研究流程要先定问题、概念和测量，再跑数据

错误流程是先跑数据，再根据结果倒找理论和故事。正确流程是先确定题目和研究问题，再梳理理论，界定概念，找到对应测量，预想可能结果和解释预案，最后收集数据、分析和写作。概念如果有几个维度，测量和讨论也必须一一对应。跨学科方法可以用，但要论证研究现象与方法假设之间的匹配，不能只说“这个方法新”。数据分析之前没有理论和测量边界，结果再显著也可能只是包装出来的偶然。

5. 抄袭检测不等于查重复率

大语言模型时代的抄袭检测需要区分直接文字复制、改写式相似、逻辑链模仿、结构模仿、数据或案例复用、跨语言翻译抄袭和代码抄袭。内部检测关注同一文档内部风格是否异常，外部检测关注与参考材料是否相似。LLM、BERT、Word2Vec、思维链特征和混合模型可以提升语义层面的识别能力，但也会带来误报。可靠流程应当同时给出证据片段、相似类型、风险评分和人工复核意见，不能只给一个机器分数。

6. 小样本文本挖掘报告要先检查数据规模和方法适配

用 LDA 分析几个段落，可以运行出主题，但主题未必稳定。若只有少量文本，主题数设置、中文分词、停用词、词性过滤、词袋模型、词云和主题解释都要谨慎。模型设置两个主题，结论却写三个主题，是方法和结论不一致；词云只能辅助展示，不能替代主题证据；对极小样本写过强结论，会让报告显得像程序输出物，不像研究。文本挖掘报告首先要检查数据规模能否支撑模型，再解释模型结果。

7. 投稿图片、补充材料和 AI 使用声明都要在提交前核对

Word 中图片清楚，投稿系统生成 PDF 后模糊，通常与图片压缩、分辨率、嵌入方式或系统转换有关。提交前应查看目标期刊的 Guide for Authors，按要求准备 DPI、格式、尺寸和颜色模式；允许单独上传图片时，优先上传高分辨率 Figure 文件，并选择正确 Item Type；必须嵌入 Word 时，关闭 Word 图片压缩并选择高保真；系统生成 PDF 后必须打开最终 PDF 检查图片。若上传 supplementary materials，正文中要明确引用；若期刊要求披露生成式 AI 使用，也应按规定在文末或指定位置写明工具、用途、人工审查和责任承担。

五、机器学习和计算机基础：模型先问问题，技术再选工具

1. 单变量机器学习可以做，但不自动优于回归

机器学习可以只用一个变量 x1 预测 y。决策树回归或分类会在 x1 上寻找分裂阈值，本质上形成分段预测。问题不在于“能不能做”，而在于 x1 是否包含足够信息、遗漏变量是否造成伪相关、样本量是否支撑模型复杂度、目标是预测还是解释。机器学习不是因为有实验组和对照组才比相关分析或回归有效；实验组和对照组属于实验设计和因果推断。机器学习的优势主要是能学习非线性关系、处理高维特征、通过训练集和测试集验证泛化能力。

2. One-hot encoding 是预处理，不是模型

One-hot encoding 用二进制向量表示类别变量，避免把无序类别错误地编码成有大小关系的数字。例如颜色不能简单编码成 1、2、3，否则模型可能误以为 3 大于 2 有意义。独热编码适合无序类别，但会带来维度膨胀、稀疏矩阵、多重共线性和顺序信息丢失。类别很多时，可以考虑嵌入、目标编码、频率编码或哈希技巧；类别本身有顺序时，应使用有序编码。编码方式改变的是模型看到世界的方式。

3. 深度学习里的正交性是减少冗余和稳定传播

深度学习中的正交性通常指权重向量或特征向量之间尽量相互独立，矩阵上表现为转置与自身相乘接近单位矩阵。正交初始化可以在深层网络和循环网络中保持信号和梯度的范数，缓解梯度消失或爆炸；正交正则化可以让不同神经元或卷积核学习更不重复的特征，提高表达多样性和泛化能力。它不是数学上的装饰，而是对信息传播、优化稳定性和特征冗余的控制。

4. 技术栈和系统底层会反过来限制数据工作

数据分析不是只由模型和算法决定。操作系统、Python 版本、原生库、数据库驱动、文件编码、内存大小、磁盘 I/O、GPU 运行时、网络环境和部署路径都会影响结果能否复现。一个脚本在本地能跑，不代表在服务器、容器、Notebook 或计划任务里能跑。技术记录应当包括运行环境、依赖版本、输入数据规模、硬件条件、权限和部署方式。否则“分析方法”和“运行系统”会被错误地分开。

由

相关文章

2026 年 5 月收获

2026 年 4 月收获

2026 年 3 月收获