一、技术演化与专利分析:把文本转成关系,把关系转成路径
技术演化分析不能停在热词统计。更完整的流程是:先收集专利、论文、产业报告、技术文档、新闻和投融资等多源数据;再用命名实体识别、关系抽取、文本分类、主题模型等方法抽取技术、产品、机构、专利、论文、应用场景等实体;然后构建动态技术知识图谱;再用中心性、社区发现、路径搜索、链接预测等图挖掘方法识别关键技术节点和演化路径;最后进入趋势预测,使用时间序列、机器学习回归、集成学习、异常检测和早期信号识别判断技术热点、关键突破节点和潜在转折点。只有这条链打通,技术演化研究才从“描述现在有什么”变成“解释为什么这样变、下一步可能怎样变”。
一篇技术演化综述可以按功能层次展开:第一层写产业技术生态如何被 AI、数字化和新型基础设施改变;第二层写技术路径怎样被度量,例如路径长度、演化速度、循环、分叉和融合;第三层写文本挖掘、专利计量、主题模型、技术挖掘和专家判断怎样结合;第四层写具体产业应用中自动化、预测维护、供应链优化、技术竞争格局等问题;第五层写现有方法的不足,例如单一数据源、单一分类体系、解释性不足、短期预测偏强而中长期路径判断偏弱。每篇文献都要承担一个明确作用:提供概念、提供方法、提供证据、提供反例或提供缺口。
PCBD 结构由 Patentee、Concept、Baseline Technology、Derivative Technology 四个部分组成,对应专利权人、技术理念、基础技术、衍生技术。它表达的不是“某专利属于哪个类别”,而是“某个主体在某种技术理念引导下,以某项既有技术为基础,形成了某项衍生技术”。P 网络解释研发主体和团队迭代,C 网络解释理念变化,BD 网络解释旧技术到新技术的替代、改进和派生,总网络解释主体、理念和技术之间的组合关系。普通分类号只能说明技术位置,PCBD 更适合说明技术为什么沿某条路径向前走。
专利文本里有许多结构化字段无法直接提供的信息,例如创新理念、技术改进对象、技术改进目标、技术特征、应用领域、旧技术限制和新技术优势。向量数据库可以把跨专利、跨论文、跨报告的信息检索出来,RAG 可以把相关片段送入模型,补足模型对领域知识的不足。大模型输出不能直接视为结果,必须设置稳定性和一致性原则:同一任务多次生成应基本一致,多模型交叉检验应方向一致,冲突结果应回到原文证据,LangChain 等封装方式应把模型调用和任务流程解耦。专利分析里最危险的不是模型不能说,而是模型说得流畅但证据不稳。
技术空洞不是某个主题专利数量少,而是一个高关注主题爆发后,语义邻近主题的实际发展低于其本应达到的轨迹。测度时要先确定 A 与 B 的邻近关系,可以用主题向量相似度、距离矩阵或阈值筛选;再确定 A 的爆发时间,可以用增长率、最大斜率或异常变化识别;然后为 B 建立没有 A 爆发时的基线预测轨迹;空洞强度可以用“预期 B 频次减实际 B 频次”再除以预期值,并乘以时间和语义距离权重;空洞体积是持续期内损失量的累计;持续时间决定它是否只是短期波动。恢复速度和持续时间容易表达同一件事,指标不要重复。
如果已经把所有主题放进年度技术空间,那么真正困难的是判断哪些主题是影响源 A,哪些主题是被挤压主题 B。最粗暴的方法是所有主题两两配对,但计算量大,解释也重。更可控的方法是先按年度专利数量变化、主题相似度、空间距离或社区结构筛出候选 A-B 对,再计算影响强度。降维图适合呈现,不一定适合直接计算;高维向量的相似度矩阵可能保留更多语义信息。公式里如果一个 B 可能受多个 A 影响,就要加入求和和权重,不应假设只有一个 A 对一个 B 发生作用。
IPC 是 WIPO 管理的国际通用分类体系,覆盖广、稳定、适合宏观分析。CPC 是 EPO 和 USPTO 在 IPC 基础上的扩展,分类更细、更新更快,还包含用于跨领域和新兴技术标记的 Y 部,更适合精细检索和前沿技术识别。很多专利没有 CPC,原因可能是时间早于 CPC 推广、没有 EP/US 同族、属于实用新型或外观设计、处于 PCT 国际阶段,或数据库覆盖不完整。处理策略是先查 Espacenet、Google Patents、PATENTSCOPE 或商业库,再看同族专利是否有 CPC;仍然缺失时用 IPC 做宏观分析,结合关键词、文本主题、引文网络和申请人信息补充。CPC 缺失比例高时必须写明偏差,不能假装数据完整。
二、主题模型与图模型:先定义对象,再选择算法
BERTopic 先用 SBERT 等预训练语言模型把专利摘要或技术文本转成语义向量,再用 UMAP 降维,接着用 HDBSCAN 聚类并给出主题类别,最后用 c-TF-IDF 提取每个主题的关键词。它与普通 TF-IDF 的差别在于,c-TF-IDF 关注“某个主题整体中哪些词最能代表该主题”,不是只计算单篇文档里的词频重要性。BERTopic 的优点是语义表示更强、主题数量可由聚类结果决定;需要注意的是噪声类、异常主题、主题命名和参数稳定性。
LDA 把文本抽象成“文档-主题”和“主题-词”两类概率关系。第一张表说明每篇文档由哪些主题构成以及各主题占比,第二张表说明每个主题由哪些关键词描述。它的实际作用是给原本难以直接分析的非结构化文本增加结构化标签,然后再按年份、地区、申请人、机构、类别统计主题数量、主题占比和主题趋势。LDA 是无监督方法,不需要提前人工标注大量样本,但需要设置主题数、停用词、自定义词典和评估指标。主题数不是拍脑袋,通常要结合困惑度、可解释性和后续分析目的。
当对象之间的关系本身就是信息主体,图神经网络才有意义。人体关键点、社交传播、推荐系统、芯片单元连接、专利引用网络、技术主题转移、合作网络都可以转成点和边。普通特征模型容易把样本当成独立个体,图模型则把邻居、连接强度、路径和社区结构纳入表示学习。问题不在于“CV、NLP 要不要学图神经网络”,而在于研究对象里是否存在稳定、可解释、有信息量的关系。如果关系定义错了,GNN 只会在错误图上做高成本计算。
用 PyTorch Geometric 这类工具时,数据不是普通表格。x 是节点特征矩阵,edge_index 是边的起点和终点,y 是标签,可以是节点标签、边标签或整图标签。多个图要分别构造再批处理。专利分析里节点可以是专利、主题、申请人、技术实体或概念;边可以是引用、共现、相似、转移、合作或替代。图单位也要明确:一张图代表一个年份、一个技术领域、一个企业还是整个产业。图定义决定模型能回答什么问题。
技术文本预处理时,自定义词典和停用词表会直接影响模型结果。停用词表去掉“进行、实现、包括、系统”等高频低义词,自定义词典保留“柴油发动机、知识图谱、向量数据库、低通滤波器”这类复合术语。分词如果把一个完整技术概念切碎,后面的 LDA、BERTopic、相似度计算和网络构建都会偏。预处理不是把文本弄干净,而是决定哪些技术颗粒度可以进入计算。
三、数据预处理与预测:先判断噪声来源,再选择工具
MSC 用来处理样品物理性质差异导致的散射效应,SNV 用来校正基线偏移和散射,SG 用多项式平滑降低噪声并尽量保留峰形,WT 用多分辨率分解去噪和提取特征,MA 用移动平均削弱随机噪声。组合方法不是越多越好,WT+SNV+SG、WT+MSC+MA 这类流程要说明顺序和理由。预处理的目标不是让曲线变漂亮,而是提高后续定量、分类或预测任务的信噪比,同时避免把真实化学信息一起滤掉。
WT 处理后的红外或近红外光谱通常更平滑,高频噪声减少,部分峰形更清楚,基线漂移也可能被削弱。但参数决定结果:小波基、分解层数、阈值方式和重构策略不同,保留的信息就不同。处理后如果所有细节都被抹平,模型可能得到更干净但更空的输入。正确做法是保留原始光谱、预处理光谱、噪声估计、参数设置和对比图,并通过后续模型效果或特征稳定性验证预处理是否有用。
需求预测类论文不能只写预测模型。更稳的结构是:数据收集与清洗、多源数据融合、需求预测模型、预测结果应用、对策建议。清洗环节要处理缺失、异常、冗余、口径不一致和零值模式;融合环节要说明不同来源数据怎样匹配、对齐、加权和转换;预测环节要区分零需求和非零需求,说明使用回归、时序、深度模型或分段拟合的理由;应用环节要把预测结果接到采购、库存、配送、排班、风险预警或资源配置上。预测如果不能改变业务动作,只是数值练习。
政策计量课程应围绕反事实和因果识别展开。先讲相关性与因果性、选择性偏误、潜在结果框架、ATE/ATT/ATU,再讲 RCT 如何通过随机分配解决偏误;准实验方法要分别说明 PSM、DID、IV、RDD、SCM 的核心假设、适用场景和失效条件;面板数据、受限因变量、稳健性检验、敏感性分析和政策含义解释作为后续工具。学生需要知道的不是“模型名字很多”,而是每个方法在什么条件下才有资格说因果。
四、AI 工具与知识工作:知识库不是收藏夹,Agent 不是聊天框
个人知识库的价值不在于保存了多少书摘、视频转录和网页剪藏,而在于需要备课时能把已经消化过的材料重新调出来。可执行流程是:把书籍、视频、网页、笔记和个人判断转成 Markdown;用 Obsidian 做结构化存储、标签和双链;用 embedding 模型向量化;接入检索工具;在备课时用自然语言查询已有知识。外部搜索提供新信息,向内检索调用个人已经筛过、想过、用过的信息。课程案例、概念解释、反例、课堂问题都可以这样从旧材料里再生成。
课程录音转成逐字稿后,可以分析主题是否偏离大纲,概念之间是否形成清晰链条,案例是否支撑理论,术语是否一致,口头禅和重复表达是否过多,提问类型是否单一,实操指令是否密集,学生问题是否集中在某些步骤。逐字稿也能生成课后摘要、操作清单、FAQ、术语表和复习题。前提是逐字稿质量足够高,有说话人识别,并且经过人工审核。AI 的反馈只能辅助教师复盘,不能替代教师对课堂现场和学生状态的判断。
API 提供底层能力,MCP 把能力包装成 AI 客户端更容易理解和调用的标准接口。它解决的是生态割裂、重复适配、本地资源调用和私有资源接入问题。服务提供方可以按同一协议暴露能力,客户端可以按同一方式发现和调用工具,用户也可以配置本地文件、数据库、浏览器、地图、笔记等资源。它仍然依赖底层 API 或本地进程,不是绕开工程实现。MCP 的真正价值是把“模型会说话”推进到“模型能调工具、拿数据、执行任务”。
DeerFlow 这类框架把大模型、搜索工具、多智能体协作和报告生成组合起来,能把一次研究任务拆成计划、检索、阅读、归纳、写作和引用整理。真正值得关注的是它是否暴露执行计划,是否允许修改计划,是否记录每一步搜索和调用,是否给出来源链接,是否能在本地或私有环境部署。报告生成后仍要核查引用是否真实、链接是否对应、结论是否过度外推、遗漏是否明显。深度研究工具降低资料收集成本,不自动保证研究判断正确。
适合 Agent 的任务通常具备几个条件:流程多步骤、人工介入多、结果可衡量、有明确预算、有大量重复操作、需要调用多个工具或数据源。可外包业务、研究助理、数据整理、客服、代码维护、报告生成、运营分析都可能被重构。趋势判断可以用 What、So What、Why Now、What Now:发生了什么,影响是什么,为什么现在发生,现在该做什么。不要只问“Agent 能不能做”,要问它能不能稳定完成任务链,错误成本能不能承受,是否有数据闭环和业务闭环。
多模型路由的价值是把模型调用、成本、延迟、失败重试、日志、切换策略和权限控制统一管理。简单任务走低成本模型,复杂推理走高能力模型,批处理看吞吐,交互任务看延迟,敏感数据优先走本地或私有模型。应用逻辑不要绑定某一个模型接口,否则模型价格、上下文长度、服务可用性或能力变化都会直接拖垮业务。模型是可替换部件,任务流程、数据结构和验证机制才是系统资产。
五、教学、课程与论文训练:结构要服务学生执行
一个合格教学大纲不能只列章节。课程目标要拆成知识、技能、应用和价值目标;每个教学单元要标明支撑哪个目标、用多少学时、采用什么教学方法、怎样嵌入案例或实践;实践环节要写实验内容、关联章节、实验要求、实验类型和成果形式;考核方式要说明每个课程目标在研究报告、课堂表现或项目作业中占多少分。大纲的本质是课程运行说明书,不是课程简介。
科技成果转化课程可以从基础概念、成果类型、转化流程和政策环境讲起,再进入成果评价与筛选,包括技术成熟度、创新性、市场潜力、经济效益、知识产权状态和风险;随后加入文本分析、专利分析、技术预见、市场调研等定量工具,用来判断成果现状和转化潜力;最后落到许可、转让、作价入股、自行孵化、产学研合作和融资支持等路径选择。实践作业应要求学生选择一项成果,做评价、市场分析和转化方案,而不是背诵概念。
大作业说明不宜做成多层级制度文本。更清楚的写法是:一段总述说明任务目标,再列若干注意事项,包括题目自拟、分析一种社会现象、至少使用若干处课程知识并标注来源、可使用案例或数据但不强制、提交格式、AI 检测、字数、截止时间和文件命名。采分点必须提前写清:选题是否贴合课程,现象描述是否准确,课程知识是否真正进入分析,论证是否有逻辑,建议是否从分析推出,格式是否规范。学生知道怎么得分,作业质量才会更稳。
实操课最容易被环境配置吞掉。复杂环境如 Anaconda、VS Code、插件、镜像源、虚拟环境、依赖库、数据文件、Notebook 内核选择,应尽量变成课前图文或视频;课堂只做验证、关键概念、常见错误和核心代码运行。如果必须课上配置,就要把命令、路径、预期输出和报错处理写成清单,并在每一步设置检查点。理论讲解和环境安装混在一起,学生既听不进模型原理,也跟不上操作。
答辩记录要转成修改清单:样本是否能代表研究范围,研究范围是否需要缩小;章节标题是否有层级关系;评价指标、评价过程和评价结果是否放在合适章节;分析章节是否有总括性发现;对策是否逐条回应前文问题;路径机制是否只是在罗列主体;图表是否清晰且分类标准一致;结论是否由数据推出;标题是否规范,是否把指标或引用塞进标题;全文是否有错别字、口语化和逻辑跳跃。每条问题最好一句话,学生才有可能逐项修。
研究想法决定论文上限,执行质量决定论文下限。大量数据本身不是故事,图表也不是故事;数据要转成发现,发现要转成逻辑线。标题要从陈述变成结论或矛盾,摘要要在有限字数内交代背景、缺口、方法、核心发现和意义。创新通常来自三类:方法创新、数据创新、应用视角创新。审稿风险也要提前处理:局限性、稳健性、数据不确定性、外部有效性、替代解释和方法边界都应在文中主动交代,而不是等审稿人指出。
六、社会科学与组织分析:概念要有分类轴,案例要服务概念
自然知识可以从自然博物、自然哲学走到物理学;社会知识也有类似线索:先记录社会现象、风俗、事件和结构,再用社会哲学讨论秩序、权力、正义、契约、共同体和人性,最后形成社会学、经济学、政治学、人类学等更系统、更经验化、更可检验的学科。这个线索的意义是区分材料、解释和科学化研究:记录事实不等于理论,价值判断不等于经验解释,统计模型也不能脱离概念边界。
同一个组织可以按功能目标、受惠者、顺从方式、技术类型、结构形态、合法性来源等不同轴来分类。按功能目标可以看它生产什么、服务什么、整合什么、维持什么;按受惠者可以看成员、客户、所有者还是公众获益;按顺从方式可以看强制、报酬、规范感召;按技术类型可以看长链流程、媒介连接还是集约处理。分类不是为了给组织定性一次,而是为了说明此刻分析它的哪一面。
纵向角度按社会生产力和时间演化看传统社区、发展中社区、现代社区,强调社区如何随经济结构、技术条件、人口流动和治理方式变化。横向角度按空间特征看法定社区、自然社区、专能社区和精神社区,强调边界、功能、聚落、归属感和亚文化。社区分析不能只说“这里是社区”,要说明它是在时间轴上处于什么阶段,在空间轴上具有什么边界,在功能轴上承担什么任务。
制度不是单纯规则文本。价值观决定什么被认为重要,行为规则和奖惩体系决定什么能做、不能做、做了有什么后果,组织设置决定制度如何运行,权力体系决定制度如何约束成员。制度还有普遍性、特殊性、集体约束性和稳定性:所有社会都有制度,但不同历史时期和社会场景的制度不同;制度约束的是群体中的机会主义行为;制度一旦内化为习惯,就会反过来维护自身。分析制度时,不能只摘条文,要看它背后的价值、执行组织和约束力量。

