2024 年第 1 季度收获

一、文本语义与技术图谱：从词面比较转向结构化语义比较

1. BERT 做文本相似度时，矩阵不是固定写死的，而是由两组文本的实际长度决定

BERT 可以用于中文文本之间、中英文文本之间的语义相似度计算。基本流程是读取两组文本，把每条文本编码成 embedding，再计算两组 embedding 的两两余弦相似度或语义距离，最后输出一个 n×m 矩阵。40×40 只是一个数据规模，不是方法边界；如果 chin01.txt 和 chin02.txt 行数不同，矩阵就应随行数变化。中英文比较不能直接依赖中文 BERT，应使用 mBERT、XLM-R 或其他跨语言模型，否则向量空间未必稳定。相似度计算的核心不是分词是否一致，而是两段文本是否被映射到同一个可比较的语义空间。

2. 专利深层语义信息不等于关键词；它包括创新点、现有技术差异、应用场景和演化关系

专利文本中最难提取的不是明面上的技术名词，而是隐含比较关系：该专利相对现有技术改进了什么、规避了什么限制、解决了什么技术问题、在哪些应用场景中有效、它与前后专利之间有什么继承或替代关系。单纯关键词、IPC 或摘要向量只能定位主题，难以解释技术路线。更完整的流程应把专利、论文、技术报告等多源文本清洗结构化，用 NLP、向量数据库、RAG 和大语言模型提取技术特征、功能、问题、方案、效果、应用领域，再把跨文档信息融合成技术知识图谱。图谱不是展示工具，而是把“某项技术是什么”推进到“它从哪里来、替代了谁、可能走向哪里”。

3. 专利政策和专利布局研究中，空间自相关不显著不等于研究失败

空间计量的第一步要分清研究对象：政策条数、专利申请数、产业产值、研发投入不是同一类变量。单变量可以做 Moran's I，判断某个变量在空间上是否集聚；但如果要说明政策对专利的影响，就需要空间滞后、空间误差或空间杜宾等模型，不能把一个变量的空间集聚直接解释成因果关系。Global Moran's I 如果只有 0.09 到 0.21 且不显著，只能说明全局空间相关弱，不意味着局部没有集聚。后续可转向 Local Moran's I、Getis-Ord Gi*、LISA 聚类图或按产业分组分析。全局不显著时，研究问题要从“整体是否集聚”改成“哪些地区、哪些产业、哪些政策组合存在局部差异”。

4. 芯片封装测试技术树要同时表达组成结构和技术代际

芯片封装测试不能只列“封装、互连、测试”三个大类。技术树至少要展开到封装形式、封装材料、封装工艺、机械互连、电气互连、测试接触点、测试阶段、测试设备等层级；每个节点还要能追加代际路径，例如线焊、倒装、晶圆级封装、2.5D/3D 封装、TSV、先进基板、系统级封装之间的替代和组合关系。技术树用于战略分析时，静态分类只说明“有什么”，代际路线才说明“怎么变”。如果后续接专利数据，每个技术节点应能映射到检索词、IPC/CPC、关键专利、主要申请人和时间窗口，否则树只能作为科普图，不能支撑技术演化判断。

二、AI 工具与本地模型：模型调用要服从文件格式、上下文长度和接口版本

1. ChatGLM 长文本摘要的关键不是 prompt，而是读取、切分和调用方式

长文本摘要不能把 .docx 当普通文本文件直接 open(...).read()，否则会出现编码错误；应使用 python-docx 读取段落，再把段落合并为纯文本。ChatGLM 的调用方式也不能套用 OpenAI ChatCompletion，需要按本地模型的 tokenizer、model.chat()、history 和设备配置来写。长文如果超过上下文长度，要先分段摘要，再汇总摘要；否则模型会截断、遗忘或生成偏移。真正稳定的本地摘要流程是：文件解析、文本清洗、长度分块、逐块摘要、二次汇总、结果保存、必要时用声音或日志提示任务完成。

2. 开源大模型用于科研，不是把 ChatGPT 放进题目，而是把模型能力拆成可验证模块

“开源大模型能力辅助下的技术演化全景图谱”这类选题，不能把大模型当成黑箱叙述。它至少应拆成文本深层语义提取、跨文档信息融合、技术演化规则识别、全景图谱构建、路径搜索和结果验证几个模块。每个模块都要说明输入、输出、方法和评价指标：语义提取看实体、关系、功能、效果；信息融合看跨语种、跨来源、跨年份的一致性；图谱看节点和边是否可解释；路径判断看是否能与历史专利、论文和产业事件相互校验。大模型只是把非结构化技术文本转成结构化技术知识的一种工具，不能替代研究设计。

3. 代理式 AI 工作流要分清角色、任务、工具和记忆边界

CrewAI 这类多智能体框架的价值不在“多几个机器人”，而在把复杂任务拆成有边界的角色：研究员负责检索和证据，分析员负责归纳和建模，写作者负责表达，审查者负责一致性和风险。每个 agent 必须有明确输入、可调用工具、输出格式和验收标准。否则多智能体只会把一个模型的幻觉拆成多个模型的幻觉。用于科研和写作时，代理链条应保留中间证据、来源、失败记录和人工确认点；不能让 agent 在没有证据约束的情况下连续生成。

三、科研选题与综述：主题要能落到数据、模型和贡献

1. 技术政策研究可以按对象、工具和效果三条线组织

技术政策研究不是一个单主题文献堆。按对象看，可以分成 R&D 政策、创新补贴、知识产权政策、标准与监管、技术转移、产业政策和区域创新政策；按工具看，可以分成财政支持、税收激励、政府采购、平台建设、人才政策、知识产权保护、标准制定；按效果看，可以分析创新数量、创新质量、企业行为、区域差异、产业升级和政策溢出。综述写作不能只罗列“谁研究了什么”，应说明研究对象如何变化、方法如何变化、评价指标如何变化、争议在哪里、缺口在哪里。

2. 专利数据研究芯片前沿时，要区分“技术热度”“技术质量”和“产业突破”

专利数量能反映研发活跃度，但不能直接等于技术先进性。高被引专利、同族规模、权利要求范围、跨国布局、申请人质量、技术主题突变、组合创新和与论文/产业事件的对应关系，才更接近技术质量和前沿信号。芯片技术前沿分析不能只看某个 IPC 的专利增多，而要把材料、工艺、设备、封装、设计、测试等环节拆开，分别观察主题增长、申请人结构、地域布局、引用路径和技术替代。专利是技术活动痕迹，不是产业能力本身；它需要与供应链、设备、人才和应用场景一起解释。

3. 研究选题要从“可写”变成“可证”

“城市专利政策”“芯片产业超越路径”“战略性新兴产业布局”这类题目，真正难点不是拟题，而是把题目落到可获取数据、可执行方法、可解释结果上。一个可证的选题需要同时回答四个问题：研究对象是什么，边界在哪里；数据从哪里来，能不能覆盖时间和空间；模型能识别什么，不能识别什么；结果能支持什么判断，不能支持什么判断。题目听起来大不等于研究价值大。能把概念、数据、模型和结论之间的链条接起来，才是选题成立。

四、教学与课程设计：课程不是内容堆叠，而是任务链条

1. 营销前沿专题可以按现实变化组织，而不是按教材章节组织

24 课时、8 次课的营销前沿专题，应围绕新事物组织：数字营销、社交媒体、数据驱动决策、算法推荐、消费者隐私、平台生态、智能客服、生成式 AI 与内容生产。每个专题都要说明背景、意义、难点、国内外案例、可实操算法和学生任务。前沿课不适合只讲概念，应让学生看到新工具如何改变数据获取、客户理解、市场测试和营销执行。Python 算法不是装饰，它要服务于真实问题，例如客户细分、文本情感、推荐、A/B 测试和用户画像。

2. 数据驱动营销决策的风险在于数据看似客观，但选择、口径和解释都可能偏

数据驱动不是“用数据替代判断”。营销数据的有效收集、清洗、管理、分析和解释都可能出错：样本选择会偏，指标口径会偏，相关关系可能被当成因果，短期转化可能遮蔽长期品牌，平均值可能掩盖细分群体差异，平台数据可能只反映平台内行为。数据隐私与安全不是附加问题，而是数据驱动营销能否持续的前提。课程里讲“统计数字会撒谎”，重点不是否定统计，而是要求学生追问数据从哪里来、谁被排除、指标定义是什么、模型优化了什么目标、结论能否外推。

3. 文本挖掘作业要先限定研究问题，再选择语料和模型

文本挖掘选题不能从“我想用 LDA/情感分析/词云”开始，而要先确定研究问题：比较什么对象，观察什么变化，解释什么现象。随后再选择语料来源、时间范围、清洗规则、停用词、词典、模型和评价方式。适合课程作业的题目应有公开数据、明确边界和可复现流程，避免依赖个人聊天记录、未公开文件或难以授权的材料。词频、共词、主题模型、embedding、分类器各自回答的问题不同；模型选择必须服从研究问题，而不是反过来让模型决定题目。

2024 年第 1 季度收获

由

相关文章

2026 年 5 月收获

2026 年 4 月收获

2026 年 3 月收获