一、文本语义与技术图谱:从词面比较转向结构化语义比较
BERT 可以用于中文文本之间、中英文文本之间的语义相似度计算。基本流程是读取两组文本,把每条文本编码成 embedding,再计算两组 embedding 的两两余弦相似度或语义距离,最后输出一个 n×m 矩阵。40×40 只是一个数据规模,不是方法边界;如果 chin01.txt 和 chin02.txt 行数不同,矩阵就应随行数变化。中英文比较不能直接依赖中文 BERT,应使用 mBERT、XLM-R 或其他跨语言模型,否则向量空间未必稳定。相似度计算的核心不是分词是否一致,而是两段文本是否被映射到同一个可比较的语义空间。
专利文本中最难提取的不是明面上的技术名词,而是隐含比较关系:该专利相对现有技术改进了什么、规避了什么限制、解决了什么技术问题、在哪些应用场景中有效、它与前后专利之间有什么继承或替代关系。单纯关键词、IPC 或摘要向量只能定位主题,难以解释技术路线。更完整的流程应把专利、论文、技术报告等多源文本清洗结构化,用 NLP、向量数据库、RAG 和大语言模型提取技术特征、功能、问题、方案、效果、应用领域,再把跨文档信息融合成技术知识图谱。图谱不是展示工具,而是把“某项技术是什么”推进到“它从哪里来、替代了谁、可能走向哪里”。
空间计量的第一步要分清研究对象:政策条数、专利申请数、产业产值、研发投入不是同一类变量。单变量可以做 Moran's I,判断某个变量在空间上是否集聚;但如果要说明政策对专利的影响,就需要空间滞后、空间误差或空间杜宾等模型,不能把一个变量的空间集聚直接解释成因果关系。Global Moran's I 如果只有 0.09 到 0.21 且不显著,只能说明全局空间相关弱,不意味着局部没有集聚。后续可转向 Local Moran's I、Getis-Ord Gi*、LISA 聚类图或按产业分组分析。全局不显著时,研究问题要从“整体是否集聚”改成“哪些地区、哪些产业、哪些政策组合存在局部差异”。
芯片封装测试不能只列“封装、互连、测试”三个大类。技术树至少要展开到封装形式、封装材料、封装工艺、机械互连、电气互连、测试接触点、测试阶段、测试设备等层级;每个节点还要能追加代际路径,例如线焊、倒装、晶圆级封装、2.5D/3D 封装、TSV、先进基板、系统级封装之间的替代和组合关系。技术树用于战略分析时,静态分类只说明“有什么”,代际路线才说明“怎么变”。如果后续接专利数据,每个技术节点应能映射到检索词、IPC/CPC、关键专利、主要申请人和时间窗口,否则树只能作为科普图,不能支撑技术演化判断。
二、AI 工具与本地模型:模型调用要服从文件格式、上下文长度和接口版本
长文本摘要不能把 .docx 当普通文本文件直接 open(...).read(),否则会出现编码错误;应使用 python-docx 读取段落,再把段落合并为纯文本。ChatGLM 的调用方式也不能套用 OpenAI ChatCompletion,需要按本地模型的 tokenizer、model.chat()、history 和设备配置来写。长文如果超过上下文长度,要先分段摘要,再汇总摘要;否则模型会截断、遗忘或生成偏移。真正稳定的本地摘要流程是:文件解析、文本清洗、长度分块、逐块摘要、二次汇总、结果保存、必要时用声音或日志提示任务完成。
“开源大模型能力辅助下的技术演化全景图谱”这类选题,不能把大模型当成黑箱叙述。它至少应拆成文本深层语义提取、跨文档信息融合、技术演化规则识别、全景图谱构建、路径搜索和结果验证几个模块。每个模块都要说明输入、输出、方法和评价指标:语义提取看实体、关系、功能、效果;信息融合看跨语种、跨来源、跨年份的一致性;图谱看节点和边是否可解释;路径判断看是否能与历史专利、论文和产业事件相互校验。大模型只是把非结构化技术文本转成结构化技术知识的一种工具,不能替代研究设计。
CrewAI 这类多智能体框架的价值不在“多几个机器人”,而在把复杂任务拆成有边界的角色:研究员负责检索和证据,分析员负责归纳和建模,写作者负责表达,审查者负责一致性和风险。每个 agent 必须有明确输入、可调用工具、输出格式和验收标准。否则多智能体只会把一个模型的幻觉拆成多个模型的幻觉。用于科研和写作时,代理链条应保留中间证据、来源、失败记录和人工确认点;不能让 agent 在没有证据约束的情况下连续生成。
三、科研选题与综述:主题要能落到数据、模型和贡献
技术政策研究不是一个单主题文献堆。按对象看,可以分成 R&D 政策、创新补贴、知识产权政策、标准与监管、技术转移、产业政策和区域创新政策;按工具看,可以分成财政支持、税收激励、政府采购、平台建设、人才政策、知识产权保护、标准制定;按效果看,可以分析创新数量、创新质量、企业行为、区域差异、产业升级和政策溢出。综述写作不能只罗列“谁研究了什么”,应说明研究对象如何变化、方法如何变化、评价指标如何变化、争议在哪里、缺口在哪里。
专利数量能反映研发活跃度,但不能直接等于技术先进性。高被引专利、同族规模、权利要求范围、跨国布局、申请人质量、技术主题突变、组合创新和与论文/产业事件的对应关系,才更接近技术质量和前沿信号。芯片技术前沿分析不能只看某个 IPC 的专利增多,而要把材料、工艺、设备、封装、设计、测试等环节拆开,分别观察主题增长、申请人结构、地域布局、引用路径和技术替代。专利是技术活动痕迹,不是产业能力本身;它需要与供应链、设备、人才和应用场景一起解释。
“城市专利政策”“芯片产业超越路径”“战略性新兴产业布局”这类题目,真正难点不是拟题,而是把题目落到可获取数据、可执行方法、可解释结果上。一个可证的选题需要同时回答四个问题:研究对象是什么,边界在哪里;数据从哪里来,能不能覆盖时间和空间;模型能识别什么,不能识别什么;结果能支持什么判断,不能支持什么判断。题目听起来大不等于研究价值大。能把概念、数据、模型和结论之间的链条接起来,才是选题成立。
四、教学与课程设计:课程不是内容堆叠,而是任务链条
24 课时、8 次课的营销前沿专题,应围绕新事物组织:数字营销、社交媒体、数据驱动决策、算法推荐、消费者隐私、平台生态、智能客服、生成式 AI 与内容生产。每个专题都要说明背景、意义、难点、国内外案例、可实操算法和学生任务。前沿课不适合只讲概念,应让学生看到新工具如何改变数据获取、客户理解、市场测试和营销执行。Python 算法不是装饰,它要服务于真实问题,例如客户细分、文本情感、推荐、A/B 测试和用户画像。
数据驱动不是“用数据替代判断”。营销数据的有效收集、清洗、管理、分析和解释都可能出错:样本选择会偏,指标口径会偏,相关关系可能被当成因果,短期转化可能遮蔽长期品牌,平均值可能掩盖细分群体差异,平台数据可能只反映平台内行为。数据隐私与安全不是附加问题,而是数据驱动营销能否持续的前提。课程里讲“统计数字会撒谎”,重点不是否定统计,而是要求学生追问数据从哪里来、谁被排除、指标定义是什么、模型优化了什么目标、结论能否外推。
文本挖掘选题不能从“我想用 LDA/情感分析/词云”开始,而要先确定研究问题:比较什么对象,观察什么变化,解释什么现象。随后再选择语料来源、时间范围、清洗规则、停用词、词典、模型和评价方式。适合课程作业的题目应有公开数据、明确边界和可复现流程,避免依赖个人聊天记录、未公开文件或难以授权的材料。词频、共词、主题模型、embedding、分类器各自回答的问题不同;模型选择必须服从研究问题,而不是反过来让模型决定题目。

