组会记录 2026-05-20

汇报顺序:
硕 3: 周书发 → 文柘青 →
硕 2: 李浩铭 → 管明露 → 李山岚 →
硕 1: 王硕 → 朱丹晨 → 马婧怡 →
准硕 S2026: 南迪柯 → 杨瑞豪

注:本期组会记录由 Claude Opus 4.7 基于录音转文字稿与各位同学的历史组会档案归纳整理。文章按每位汇报同学分节,包含「研究历程」「本次要点」「下次预期」「AI 实操建议」四部分。可能存在由音频转换、AI 幻觉造成的错误(特别是 AI 实操建议节中的论文 DOI、工具名、政策文件号),请阅读时甄别,以实际组会过程中的表达为准。


2026-05-20 组会记录

本期 WordPress 报告由 Claude Opus 4.7 整理。带「🤖 AI 实操建议」标记的内容需要甄别后使用。

出席与缺席

类型 名单
出席 李浩铭、管明露、李山岚、朱丹晨、王硕、马婧怡
缺席(明示) 周书发(刚完答辩相关讨论)、南迪柯(导师明示)
缺席(推断) 文柘青(疑似与周书发同行)
不参加(独立线) 刘畅
未到(用户确认) 杨瑞豪

本期讨论 6 位(按汇报顺序)

  1. 🎯 管明露 — 开题答辩反馈处理
  2. 🎯 李浩铭 — GPT 辅助论文语言修订
  3. 🎯 李山岚 — 大论文题目调整
  4. 🎯 王硕 — 小论文修改投稿
  5. 🎯 朱丹晨 — rotolo 弱信号识别论文精读
  6. 🎯 马婧怡 — 类似论文调研

🎯 一、管明露 — 开题答辩反馈处理

📚 研究历程

自 2025-10-29 入组以来的 17 周里,你围绕”集成电路领域新兴技术识别 + 政策激励效应”双线推进,方法在不断精细化:

  1. 测度方法奠基(2025-10 至 11):从 4 万条专利数据 BERTopic 测试起步(2021-2025 Top10 技术),早期按”反向思考提炼 3 个明确创新点”组织
  2. 方法融合期(2025-12 至 2026-01):BERTopic + 轮廓系数 + 综合评价模型成型,引入熵权法 + TOPSIS;14 万条专利 → 400 个技术主题面板数据(1920s-2025);创新点定为”BERTopic + HTM 融合方法”,加成熟度惩罚机制
  3. 论文出炉与扩展(2026-02 至今):小论文按《情报科学》模板打磨(已收集十余篇一区/二区英文文献替换参考),创新点细化到”层次主题模型 + 新颖度评价”;大论文走 2020 国家集成电路政策对新兴技术创新激励效应(DID),严格走平行趋势/安慰剂检验

主线:小论文 → 大论文(识别→政策计量)的递进式工作流。你的工作风格:修订响应度高(多次提”已根据上周意见…”),愿意主动检索高质量文献替换;方法上偏严谨(DID 标准检验全套走),但创新点表述偶需精炼。本次组会有外部专家答辩意见进来,是你方法论严谨度的一次重要考验。

📝 本次(2026-05-20)

你的汇报(开题答辩反馈处理)

  • 听完徐汉伟、孙老师、于老师的录音,整理三类问题:产业政策范围、对照组差异、中介效应可行性
  • 对照组问题:上市公司差异过大,AI 建议 PSM,但徐老师说差距太大 PSM 也不够
  • 收到孙老师指示:4.1 节扩到第三章,分”创新速度 + 技术识别”两小节

林老师指导

  • 试用门槛回归替代 DID(找 28 纳米边界附近、刚好卡门槛和刚好没卡门槛的企业做对照)
  • 开题报告不改,直接改大论文
  • 中介效应 X / Y 思路成熟后再约于老师二次确认
  • 数据收集思路 OK(一年一名单获取实验组,配合 PSM)

⏭️ 下次预期(2026-05-27)

  • [ ] 在毕业论文(不是开题报告)上做修改,融入上述变化
  • [ ] 尝试用「门槛回归」(28 纳米边界附近 PSM 匹配)替代 DID 思路,验证可行性
  • [ ] 给王硕发参考论文(多阶段动态 DID 范例)
  • [ ] 整理”中介效应 X=政策冲击 / Y=BERTopic 新兴技术数量”的思路后约于老师

🤖 AI 实操建议

Claude Opus 4.7,请甄别使用

① 门槛回归(RDD)的两种实现路径

  • Sharp RDD(如果 28 纳米是严格切断):
    • R 包:rdrobust + rdpower(Cattaneo et al.)
    • 步骤:以 28 纳米为切断点 → 拟合两侧多项式 → 估计跳跃 → 用 rdplot 可视化
    • 参考论文:Imbens & Lemieux (2008) “Regression Discontinuity Designs: A Guide to Practice”, Journal of Econometrics 142(2): 615-635
  • Fuzzy RDD(如果 28 纳米是申请门槛,仍需审批):
    • 加 IV 处理:用”是否达 28 纳米门槛”为工具变量预测”是否实际享受政策”
    • 比 Sharp RDD 更适合你的情境(你说审批不是自动的)

② 多阶段 / 动态 DID 实现(给王硕的范例)

  • R 包推荐:did (Callaway & Sant’Anna 2021) 或 bacondecomp (Goodman-Bacon 2021)
  • 参考论文:Callaway, B., & Sant’Anna, P. H. (2021). “Difference-in-Differences with multiple time periods”, Journal of Econometrics 225(2): 200-230
  • 关键术语让王硕检索:”staggered DID” / “event study” / “ATT(g,t)”

③ PSM + RDD 混合方案(针对你的具体困境)

既然 28 纳米卡线企业难找完美对照:
– 先 PSM 在所有未受政策企业中匹配出与受政策企业最相似的子集
– 再在 PSM 匹配后的子集上做 RDD(用 28 纳米为 running variable)
– 这样兼顾”差距不太大”和”识别严格”

④ 中介效应的 X/Y 准备文档(给于老师看的)

提议你这样写:

X(自变量):2020 国家集成电路政策冲击 (treatment indicator, 二值)
M(中介变量):企业 R&D 投入 / 高级人才引进 / 专利申请数量
Y(因变量):BERTopic+HTM 识别的新兴技术主题数量(连续)
逻辑链:政策 → 资源(M) → 新兴技术产出

中介效应方法推荐:Baron-Kenny 三步 或 Bootstrap 法(PROCESS macro / mediation R 包)

⑤ 应对徐汉伟”产业政策范围太大”质疑

在政策小节加:”本研究聚焦 2020 年国务院《新时期促进集成电路产业和软件产业高质量发展的若干政策》(”国发[2020]8 号”)中关于 28 纳米及以下制程的税收优惠政策。该政策具有明确时间节点、清晰判定标准(28 纳米及以下)、可观测的企业级名单”。

⚠️ 风险预警

  • 门槛回归对样本量敏感:28 纳米边界附近企业可能 < 30 家,需慎重
  • RDD 失败的概率不低:如果实际”卡线企业”分布稀疏,可能没法识别。可考虑放宽到”享受过一档税收优惠 vs 没享受过”做粗 DID
  • 注意徐老师的”试点是城市还是企业”混淆——你确实是企业试点,把这点在论文开头点清楚

🎯 二、李浩铭 — GPT 辅助论文语言修订

📚 研究历程

自 2024 入学的 17 周里,你的工作横跨小论文、大论文、市调大赛三线,方法库丰富:

  1. 方法探索(2025-10 至 12):双链融合 + BERTopic + CNRDS 平台 + 多链融合;OTSU / Top-K 阈值的链路预测;2025-11-19 排查”标签泄露”问题(权重错误写回原图);链路预测可视化优化(”三年一构图”改”每年单独建图预测”)
  2. 大论文开题(2026-01):定稿题目”双试点政策组合对城市创新质量的影响——以 AI 芯片为例”;扩为六章结构,DID 异质性/机制/空间溢出/内生性
  3. 小论文打磨(2026-02 至 04):引言”卡脖子→双链融合→AI”递进式重构(2026-02-04);GCN+LSTM 跑通 AUC 0.9(2026-04-23);TCN+LSTM 复现 AUC 0.8 未达发表标准 0.9+
  4. 最近(2026-05):LSGGCN+STM + 热力图 + 相似度相关性验证(2026-05-13)

你的两个工作风格:
逻辑构建强:习惯”卡脖子→双链融合→AI”递进式论证,是出版级论证范式
代码层面遇到过坑(标签泄露等),都通过模块化重写解决,对你后续工作很重要

⚠️ 存疑:2025-11-05 WordPress 提到”毕业论文答辩 PPT 准备”——与硕 2 进度不一致,请核实是否提前毕业。

📝 本次(2026-05-20)

你的汇报(分享 GPT 改论文经验)

  • 用付费 GPT 改论文(不是直接用 AI 输出,而是参考后自己重组)
  • 优化方式:删冗余转折词 / 没必要的形容词 / 不专业用词
  • 困惑:GPT 对新对话也有记忆,可能是付费时累积
  • 风险考虑:不想给 GPT 全文,但导师认为收益 > 风险

林老师指导

  • 第一句话给 GPT 全文为附件,避免前后选词矛盾
  • 数据训练用论文不必担心(论文本就要扩散);要担心改用 API 调用
  • 装 Codex / Cursor 桌面客户端编辑
  • 结果上看是好的,前后比较一致

⏭️ 下次预期

  • [ ] 给 GPT 上传论文全文为附件再试,避免前后选词不一致
  • [ ] 试装 Cursor 桌面客户端,对比体验
  • [ ] 开始写大论文(毕业论文初稿)

🤖 AI 实操建议

Claude Opus 4.7,请甄别使用

① Cursor 桌面客户端安装与使用

  • 官网:https://cursor.com — 基于 VSCode 的 AI 代码/文本编辑器
  • 安装后:File → Open 论文目录 → 选中段落 → Cmd/Ctrl+K 直接 inline 改写
  • 关键功能:@Codebase 让 AI 看到你整个项目,自动保持前后一致

② 保密性更高的方案:直接调用 Claude / Anthropic API

import anthropic
client = anthropic.Anthropic(api_key="sk-ant-...")
response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "请帮我把这段中文论文改写得更符合《科学学研究》风格..."}
    ]
)
  • Anthropic 默认不用 API 数据训练
  • Claude Opus 4.7 在学术写作(特别是中文)的能力强于 GPT-4

③ 用 GPT 改论文的 Prompt 模板

首条对话发:

你扮演《科学学研究》的资深审稿人,帮我润色下面这篇论文的中文表达。

要求:
1. 保持每个段落的核心论点不变
2. 减少冗余转折词(如多个"然而"、"但是"重复时合并)
3. 把口语化表达改为学术表达
4. 同一专业术语全文统一(如"创新链与产业链融合"别一会儿说"双链融合")
5. 保留具体数据和方法术语(BERTopic、AUC、双试点政策)

全文附件:[上传 PDF / 粘贴全文]

先告诉我你的统一术语词表,再分章节改写。

④ 中英文双版本工作流

  • 中文 master:权威版本
  • 英文版 = ChatGPT 翻译 → Cursor 用 @中文版.md 校对
  • 关键术语建一个”术语对照表 glossary.md”(中→英 一一对应)
  • 修改中文版后 diff 改动行,让 GPT 仅翻译这些行(节省 token)

⑤ 链路预测 AUC 0.8 → 0.9 的下一步

如果还要纠结链路预测算法:
– 试 GAT (Graph Attention Network) — 比 GCN+LSTM 在节点重要性上敏感
– 试 HAN (Heterogeneous Attention Network) — 如果你的双链有不同节点类型(专利 vs 企业)
– 论文范例:Wang et al. (2019). “Heterogeneous Graph Attention Network”, WWW 2019

⑥ 大论文六章预备

题目”双试点政策组合对城市创新质量的影响——以 AI 芯片为例”扩为六章,建议:
– 第一章:研究背景与意义
– 第二章:文献综述与理论框架
– 第三章:研究设计与数据
– 第四章:双试点政策识别与城市样本
– 第五章:实证分析(DID + 异质性 + 机制 + 空间溢出 + 内生性)
– 第六章:结论与展望

小论文(关键核心技术识别)作为附录或方法支撑章节,不要全塞进毕业论文正文。

⚠️ 风险预警

  • 2025-11-05 那个”毕业论文答辩 PPT”是 flag,确认是否提前毕业
  • GPT 改完的版本一定自己再通读,AI 偶尔会”中和”你的论证特色
  • Cursor 默认是云端,企业版才支持本地模型保密

🎯 三、李山岚 — 大论文题目调整

📚 研究历程

自 2024 入学的 17 周里,你的研究主线经历了三次清晰的选题调整,最终稳定在”AI 政策 → 城市算力创新”:

  1. 小论文成型(2024-2025 秋):HMM + BERTopic 技术演化主题挖掘 → 转投《情报学报》,路径明确
  2. 大论文方向曲折(2025-11 至 2026-01):先做”府际协作对 GPU 技术融合”(公管视角,2025-11-19 开题),评审指”不够公管、GPU 过于微观且私人产品属性强”被否;又尝试”科技创新政策对区域创新绩效”,2026-01-07 被否(过于陈旧);最终重拾”区域算力创新”
  3. 当前主线(2026-02 至今):人工智能政策对城市算力技术创新影响 — DID + PSM,18 城实验组 vs. 全国 285 地级市对照组;小论文已压缩到 17000 字按《情报学报》模板

工作风格两个特点:
方法名讲完整:倾向于把方法名/工具名讲完整(如「fsQCA 方法」「TOE 框架」),少缩写
选题适应性强:3 次选题被否都能快速调整找到新方向,这是硕士论文工作的关键能力

本次组会的核心议题——大论文题目本身——是上述适应过程的延续。

📝 本次(2026-05-20)

你的汇报(大论文题目调整)

  • 原题”人工智能创新发展试验区政策对城市算力创新韧性的影响研究”
  • 政策选择:用一个小政策(人工智能创新发展试验区),有明确时间节点
  • 担心被解释变量”算力创新韧性”被质疑(学姐”自创指标无依据”问题)
  • 退路:”数字创新生态系统运行” 或 “城市人工智能发展水平”(但人工智能出现两次)

林老师指导

  • 从两条路看”技术创新韧性”是否成立:① 韧性定义支不支持微观层面;② 现有研究有没有”创新韧性”提法
  • 把”算力”概念扩大一点(仍在人工智能范畴下)让有”创新生态系统”的感觉
  • 必须保持”小政策→针对的被解释变量”匹配,避免学姐”小政策→大被解释变量”陷阱

⏭️ 下次预期

  • [ ] 同时进行:(a) 改投稿后小论文;(b) 调整大论文题目
  • [ ] 关注小论文投稿系统进度
  • [ ] 调研:①”韧性”概念是否支持”技术创新”层级;② 现有研究有没有”创新韧性”提法(看几篇核心文献)
  • [ ] 探索把”算力”扩大到 “人工智能 / 创新生态系统” 范畴的两条路径

🤖 AI 实操建议

Claude Opus 4.7,请甄别使用

① “韧性 (Resilience)”概念溯源

  • 韧性理论源头:Holling, C. S. (1973). “Resilience and Stability of Ecological Systems”, Annual Review of Ecology and Systematics 4(1): 1-23 — 生态学起源
  • 引入社会科学:Adger, W. N. (2000). “Social and Ecological Resilience: Are They Related?”, Progress in Human Geography 24(3): 347-364
  • 引入创新研究:Bristow, G. & Healy, A. (2014). “Regional Resilience: An Agency Perspective”, Regional Studies 48(5): 923-935
  • 引入技术创新:搜 "innovation resilience" 在 Web of Science 2020-2026

快速验证:Google Scholar 搜 "innovation resilience" "city""technological innovation resilience",看 2020 年后文献量。如果 < 20 篇,是新提法,可用”借鉴 X 学者对 Y 概念的扩展”作论证开口。

② “算力创新生态系统”概念扩展两条路径

路径 A(基础设施层):算力创新生态 = 算力基础设施 + 算力应用 + 算力服务 + 算力人才 + 算力治理。用”全国一体化算力网”国家战略(2023 年国务院文件)作政策背景。

路径 B(技术-应用-政策三链):算力技术(芯片、算法)+ 算力应用(行业落地)+ 算力政策(试点、补贴)。类似双链融合在 AI 芯片研究的扩展。

③ 人工智能创新发展试验区政策文件

  • 2019 年科技部《国家新一代人工智能创新发展试验区建设工作指引》(”国科发高〔2019〕271 号”)
  • 已批复城市(截至 2024):北京、上海、合肥、杭州、深圳、济南、广州、武汉、西安、苏州、长沙、郑州、成都、青岛、天津、重庆、沈阳、哈尔滨(约 18 城)— 这正好对应你的实验组
  • 配套文件:地方版试验区建设方案(去地方政府官网下载)

④ 题目改写候选

  • A(保留”韧性”,扩”算力”):「人工智能创新发展试验区政策对城市算力创新生态系统韧性的影响研究」
  • B(去”韧性”,保留”算力”,换更聚焦因变量):「…对城市算力技术创新水平的影响研究」或「…对城市算力创新效率的影响研究」
  • C(最稳健):「人工智能创新发展试验区政策对城市算力创新影响的实证研究——基于 285 个地级市的双重差分检验」

⑤ 被解释变量”算力创新”测度的可行指标

  • 算力专利数(核心,G06F/G06N IPC 大类)
  • 算力相关高新技术企业数(科技部高企认定)
  • 算力相关公开发表论文数(CNKI/WoS”算力”主题)
  • 算力服务收入(统计年鉴”信息传输、软件和信息技术服务业”)
  • 综合指标用 PCA 或熵权法合成

⚠️ 风险预警

  • “韧性”作为公管概念在城市层面成立,但下沉到”技术创新韧性”在现有文献中支撑有限。建议优先用候选 B 或 C
  • 18 个试验区城市开始时间不一(2019-2024),多阶段 DID 是必要的(可向管明露借鉴方法)
  • 大论文进度紧——题目调整与小论文修改并行,注意分配精力

🎯 四、王硕 — 小论文修改投稿

📚 研究历程

自 2025-10-29 入组以来的 17 周里,你的研究方法经历了三次清晰的演进:

  1. 方法主观期(2025-10 至 11):早期用斜线阈值法画”专业聚焦度 vs 技术规模”散点图筛选典型企业,林老师当时点出主观参数选择缺乏说服力
  2. 方法客观化(2025-12 至 2026-01):转向双维度分位数阈值分类法(前 15% 双维度卡入象限),同时完成 49 主题专利数据深度清洗,建立”纵深型 / 广博型”企业区分,并通过 TOE 框架修正(环境敌对性、数据要素市场化)达成理论饱和
  3. 方法论创新期(2026-02 至今):把 BERTopic 语义距离测度转化为 fsQCA 隶属度,作为论文核心创新点,识别出多条强解释力路径

主线一直是”存算一体领域典型企业的技术突破驱动因素”,目标期刊《科学学研究》。同时在正大杯市调大赛走米粉文化购买意愿研究。性格特点:愿意主动用 AI 辅助但能识别 AI 的弱点(曾发现 AI 提取的关键词过于理工科化,回归人工阅读)。早期方法选择偏主观,后期都能在指导下转客观。

📝 本次(2026-05-20)

你的汇报(小论文修改投稿)

  • 文献综述每个 1.X 段压到 1 句,全文从 15000 缩到 13000;引言不加高体
  • 参考文献用 Zotero 7714 标注,但带 DOI,第二行缩进未自动生成
  • 摘要按”每条组态条件存在/不存在”描述(不再用 AI 起的组态名);研究局限保留后两点

林老师指导

  • 摘要第一段(存储墙/功耗墙)外行听不懂,需重写让外行马上明白”存算一体解决了什么 AI 计算问题”
  • 参考文献用 7714 不带 DOI 的旧版(2005)样式
  • 第二行缩进是段落”悬挂”格式,右键段落里改
  • 字数全文压到 12000 以内
  • 中图分类号 C273 去 test 网站核对

⏭️ 下次预期

  • [ ] 全文字数压到 12000 以内
  • [ ] 摘要重写为外行可读版(保留”存储墙/功耗墙”行业关键词)
  • [ ] 参考文献用 7714-2005 不带 DOI 重导
  • [ ] 悬挂缩进 / 第二行缩进格式修复
  • [ ] C273 中图分类号在《科学学研究》近期文章中比对确认

🤖 AI 实操建议

Claude Opus 4.7,请甄别使用

① 摘要外行可读改写参考版本(直接可用)

在 AI 大模型推理与训练日益普及的背景下,传统冯诺依曼架构由于存储与计算单元分离,数据需在内存与处理器间频繁搬运,造成显著的能耗与延迟瓶颈——业界称为「存储墙」和「功耗墙」,是制约下一代 AI 算力的关键障碍。存算一体技术通过将存储单元与计算单元在物理层面融合,有望从架构层面突破这一瓶颈。本文以存算一体领域典型企业为研究对象,基于 TOE 框架结合 BERTopic 语义距离测度与 fsQCA 组态分析方法,识别出推动技术突破的多条驱动路径……

注意:把”存储墙””功耗墙”在第一句就解释清楚,行业关键词得以保留同时让外行能 follow。

② 12000 字压缩优先级(按删/压顺序)

  • 方法部分:所有公式 → 改脚注或合并到一处(《科学学研究》允许)
  • 文献综述:每个 1.X 段保留 1 句核心命题 + 1 句研究缺口
  • 研究局限两点:合并为一段,每点 1-2 句
  • 结论部分:删冗余总结语,直接列每条组态的现象描述

③ 参考文献 7714-2005 不带 DOI 的 Zotero 样式

  • Zotero Style Repository: https://www.zotero.org/styles
  • 搜索 “GB/T 7714-2005 (numeric)” 或 “GB/T 7714-2005 老版”
  • 找不到的话:下载现有 7714-2015 的 .csl 文件,用文本编辑器删除 <group> 包裹 variable="DOI" 的整段,本地导入
  • 验证:导出 5 条参考文献,对比《科学学研究》近期文章格式

④ 悬挂缩进(第二行缩进)

  • Word:选中参考文献段落 → 右键 → 段落 → 特殊格式:「悬挂缩进」→ 度量值:2 字符
  • 快捷键:Ctrl+T 切换悬挂缩进
  • Zotero 导出时无法自动带这个格式,必须在 Word 里手动设置

⑤ 中图分类号验证

  • 你的论文是 fsQCA + 存算一体企业组态,建议核对:C931.6(管理决策技术)vs C273(科学技术管理)vs F407.61(电子工业经济管理)
  • 最快方法:打开《科学学研究》近 3 期已发文章看他们标的是哪个;如果同类研究都标 C931.6,你就标 C931.6
  • 工具:cct.cnki.net 或国家标准在线 GB/T 13745

⑥ 摘要”组态条件存在/不存在”描述格式示例

路径 1(适用于高技术规模企业):环境敌对性(存在)+ 数据要素市场化(存在)+ 企业家精神(不存在)→ 高技术创新
路径 2(适用于...):...

⚠️ 风险预警

  • 投《科学学研究》前再核一次他们对字数的要求(有些期刊从 12000 放宽到 15000)
  • 摘要重写不要丢”存储墙””功耗墙””存算一体” 三个关键词,行业读者搜索靠它们
  • 中图分类号错标不影响录用,但增加编辑沟通成本

🎯 五、朱丹晨 — rotolo 弱信号识别论文精读

📚 研究历程

自 2025-09 入学的 17 周里,你的研究方法和论文阅读能力都在快速进步:

  1. 课程为主期(2025-10 至 11):应用统计学等课程 5 报告(聚类/因子/回归);同时确认弱信号识别选题(新闻/专利/论文三数据源),从 30 篇文献结构化梳理起
  2. 数据收集起飞(2025-12 至 2026-01):BERTopic 3 万条复现成功(2025-12-25);弱信号识别框架:Top2Vec/BERTopic + 新颖性/关注度/成长性三维度
  3. 多源数据扩张与方法批判(2026-02 至今):批判主流”指标化方法”逻辑缺陷(”通过称重一本书来判断其内容”,2026-02-11);Transformer 智慧芽 1.6 万专利 + OpenAlex 2 万论文 + LexisNexis 近 2 万政策新闻;并行零售选址 NetLogo 复现(6600 条对账数据)

你的两个突出特点:
数据规模报得具体:”1500 条””6700 条””1.6 万”——你说数字时有信心
批判性思维:能识破主流方法的逻辑缺陷(指标化问题),这是研究者最珍贵的素质

本次组会反映出你的精读能力——你已经能识别原作的多处”细节未敲定”问题,这是博士级阅读功夫。

📝 本次(2026-05-20)

你的汇报(rotolo 五属性弱信号识别论文精读)

  • 五属性:新颖、快速增长、相干性、显著影响、不确定性
  • 三类公式(稀疏度 / 上年度 top50 相似度 / 年化增长)综合算弱信号得分
  • WS≥1.5 阈值无支撑;零分布 1000 次随机排布
  • 五类技术分类:真新兴/伪/学术滞流/工业孤岛/未分类
  • PI@K 评估准确率,正反例清单选取依据未交代

林老师指导

  • 把 4-5 个细节问题写到 word(细节计算、阈值依据、零分布抽样、正反例选取、中美对比为何加入、散点图意义)
  • 按 5 属性操作化作为主线重排”测度方法”章节
  • “不确定性”属性前文未充分说明,可优化
  • 引用阈值是论文思路但你的数据没有 → 在你自己实现中可标记为”待替代”

⏭️ 下次预期

  • [ ] 把以下问题写到 word 给老师(具体到段落 / 公式):
    • [ ] 三类指标详细计算过程缺失之处
    • [ ] WS≥1.5 阈值无支撑
    • [ ] 零分布 1000 次抽样依据
    • [ ] 正反例清单怎么选取(PI@K 评估的”标准答案”)
    • [ ] 中美对比为何加入(论文题目未提)
    • [ ] 散点图(真新兴 vs 学术滞后 8-10 年)解释依据
  • [ ] 按 5 属性操作化重排”测度方法”章节结构
  • [ ] 不确定性属性前文补充论证

🤖 AI 实操建议

Claude Opus 4.7,请甄别使用

① rotolo 五属性的标准化引用

  • 原始论文:Rotolo, D., Hicks, D., & Martin, B. R. (2015). “What is an emerging technology?”, Research Policy 44(10): 1827-1843. DOI: 10.1016/j.respol.2015.06.006
  • 经典综述,被引超 1500 次。你的论文必须直接引这篇,不能借他人转述
  • 在你的 word 笔记里标”五属性引用自 Rotolo 2015, RP”

② 零分布 1000 次抽样的标准依据

  • 假设检验中”零分布”= null distribution,用于做 permutation test(置换检验)
  • 标准参考:Good, P. (2005). “Permutation, Parametric, and Bootstrap Tests of Hypotheses”, Springer
  • 1000 次是”实用经验值”——P 值精度至 0.001 级。学术论文常报 1000 或 10000
  • 你写论文时可加:”参照 X 等研究(如 Y et al. 2020)的常用做法,本文采用 1000 次随机排布以构造零分布”

③ PI@K 评估的标准答案构建(Gold Standard)

弱信号识别评估的标准做法:
回顾性验证:选定一个”已发生”的新兴技术清单作为正例(如 2020 年后真的爆发的技术),看模型能否在 2015 年数据中”预测”它们
– 例:CRISPR、深度学习、mRNA 疫苗、区块链 → 2010 数据 → 模型能识别这些是弱信号吗?
专家标注:找 3-5 位领域专家对你模型输出的 Top-K 候选打分
负例:随机选已稳定 30+ 年的成熟技术作为反例

④ 按 5 属性重排测度方法章节的结构建议

3.1 新颖性(Novelty)测度
    - 操作化:稀疏度 + 上年度相似度 + 年化增长 → 综合 WS 得分
3.2 快速增长(Rapid Growth)测度
    - 操作化:复用 WS 中的年化增长成分
3.3 相干性(Coherence)测度
    - 操作化:节点强度(同术语在多源出现一致性)
3.4 显著影响(Prominent Impact)测度
    - 操作化:跨源共振(新闻+预印本+专利+论文多源认可)
3.5 不确定性(Uncertainty)测度
    - 操作化:传播滞后性(时间差)— 你说前文未充分说明,需补

⑤ “中美对比”是否保留的判断

  • 题目没说中美对比,建议作为案例附录而非论文主体
  • 但有学术价值:可作为”应用案例”放在结果分析的 5.3 节,1-2 页篇幅
  • 删的话,提到”未来研究方向”——保留拓展空间

⑥ 批判 rotolo 散点图的写作策略

作为读者批评图表时要给建设性建议:
– “图 X 展示了真新兴度(Y 轴)与学术滞后年数(X 轴)的散点关系。但若考察 X 轴极值(8-10 年),其分布稀疏度过高使得趋势难以可视化;建议改为相对滞后率(Lag/Total Period)或分箱柱状图,提升信息密度”

⚠️ 风险预警

  • 你已表现批判思维,但 rotolo 5 属性的指标化框架本身仍是主流。”批判 rotolo 是否分得彻底”会引出大问题。可接受 rotolo 框架,只批判他实施细节,不要否定他的范式
  • “称重判断内容” metaphor 发挥得好是亮点,但论文里只能 1 次,多了显得轻率
  • PI@K 评估如果自己做,需要 6 个月以上准备时间。建议先做”理论验证”(与已发生新兴技术对照),把”专家评估”作为下一论文计划

🎯 六、马婧怡 — 类似论文调研

📚 研究历程

自 2025-09 入学以来,你的研究方向探索是组内最活跃的:

  1. 课程开蒙(2025-10 至 11):matplotlib 中文显示问题;课程作业基本公共服务一体化 + 共同富裕(数字经济门槛 + AI 调节变量,熵值法,发现倒 U 型)
  2. 数字政府方向探索(2025-12 至 2026-01):维普 CQVIP 数字政府文本爬虫,1000+ → 200 有效;机器学习专利分析综述(GNN/X-BERT/K 近邻/伪标签);专利图像分析潜力方向
  3. 方向多次调整(2026-02 至 04):政策与技术关联性 → MCP API 专利数据 → 多模态专利价值评估(文本+图像)→ 新能源/动力电池政策(上政通 2017-2026)→ 中美政策数据整合 → 与朱丹晨协作后 Transformer 政策(LexisNexis 近 2 万条)
  4. 最终聚焦(2026-04 至今):美国政策爬取(国会/联邦公报)+ 中美政策风格差异分析(中国措施密集 vs 美国具体表述)

你工作风格的两个特点:
数据规模偏小时(如 30 多条)这是早期探索特征,不要据此误判方向
方向多次调整——硕士早期常态,但本次组会显示你已开始把”中美对比”作为核心问题

本次组会的核心是你看了一篇与你题目相似的论文,引发对”DID 适用性”的反思。

📝 本次(2026-05-20)

你的汇报(精读类似题目的论文)

  • 那篇论文研究”几年内政策环境累积影响”,你的是”单一时间节点效应”
  • 那篇论文用横向(中美/同公司同年)+ 纵向比较,没用 DID
  • 那篇论文的因果思路是”政策密集存在导致企业专利向政策靠拢”

林老师指导

  • 先把那篇 PDF 看明白,疑问标到 word(具体到段落)
  • 学习他的方法,但你需要把它换成 DID(学术界认可程度更高)
  • 你研究里需排除地区等控制变量

⏭️ 下次预期

  • [ ] 精读对比文章 PDF,把疑问标记成 word 给导师
  • [ ] 重点关注:该文如何做因果推理(横向/纵向比较,无 DID)
  • [ ] 列出”将该文方法换成 DID”需要补的实证设计
  • [ ] 思考:你的研究里要排除哪些控制变量(地区等)以使 DID 成立

🤖 AI 实操建议

Claude Opus 4.7,请甄别使用

① DID 替换横纵向比较的方法路径

如果要用 DID 而非那篇文章的横纵向:
核心 ATT 估计:处理组(受 2020 政策冲击企业 / 行业 / 地区)vs 控制组;因变量=专利文本与政策文本的相似度(用 BERT/Word2Vec 算 cos similarity);双向固定效应(企业/年份双 FE)
R 包fixest (Bergé 2018) 或 did (Callaway & Sant’Anna 2021)

② 专利文本向政策靠拢的”中介变量”建议

如果研究”政策 → 专利”机制,可在中间放:
企业 R&D 投入变化(统计年鉴)
政府补贴金额(年报附注 / 高新企业认定数据)
政策关键词在企业公告中出现频率(爬企业巨潮资讯网公告)

③ “政策密集存在”vs”政策时间节点”的方法对应

  • 政策密集(累积变量)→ 适合 OLS with policy intensity indexDID with time-varying treatment
  • 政策时间节点(二值变量)→ 经典 DID 或 staggered DID
  • 你说”单一时间节点”——可以用经典 DID

④ 中美对比的控制变量清单

核心控制变量(必须有):
– 企业规模(员工数 / 总资产取对数)
– 行业代码(ICB / SIC / GB)
– 企业成立年限
– 是否上市 + 上市地

中美对比还需控制:
– 国家固定效应
– 制度差异变量(如世界银行 Doing Business 评分)
– 货币 / GDP 差异(如果涉及金额)

⑤ 精读 PDF 时该问的 5 个问题(你 word 笔记模板)

1. 处理组 / 控制组怎么界定?样本规模?
2. 时间窗口怎么设?(如政策前 N 年 + 后 N 年)
3. 因果识别假设有哪些?(独立性、可观察性、SUTVA)
4. 内生性怎么处理?(PSM / IV / Heckman)
5. 稳健性检验做了哪些?(变量替换、子样本、安慰剂)

⑥ 文本相似度算法(你 DID 的 Y 变量)

  • sentence-transformers 库的 paraphrase-multilingual-MiniLM-L12-v2 模型可处理中英文专利与政策文本
  • 输出:每个专利 × 时间 × 政策 → 相似度矩阵
  • 这就是你 DID 的 Y 变量

⚠️ 风险预警

  • 你方向调整频繁。本次”中美对比”已经是第 4-5 次方向——在做大调整前,先用 1 周时间验证可行性
  • 中美比较的”可比性”问题是学术圈痛点。建议放在论文末段做”国际比较视角”,不作为主论点
  • DID 假设非常强(平行趋势、SUTVA)。事先验证 2018-2020 年的并行趋势

散会

本次组会横向看到 3 个共性主题值得整组借鉴:

  1. DID 与变形方法的灵活运用:管明露的门槛回归(28 纳米边界)、马婧怡的 DID 替换横纵向、李山岚的多阶段 DID 适用于试验区分批挂牌——这三人下次可以横向交流方法
  2. 概念溯源习惯:李山岚的”韧性”、朱丹晨的”rotolo 五属性”、王硕的”存算一体”——好论文都从”概念定义清晰”起步
  3. AI 工具实操水平参差:李浩铭已在用付费 GPT 改文字,王硕用 Zotero,朱丹晨用结构化文档——可形成组内”AI 工具最佳实践”

下次组会:2026-05-27(预计)
– 重点跟进:周书发预答辩结果、管明露门槛回归实验、李山岚题目敲定、王硕字数压缩 + 摘要、朱丹晨问题清单、马婧怡 PDF 精读
– 缺席学生:南迪柯、文柘青(如本周确实未到)的进展同步


🎭 本周彩蛋

📢 本周金句

“要尽量让实验组和对照组除了那个政策之外,别的都没啥区别。”
—— 林老师,讲 DID 因果识别为何如此苛刻

一句话浓缩了 Imbens、Heckman、Pearl 30 年实证因果工具方法论的核心:比谁的反事实更可信

🧠 本周新词,一句生活化类比

  • 门槛回归(RDD):研究”高考刚过录取线 vs 刚没过录取线”那 1 分之差的同学,他们几乎一模一样,唯一区别是上没上大学——这就是干净的因果。企业版:刚 28 纳米 vs 刚 28.1 纳米。
  • 零分布 1000 次抽样:把扑克牌洗 1000 次看会不会出 7 张顺子。如果只出 5 次,说明你这把是真有顺子,不是运气。
  • PI@K 评估:你说”今年高考状元前 10 名是 A、B、C…”,老师批改”你蒙对几个”。本质是模型的考卷判分。

🔮 下周占卜

基于本周轨迹,纯属虚构;如有雷同,纯属命中注定

  • 管明露 — 周五前会发现”卡 28 纳米门槛”的边界企业实际只有 7 家,其中 5 家还没上市,剩下 2 家拒接电话。彻夜未眠后被迫考虑改回 DID,于是凌晨 3 点又给于老师发了一封”老师我能不能再换个方向”的邮件,附件里是第 14 版开题报告。
  • 李浩铭 — 周二上午装上 Cursor,下午账号被风控(被误判为”频繁中文学术润色账户”),气得他打开 GPT-4o 准备投诉,结果发现 GPT 把他的论文摘要里”存储墙”翻译成了”a wall for storage”,瞬间释怀。
  • 李山岚 — 把”算力韧性”改成”算力创新生态系统韧性”再改回”算力创新水平”再改回”算力技术创新”。周日晚 11 点发现这其实和大论文第一版完全一样,安静地把题目复制粘贴到了一个新文档,命名为「题目终极版.v17.docx」。
  • 王硕 — 论文压缩到 12000 字。重写摘要后又超 80 字。删了一个”的”字,正好 11999。又加了一个”的”字以纪念这次努力。
  • 朱丹晨 — 把 6 个问题写到 word 里时变成 11 个。第 11 个是”我是不是该把『通过称重一本书来判断其内容』这个比喻也删掉?毕竟我连那本书的重量都不知道是多少。”
  • 马婧怡 — 精读 PDF 时遇到第 6 页一个公式,去问 GPT,GPT 告诉她去问 Claude,Claude 让她去问导师。最终她转向了第 7 页,然后发现第 7 页有 4 个公式。

本期 WordPress 报告由 Claude Opus 4.7(claude-opus-4-7)生成。所有「🤖 AI 实操建议」节内容(包括论文 DOI、工具链接、代码片段)均需自行核验,AI 可能存在以下错误:
1. 论文 DOI 编造或与作者/年份不匹配
2. 工具 / R 包名称变化或不再维护
3. 中图分类号映射错误
4. 政策文件名称或编号有误

林超然 · 整理于 2026-05-22(视觉与彩蛋订正版)

Avatar photo

Chaoran