组会记录 2026-06-04

汇报顺序:
硕 3: 周书发 → 文柘青 →
硕 2: 李浩铭 → 李山岚 →
硕 1: 王硕 → 朱丹晨 → 马婧怡 →
准硕 S2026: 南迪柯

注:本期组会记录由 Claude Opus 4.7 基于录音转文字稿与各位同学的历史组会档案归纳整理。文章按每位汇报同学分节,包含「研究历程」「本次要点」「下次预期」「AI 实操建议」四部分。可能存在由音频转换、AI 幻觉造成的错误(特别是 AI 实操建议节中的论文 DOI、工具名、政策文件号),请阅读时甄别,以实际组会过程中的表达为准。


2026-06-04 组会记录

本期讨论 8 位(按汇报顺序)

  1. 🎯 周书发 — 学校专家意见与 QCA 变量口径
  2. 🎯 文柘青 — 毕业论文答辩后意见处理
  3. 🎯 李浩铭 — 小论文初审与大模型/多模态学习
  4. 🎯 李山岚 — 算力技术创新大论文题目收束
  5. 🎯 王硕 — 存算一体小论文降 AIGC 与投稿前检查
  6. 🎯 朱丹晨 — 开题选题初探
  7. 🎯 马婧怡 — 中美政策-专利贴近度论文精读
  8. 🎯 南迪柯 — 本科答辩完成与新论文流程

🎯 一、周书发 — 学校专家意见与 QCA 变量口径

📚 研究历程

自 2025 年秋以来,周书发的大论文主线一直围绕“城市创新能力 / 颠覆性技术识别 / 集成电路与 AI 芯片实证”展开。早期先从颠覆性指数与城市技术创新度切入,随后转向 221 个城市样本匹配、国家创新型城市样本筛选,再把方法核心固定在 fsQCA 与动态 QCA。到 4 月,论文已经完成预审稿和第四章重写,进入外审、预答辩与正式答辩的最后冲刺期。

这条主线的优势是方法链条清楚,城市样本、专利切词、组态路径和政策建议之间有连续性;难点也恰好在这里:一旦专家质疑“城市变量能否解释 IC 产业”,就会牵动变量、组态、政策建议和答辩回复四个层面。本次讨论不是常规优化,而是毕业论文送审后的风险拆解。

📝 本次(2026-06-04)

你的汇报(学校专家意见与 QCA 变量口径)

  • 第二轮意见来自学校专家,集中在三个大问题:变量不够贴近 IC 产业、政策建议不够差异化、测度过程解释不足
  • 最难的是条件变量:高校数量、规上工业企业数等是城市维度,难以直接解释为 IC 产业维度
  • 政策建议已按不同组态写了七个大方向,但专家仍认为不够可操作
  • 下次提交时间是 6 月 8 日,重找数据并重跑 QCA 的时间非常紧

林老师指导

  • 政策建议问题不用大拆,可以在回复中逐条展示“哪一处如何改、如何对应组态、如何更可操作”
  • 变量问题先问高老师,确认能否接受“城市变量 × IC 产业比例”的折算口径
  • 比例数据可来自城市、省级或全国层面的公开材料;没有城市层级时,用省级/全国替代但要讲清楚
  • 用 Deep Research 或网页证据把比例来源整理成表,把“大问题”压缩成“比例口径是否合理”的细节问题

⏭️ 下次预期(2026-06-11)

  • [ ] 完成 6 月 8 日前的学校专家意见回复
  • [ ] 明确高老师对变量折算方案的态度
  • [ ] 准备一版最小重跑 QCA 结果或至少说明为什么无法大规模重跑
  • [ ] 政策建议回复逐条对齐组态路径

🤖 AI 实操建议

① 变量折算表可以这样组织

把专家质疑转成一张“原变量—产业化口径—比例来源—替代层级—风险说明”表:

原变量 产业化处理 比例来源 替代层级 说明
高校数量 高校数量 × IC 相关专业比例 高校专业目录/学院官网 城市优先、省级替代 反映本地 IC 人才供给
规上工业企业数 规上工业企业数 × IC 产业占比 统计公报/产业报告 省级或全国 反映本地 IC 产业主体规模
创新资源投入 R&D 投入 × 电子信息/IC 比例 年鉴/公报 省级替代 反映 IC 方向创新资源

② 回复专家时的句式

可以写成:“感谢专家指出本文条件变量产业指向性不足的问题。受城市层面 IC 产业细分统计数据可得性限制,本文在保持原城市创新能力指标体系可比性的基础上,进一步引入 IC 产业关联比例对相关变量进行折算,以增强条件变量对 IC 产业创新能力的解释力。”

③ Deep Research 提示词

请帮我为论文变量折算收集证据:目标是把城市层面的高校数量、规上工业企业数、R&D投入折算为集成电路产业相关变量。请按城市/省份/全国三个层级搜索公开网页,输出:指标、可用比例、来源标题、发布时间、URL、适用城市或省份、局限性。

⚠️ 风险预警

  • 折算后 QCA 结果可能变化,答辩回复里要预留“稳健性/敏感性检验”的说法
  • 固定比例不能解释城市差异,能用城市层级就不要偷懒用全国层级
  • 如果数据来不及完整重跑,至少要把“为何不重跑、为何不影响主要结论”写清楚

🎯 二、文柘青 — 毕业论文答辩后意见处理

📚 研究历程

文柘青在公开组会中出现不多,但历史档案显示,他的大论文主线是“集成电路政策对专利质量的影响”,方法上以 DID 和专利文本/质量测度为核心。相比组里其他同学,他更接近毕业论文收尾状态,本次发言呈现的是典型的答辩后多评委意见汇总:格式、概念、对照组、理论基础、指标解释、政策建议几乎都被扫到。

这类阶段的核心不是继续追求理论上的完美,而是让每一条专家意见都有“可见动作”。换句话说,论文已经进入“稳住全局、精准补丁”的阶段。

📝 本次(2026-06-04)

你的汇报(答辩后意见处理)

  • 已先处理表格线、图表目录、字体、参考文献对齐、章节引用等格式问题
  • 实质意见包括:数量/质量维度依据、政策筛选是否主观、日本对照组是否合理、理论基础名称是否规范
  • “选择性产业政策”是否删除很纠结,因为正文、标题、页眉、结构和参考文献都已围绕它展开
  • 政策建议部分被指出与前文结论关联不足,且标题和冒号有 AI 痕迹

林老师指导

  • “选择性产业政策”不宜现在整篇删除,重点是把政策、理论、方法或变量中的选择性关系说清楚
  • 日本对照组的回应要写在“为什么选日本”的方法位置,不能只放背景
  • 可说明日本政策比中国更宽泛、不够垂直,因此仍能作为相对弱政策信号的对照
  • 政策建议必须直接来自本文研究结论,不要再借别人文献来提自己的建议

⏭️ 下次预期(2026-06-11)

  • [ ] 对照组位置补充日本政策宽泛性说明
  • [ ] 理论基础名称替换为更标准的学术理论
  • [ ] 政策建议逐条改成“根据本文结论……因此建议……”
  • [ ] 系统中保持最新版本,等待系里审批

🤖 AI 实操建议

① 日本对照组回应段落

可直接改写为:

本文选择日本作为对照对象,并非认为日本不存在集成电路相关产业政策,而是基于政策信号强度与垂直选择性差异进行设定。相较于中国围绕集成电路重点环节形成的持续、密集且方向相对稳定的政策组合,日本相关政策更多嵌入较宽泛的产业振兴或技术发展框架中,对特定技术方向的垂直牵引强度相对较弱。因此,日本样本可作为相对弱政策信号环境,用以比较政策文本导向对专利创新行为的差异化影响。

② 政策建议重写模板

每条建议按“三段式”写:

  • 研究发现:本文发现 A 组样本/路径/变量呈现……
  • 问题判断:这说明当前政策执行中存在……
  • 政策建议:因此建议从……入手,采取……

这样可以避免“建议像 AI 汇总的常识清单”。

③ 参考文献与政策链接

政策文件如果是网页来源,可按 GB/T 7714 网络资源格式处理:作者/机构、题名、发布日期、访问路径。不要因为“政策建议不查文献”就把前文中必要的政策来源全删掉。

⚠️ 风险预警

  • 如果只说“日本也有政策但仍作为对照”,会像强行解释;必须强调政策密度和垂直性差异
  • 现在不适合大规模改题,任何改法都应以不推翻全文为前提
  • 政策建议里的冒号、小标题、套话最容易暴露 AI 痕迹,优先手动修

🎯 三、李浩铭 — 小论文初审与大模型/多模态学习

📚 研究历程

李浩铭的研究一直有两条技术线:小论文做 AI 芯片关键核心技术识别,经历了 BERTopic、网络分析、链路预测、GCN+LSTM、TCN+LSTM、LSGGCN+STM 等多轮方法迭代;大论文则围绕“双试点政策组合对城市创新质量的影响”展开 DID 设计。过去几个月他的关键词是“性能基线”“图表可视化”“论文语言修订”,本周开始明显转向“下一篇/下一阶段的方法储备”。

这次汇报很像从“把当前论文送出去”切到“把未来工具箱补起来”:Hugging Face、tokenizer、采样参数、Transformer、多模态向量,这些不是当前小论文的最后补丁,而是下一阶段研究能力的底座。

📝 本次(2026-06-04)

你的汇报(小论文初审与大模型/多模态学习)

  • 小论文已修改并进入初审
  • 听哈工大老师多模态报告后,开始系统补大模型与 Python 基础
  • 学习 Hugging Face、模型配置文件、tokenizer、temperature、top-k/top-p、position encoding、Transformer 和多头注意力
  • 思考未来能否用大模型或多模态方法做更细致的技术分类

林老师指导

  • 不必把底层细节学得过深,关键是理解工具能做什么
  • 文本模型是“把文字转向量”,CLIP / DINOv2 这类视觉模型可理解为“把图像转向量”
  • 多模态接入后,后续仍可进入你熟悉的聚类、相似度、识别和预测流程
  • “判断单个专利先进不先进”太底层,需要找更宏观的研究目的

⏭️ 下次预期(2026-06-11)

  • [ ] 继续跟进小论文初审状态
  • [ ] 整理一张“多模态工具—可回答问题—可接入论文位置”表
  • [ ] 设计 1-2 个比“单件专利价值判断”更宏观的问题
  • [ ] 提醒林老师补充苏州汇报中的多模态流程案例

🤖 AI 实操建议

① 多模态别从“模型名”开始,从“证据源”开始

可以把你的专利研究拆成三类证据:

  • 文本:摘要、权利要求、说明书 → sentence-transformers / BGE / OpenAI embeddings
  • 图像:专利附图、芯片结构图、流程图 → CLIP / DINOv2 图像向量
  • 结构:IPC、引用网络、同族专利、申请人网络 → 图网络或传统网络指标

研究问题不写“我用了多模态”,而写“多源证据能否提高关键核心技术识别的稳定性”。

② 一个可试的小实验

先抽 200 件 AI 芯片相关专利:

  1. 文本向量做聚类,得到主题 A
  2. 附图向量做聚类,得到主题 B
  3. 比较 A/B 是否一致
  4. 找出“文本相似但图像结构不同”的专利,作为潜在技术分化点

这比“判断先进不先进”更适合论文,因为它回答的是技术路线分化。

③ 学习资源路径

  • Hugging Face 模型库:https://huggingface.co/models
  • sentence-transformers 文档:https://www.sbert.net/
  • DINOv2 项目页:https://github.com/facebookresearch/dinov2

⚠️ 风险预警

  • 多模态不是把图像塞进去就创新,必须对应一个原文本方法解决不了的问题
  • 专利附图质量参差不齐,OCR、图像尺寸、重复图会制造噪声
  • 当前小论文仍以初审维护为优先,别让新工具学习把返修响应节奏冲散

🎯 四、李山岚 — 算力技术创新大论文题目收束

📚 研究历程

李山岚的研究主线经历过几次选题转弯:从府际协作与 GPU 技术融合,到区域算力创新,再到人工智能政策对城市算力技术创新的影响。她的小论文已围绕 GPU / 算力技术演化、BERTopic-HMM 等方法形成较完整材料,大论文则一直在寻找“政策冲击—城市层面—算力创新”之间最稳的连接方式。

5 月的选题方案曾尝试把被解释变量升级为“城市算力技术创新韧性”,用“卡脖子”作为冲击源,形成抵抗、恢复、演化三维指标。这条路理论上更厚,但答辩风险也更高。本次组会把策略拉回一个更务实的判断:先跑“城市算力技术创新”结果,实证跑得通再决定概念是否升级。

📝 本次(2026-06-04)

你的汇报(算力技术创新大论文题目收束)

  • 小论文参考文献导入存在类型识别错误,个别文献显示 Z 或会议格式
  • 大论文担心 AI 试验区政策文本没有直接写“算力”,题目支撑不足
  • Y 指标可用算力相关专利,从数量、质量、宽度等方面构建,再用熵权法或层次分析法合成
  • 智能经济、城市治理、人工智能技术创新作为备选题目保留

林老师指导

  • 参考文献先 refresh 或重插,投稿前仍不行再手动修
  • 政策虽然没直接写算力,但可通过硬件、基础设施、地方实施方案中的算力表述建立联系
  • 先跑“人工智能试验区政策对城市算力技术创新水平/创新”的 DID
  • 当前六章结构不要再加章,第三章标题要能容纳变量设计、识别和测度

⏭️ 下次预期(2026-06-11)

  • [ ] 完成算力相关专利指标整理
  • [ ] 跑出第一版 DID 结果,至少判断方向和显著性
  • [ ] 在政策介绍小节补政策与算力的桥接段
  • [ ] 修复参考文献异常

🤖 AI 实操建议

① 题目建议先稳一点

当前更稳的题目是:

国家新一代人工智能创新发展试验区政策对城市算力技术创新的影响研究

先不急着加“韧性”。等 DID、机制和稳健性跑出来,如果发现政策对波动率、技术多样性、恢复速度等指标有清晰影响,再把“韧性”升级为论文核心概念。

② 政策—算力桥接段

可写为:

尽管国家新一代人工智能创新发展试验区政策文本并非均以“算力”为直接表述对象,但其围绕人工智能基础设施、智能硬件、数据资源、应用场景开放和产业生态建设展开的政策安排,构成城市算力技术创新的重要制度环境。尤其在地方实施方案中,部分试验区进一步将智能计算中心、算力平台、AI 芯片和基础设施建设列为重点任务,说明该政策虽以人工智能创新为总目标,但在执行层面已通过硬件基础设施和场景应用与算力技术创新发生连接。

③ Y 指标别只合成一个总指数

建议同时保留:

  • 数量维度:算力专利申请量/授权量
  • 质量维度:被引次数、权利要求数、同族规模
  • 宽度维度:IPC 宽度、主题宽度、技术类别多样性
  • 综合指数:熵权法合成

回归时总指数 + 三个分指数都跑,哪一个显著,后面机制就围绕哪一个写。

⚠️ 风险预警

  • 如果 Y 全靠专利,论文厚度可能不足,要靠机制、异质性、稳健性补足
  • “AI 政策—算力创新”的桥接必须写在政策介绍处,不能等到实证后才解释
  • 智能经济备选不要现在铺开,否则会稀释主线

🎯 五、王硕 — 存算一体小论文降 AIGC 与投稿前检查

📚 研究历程

王硕的小论文已经从“存算一体典型企业”一路走到比较完整的 TOE + fsQCA 组态分析。过去几个月,他处理过语义距离测度、典型企业筛选、摘要重写、字数压缩、参考文献格式和中图分类号等问题。到 5 月底,论文已经进入投稿前的最后几项技术处理:字数、格式、文献、摘要和表达。

本次看似在讨论 AIGC 检测,实际仍是投稿前质量控制:既要降低平台误判风险,又不能把论文改成“为了不像 AI 而不像人写的东西”。这一步的难点在平衡。

📝 本次(2026-06-04)

你的汇报(降 AIGC 与投稿前检查)

  • 论文文字问题基本处理完,参考文献格式也已向李浩铭确认
  • 用 GPTZero 类平台查 AIGC,整体约 53%,担心投稿风险
  • 摘要和引言重写后,局部检测已降到 1%
  • 字数已压到约 11700,接近期刊要求

林老师指导

  • 投稿未必查这些平台,但 AIGC 可作为最后一道工序处理
  • 先确保正文、参考文献、格式、逻辑无误,再降 AI
  • 不要为了检测值把文字改得不自然
  • 可试试能定位句子的检测工具,不要被单一平台数值吓住

⏭️ 下次预期(2026-06-11)

  • [ ] 完成投稿前终稿
  • [ ] 重点段落降 AIGC,保留自然表达
  • [ ] 用可定位工具辅助检查
  • [ ] 终稿发林老师逐段看

🤖 AI 实操建议

① 降 AIGC 的顺序

不要全篇乱改,按风险优先级:

  1. 摘要:最容易被检测,也最容易模板化
  2. 引言第一段:AI 常写成“随着……不断发展”
  3. 文献综述过渡句:高频套话最多
  4. 结论与建议:最容易出现泛泛而谈

方法章节和结果解释不要大改,术语稳定比检测值更重要。

② 改写原则

把 AI 式表达改成“你的研究过程表达”:

  • 原句:“本文从技术、组织、环境三个维度构建分析框架。”
  • 可改:“前文的案例筛选和变量校准表明,单一技术条件难以解释企业差异,因此本文把影响因素拆到技术、组织和环境三个层面。”

后者更像真实研究者在交代推理过程。

③ 自检清单

  • 是否连续出现“此外、同时、因此、综上”?
  • 是否每段第一句都很宏大?
  • 是否有“具有重要意义、提供理论参考”这类空泛尾句?
  • 是否每条建议都能回扣某个组态路径?

⚠️ 风险预警

  • 检测平台数值不能代替学术质量判断
  • 过度改写会破坏 TOE / fsQCA 术语一致性
  • 如果终稿再大幅改动,参考文献、摘要和结论可能需要同步再查一遍

🎯 六、朱丹晨 — 开题选题初探

📚 研究历程

朱丹晨过去的主线是“后 Transformer 时代新兴技术弱信号识别”,围绕新闻、专利、论文多源数据和 BERTopic/Top2Vec 等方法持续推进;同时也在做正大杯与零售选址数据项目。本次她明显从小论文方法打磨转向开题选题摸索:先用 DID 这个常见计量框架做入口,再用公共管理学科边界筛选题目,试图从“城市韧性”里找一个细分方向。

林老师这次重点提醒的是,不能让方法反客为主。好的开题选题不是“我能用 DID 跑什么”,而是“某个公共治理问题为什么需要被研究,DID 是否刚好能识别它”。这也提醒她:如果从弱信号识别转到城市创新韧性,最好把“技术冲击/外部冲击”与原来的技术变化敏感性连接起来。

📝 本次(2026-06-04)

你的汇报(开题选题初探)

  • 按 DID 和公共管理学科范围检索题目
  • 初步关注城市韧性,尤其是经济韧性、生态韧性、创新韧性
  • 发现创新韧性相关学位论文较少,指标体系不成熟
  • 想继续沿“城市韧性细分方向”寻找选题

林老师指导

  • 先问现实意义:研究出来能解决什么问题
  • 韧性必须有冲击源,生态韧性能对应污染,创新韧性也要说明受到什么冲击
  • 不要做耦合协调,算法底层太套路,经不起追问
  • 选题要同时满足有意义、没人充分研究、变量关系成立、数据可获得

⏭️ 下次预期(2026-06-11)

  • [ ] 列 3-5 个候选题,每个写明现实问题和冲击源
  • [ ] 剔除耦合协调类题目
  • [ ] 为每个候选题标注数据来源和政策时间点
  • [ ] 找一篇最接近的高质量范文拆结构

🤖 AI 实操建议

① 候选题筛选表

你可以用这张表筛题:

候选题 现实问题 政策/冲击 被解释变量 数据来源 最大风险
X 政策对城市创新韧性 外部技术冲击下城市创新恢复 实体清单/试点政策 专利恢复速度/多样性 专利库/年鉴 韧性定义空
X 政策对城市韧性 城市应对灾害/风险 韧性城市试点 韧性指数 年鉴/公开指数 研究太多

② 每个题目先写三句话

现实问题:为什么这个问题值得公共管理研究?
政策或冲击:什么事件让我们能识别影响?
结果变量:为什么这个结果变量能代表治理成效?

三句话写不出来,就先不要查数据。

③ 先别碰耦合协调

耦合协调模型看起来容易出图,但答辩时很容易被问:“为什么这两个系统一定要耦合?公式权重为什么这样设?高低到底说明什么?”新手开题阶段不建议把主线压在这里。

⚠️ 风险预警

  • 研究少可能意味着没人认可这个概念,不一定是机会
  • 只改指标不改问题,创新通常不够
  • 先方法后问题容易走偏,DID 只能当工具,不能当题目本身

🎯 七、马婧怡 — 中美政策-专利贴近度论文精读

📚 研究历程

马婧怡的主线一直在政策文本、技术关联性和多模态专利价值之间摆动。5 月 20 日她已经开始精读类似题目论文,区分“政策环境累积影响”和“单一时间节点效应”,并确认自己的方案需要用 DID 提升因果识别。本周她把精读推进了一步:不只是读懂对方做了什么,而是明确指出对方把相关性写成因果的漏洞。

这个变化很关键。开题阶段最怕只会复述范文,能指出范文的问题,才有机会把自己的设计讲成“改进”而不是“模仿”。

📝 本次(2026-06-04)

你的汇报(论文精读与选题改造)

  • 精读一篇中美政策与专利文本贴近度论文
  • 该文认为中国政策密集、美国政策稀疏,因此中国专利文本更贴近政策
  • 你认为问题在于:它只观察到两个现象,却直接推出因果关系
  • 你更认可此前 Word 里的 DID 思路,因为能检验政策导向效应和企业“蹭热点”行为

林老师指导

  • 这篇文章确实像是用相关性下因果结论
  • 你已有政策数据,小论文和大论文选题可以尽量保持一致
  • 先把论文问题整理成几段文字发给老师
  • 再基于现有数据和方案,改造一个正式开题题目与验证结构

⏭️ 下次预期(2026-06-11)

  • [ ] 发出论文批判段落
  • [ ] 发出开题题目和验证结构草稿
  • [ ] 列出 DID 控制变量清单
  • [ ] 不等下次组会,提前让老师看

🤖 AI 实操建议

① 批判段落模板

可以这样写:

该文识别了“中国政策信号更密集”与“中国专利文本更贴近政策方向”两个事实,但并未充分证明前者导致后者。其核心不足在于缺少政策冲击前后的比较,也缺少同类企业、同类技术在不同政策环境下的反事实对照。因此,文章更接近政策文本与专利文本的相关性分析,而非严格意义上的政策导向效应识别。

② DID 题目改造方向

题目先写成朴素版:

政策导向是否影响企业专利文本策略?——基于中美同族专利文本的双重差分研究

再根据数据改成硕士论文题目:去掉冒号式口吻,明确政策对象、样本和结果变量。

③ 控制变量清单

企业层面:研发投入、企业规模、专利存量、行业固定效应
地区层面:GDP、人力资本、市场化水平、数字基础设施
技术层面:IPC 大类、技术成熟度、同族规模
时间层面:年份固定效应、政策前趋势

⚠️ 风险预警

  • 如果美国政策只用一项,跨国比较会被质疑信号不对等
  • 同族专利文本差异可能来自翻译、法律制度和审查要求,不全是政策迎合
  • “蹭热点”需要可操作定义,不能只当一个生动说法

🎯 八、南迪柯 — 本科答辩完成与新论文流程

📚 研究历程

南迪柯的历史主线集中在本科毕业论文:老年用户在线政务服务、县域行政视角下的适老化建设,以及 LDA/BERTopic 等算法学习。她已经经历开题、中期、预答辩和定稿,本周终于进入“答辩完成”的节点。对一个准硕来说,这意味着本科论文线可以收束,新的硕士研究训练可以更正式地接上。

本次她的发言很短,但信息量不小:一方面是行政材料和毕业流程,另一方面是开始把主题、概念证据和数据流程往新论文训练上推进。

📝 本次(2026-06-04)

你的汇报(本科答辩完成与新论文流程)

  • 本科答辩已经完成
  • 近期按要求把前面内容重新做了一遍
  • 补充每个主题对应的概念证据,目前第一个链接基本呈现出来
  • 咨询调档时是否需要思政考核表

林老师指导

  • 思政考核表和调档材料先问学生工作办公室或辅导员
  • 先确认学校这边需要什么,再看原学校配合出什么
  • 新论文工作继续往下推
  • 可先用小样本跑通流程,真实专利数据到位后再替换

⏭️ 下次预期(2026-06-11)

  • [ ] 明确调档与思政考核表要求
  • [ ] 继续补主题对应概念证据
  • [ ] 用小样本跑通论文流程
  • [ ] 记录每一步输入、输出、参数和问题

🤖 AI 实操建议

① 小样本流程记录表

建议你从现在开始建一个 workflow_log.md

步骤 输入 工具/代码 输出 问题
数据导入 20 条样本专利 Python pandas cleaned.csv 字段缺失
文本清洗 摘要/标题 jieba / regex tokens.csv 专业词切错
主题识别 tokens.csv BERTopic/LDA topics.csv 主题过碎
证据链接 topic_id 人工核对 evidence.md 链接需补

以后真实数据替换时,你不是“重新做”,而是“放大运行”。

② 概念证据建议

每个主题至少保留三类证据:

  • 政策或报告中的概念来源
  • 论文中的理论定义
  • 专利/新闻/案例中的实践例子

这样后面写文献综述、方法解释、结果讨论都能复用。

③ 行政材料处理

调档、政审、思政考核表这类材料尽量形成清单:材料名称、出具单位、盖章要求、提交截止日、联系人。不要只按同学口头经验办。

⚠️ 风险预警

  • 小样本跑流程时也要保存代码和参数,否则真实数据会从头踩坑
  • 概念证据不能只贴链接,要写一句“该证据支持什么定义”
  • 行政材料不要拖到截止日前两天,盖章链条常常比想象慢

散会

这次组会的共同主题是“把大问题压成可处理的小问题”:变量层级、对照组合理性、政策与算力的连接、AIGC 检测、开题选题意义,表面都很吓人,但最后都要落回一张表、一段说明、一版初跑结果或一个更稳的题目。

6 月底开题/中期时间口径还不完全清楚,先按提前准备推进。真提前了不慌,没提前也赚到一版主体材料。


🎭 本周彩蛋

📢 本周金句

“它带来的一个好处就是把一个明显的问题隐藏到一个细节问题了。”
—— 林老师,讲周书发的 IC 产业变量折算

这句话听起来像“学术防御术”,其实是论文修改的常见真理:大漏洞很难硬扛,合理的口径、表格和证据链能把它拆成可讨论、可回应、可接受的小问题。

🧠 本周新词,一句生活化类比

  • 城市变量产业化折算:像把全校平均成绩换算成某个专业的估计成绩,不能完美,但比拿全校成绩直接说专业水平更讲得通。
  • 政策文本贴近度:像学生写申请书时把措辞往通知要求上靠,不一定事情变了,但表达会更像政策想看的样子。
  • AIGC 降重:像把过于标准答案式的作文改回自己的说话节奏,不能只为了不像模板而写得别扭。

🔮 下周占卜

基于本周轨迹,纯属虚构;如有雷同,纯属命中注定

  • 周书发 — Deep Research 交出一张比例表,高老师一句“可以,但要稳健性”让 QCA 又跑起来。
  • 文柘青 — 政策建议终于不再引用别人文献,但删冒号删到怀疑人生。
  • 李浩铭 — 学会了 CLIP,第一反应是“那专利附图能不能也聚类一下”。
  • 李山岚 — 算力 DID 初跑显著,韧性概念在门口探头:“要不我再回来?”
  • 王硕 — AIGC 从 53 降到 8,代价是看每个“此外”都像看嫌疑人。
  • 朱丹晨 — 候选题表做到第 4 个,终于发现“数据可得”才是真正的导师。
  • 马婧怡 — 论文批判段落写完,发现自己已经比原文作者更懂这篇文章的漏洞。
  • 南迪柯 — 思政考核表顺利问清,workflow_log 第一行正式开张。

林超然 · 整理于 2026-06-04

Avatar photo

Chaoran