汇报顺序:
硕 3: 周书发 →
硕 2: 管明露 → 李浩铭 →
硕 1: 王硕 →
准硕 S2026: 南迪柯
注:本期组会记录由 Claude 基于录音转文字稿与各位同学的历史组会档案归纳整理。文章按每位汇报同学分节,包含「研究历程」「本次要点」「下次预期」「AI 实操建议」四部分。可能存在由音频转换、AI 幻觉造成的错误(特别是 AI 实操建议节中的工具名、数据库入口、政策或期刊口径),请阅读时甄别,以实际组会过程中的表达为准。
2026-06-17 组会记录
本期讨论 5 位(按汇报顺序)
- 🎯 周书发 — 毕业论文全流程复盘与 QCA 选题边界
- 🎯 管明露 — 集成电路上市公司样本与专利数据源
- 🎯 李浩铭 — RAG、图像向量与多模态研究接口
- 🎯 王硕 — 咨询报告、AIGC 修改与 fsQCA 审稿意见预案
- 🎯 南迪柯 — BERT / Transformer 环境配置与文本分类入门
🎯 一、周书发 — 毕业论文全流程复盘与 QCA 选题边界
📚 研究历程
周书发的大论文主线从城市创新能力、颠覆性技术识别、AI 芯片实证一路推进到 fsQCA / 动态 QCA。过去几个月最关键的变化,是从“怎么把方法做出来”转向“怎么让研究对象、条件变量和公共管理学科边界对齐”。6 月初学校专家集中追问变量是否贴近 IC 产业、政策建议是否差异化,本周则在毕业流程结束后,把开题、中期、结题、预审、外审、答辩和后续复审的经验做了一次集中复盘。
这次分享对后面同学很有价值:它不是某一篇论文的局部修改,而是一次毕业论文风险地图。QCA 论文最容易出问题的地方,不只是软件结果,而是变量、对象、题目和学科归属是否能互相支撑。周书发最后的解决路径是把题目、政策属性和 IC 产业创新能力重新压到同一个叙事里,同时把每一轮专家意见转化为可见修改。
📝 本次(2026-06-17)
你的汇报(毕业流程与论文风险复盘)
- 系统回顾了从开题、中期、结题到预审、外审、答辩及后续复审的完整流程
- 提醒后续同学:QCA 变量必须和研究对象统一,城市变量解释 IC 产业时要提前补足产业指向
- 分享了题目与学科边界处理经验:只要整体问题与政策相关,公共管理属性可以通过题目和政策建议呈现
- 说明答辩后修改会形成多轮意见表,最终可能分为有条件授予和无条件授予两类结果
林老师指导
- 对后续同学来说,实习与读博目标要区分;读博更看成果和现场交流
- 最终论文系统提交前,务必保持最新版本,不能漏掉答辩后定稿
- 对 QCA 或政策论文来说,题目字数、学科边界、变量解释和政策建议来源都要提前纳入风险清单
- 后续同学要把这次复盘当作“毕业论文流程样本”,不要等到答辩后才第一次理解规则
⏭️ 下次预期(2026-06-24)
- [ ] 完成最终论文版本更新与系统提交
- [ ] 把毕业流程、修改意见表和关键材料整理成可复用清单
- [ ] 将 QCA 变量口径与专家质疑点沉淀给后续同学参考
- [ ] 若系统开放或学院通知变化,及时同步最终提交时间点
🤖 AI 实操建议
① 做一张“毕业后验风险表”
建议把自己的经历整理成 5 列:流程节点、材料名称、常见意见、实际修改动作、给师弟师妹的提醒。尤其要把“变量与研究对象不统一”“政策建议不从结果推出”“题目过长或学科归属不清”放在最前面。
② QCA 论文的答辩前自查句式
可以直接给后续同学一段模板:
本文的结果变量是 X,条件变量 A/B/C 分别从资源、主体和环境维度解释 X。虽然部分指标来自城市层面,但其进入模型的理由不是描述城市一般发展水平,而是作为影响 IC 产业创新能力的外部条件。因此,本文在变量说明中补充了产业指向、代理逻辑和数据可得性的限制。
③ 资源链接
fsQCA 软件和中文手册入口可先看 Charles Ragin 团队页面:https://sites.socsci.uci.edu/~cragin/fsQCA/software.shtml 。后续如果要给师弟师妹做方法培训,建议同时保留一个“本组常用参数与截图”文件,因为软件手册不能替代本组论文里的具体口径。
⚠️ 风险预警
- 复盘稿不要写成情绪记录,要写成后续可执行清单
- “公共管理属性”不能只靠一句话,需要题目、变量解释和政策建议共同支撑
- 最终系统提交看似小事,但一旦漏掉最新版,前面所有修改都会失效
🎯 二、管明露 — 集成电路上市公司样本与专利数据源
📚 研究历程
管明露的小论文主线是 BERTopic + HTM 的集成电路新兴技术识别,大论文则围绕集成电路政策对新兴技术创新的激励效应展开。5 月开题反馈后,她已经从“题目和章节怎么改”进入“数据怎么拿、样本怎么定、实证能不能跑”的阶段。上周讨论的是第三章假设和数据库账号,本周推进到上市公司筛选与专利数据源选择。
这一步很关键,因为大论文的可行性不再取决于概念是否好听,而取决于样本能否稳定复现。她目前按市场分类、行业分类、历史状态等条件筛出 121 家企业,时间范围为 2015-2025 年,并开始下载中介变量、控制变量等表格。接下来最大的堵点是上市公司与专利数据的匹配:如果数据库能直接给出“上市公司-专利”对应关系,工作量会小很多;如果转用智慧芽等专利库,就需要额外处理企业名称、子公司、简称和申请人匹配问题。
📝 本次(2026-06-17)
你的汇报(数据与样本)
- 下载了大论文所需的部分数据表,包括中介变量和其他控制变量
- 按沪深主板 A 股、C39 等行业分类以及半导体相关分类筛出 121 家企业
- 样本时间初步设为 2015-2025 年,并考虑历史 ST / 最新状态对样本保留的影响
- 发现 CNOpenData 一类数据库可能更适合直接获得上市公司对应专利,但目前学校没有现成权限
林老师指导
- 先确认是否能获得目标数据库权限;如果能直接下载企业-专利对应数据,优先使用
- 如果改用智慧芽等专利库,要准备企业名称匹配方案,不能只靠手工模糊匹配
- ST 或退市样本不必机械删除,只要能说明十年窗口内数据是否可用
- 对照组逻辑要讲清:同一行业中未受相应政策或补助影响的企业,为什么可作为可比对象
⏭️ 下次预期(2026-06-24)
- [ ] 确认 CNOpenData 或同类数据库是否能购买/借用
- [ ] 完成 121 家企业样本清单与筛选日志
- [ ] 下载或匹配第一版企业专利数据
- [ ] 建立“企业代码—企业名称—申请人名称—专利数量/质量指标”的映射表
🤖 AI 实操建议
① 样本筛选日志要从现在开始写
建议单独建一个 Excel:筛选条件、数据库字段、选择值、筛选后企业数、删除企业数、删除原因、操作日期。后面写“样本选择”时,不要只写“经筛选得到 121 家企业”,要能还原每一步为什么剩下这些企业。
② 企业-专利匹配的最小字段表
可以先建这 7 列:
| stock_code | firm_name | applicant_name | year | patent_id | patent_type | data_source |
|---|
如果数据库直接提供上市公司专利,firm_name 和 applicant_name 的关系也要保留;如果是智慧芽匹配,更要记录匹配规则,避免后面被问“子公司专利算不算母公司”。
③ 资源链接
CNOpenData 官网入口:https://www.cnopendata.com/ 。如果最后使用它,需要留存具体产品页、字段说明和下载时间;如果不用它,也可以把它作为“为什么需要上市公司-专利对应库”的方法参照。
⚠️ 风险预警
- C39 行业并不等于集成电路产业,必须解释为什么它适合作为样本池
- 政府补助变量如果作为处理或机制变量,要避免和 2020 集成电路政策变量混在一起
- 专利申请人名称匹配是隐性大坑,越晚处理,返工越重
🎯 三、李浩铭 — RAG、图像向量与多模态研究接口
📚 研究历程
李浩铭的小论文主线是 AI 芯片关键核心技术识别,方法上经历了 BERTopic、网络分析、链路预测、GCN/LSTM 等多轮迭代;大论文则围绕双试点政策与城市创新质量。6 月以来,他明显在给下一阶段补方法工具箱:Hugging Face、tokenizer、Transformer、CLIP、DINOv2、多模态向量都开始进入讨论。
本周他把学习内容讲成了一条“模型如何理解现实对象”的脉络:从人工设定颜色、形状、完整性等特征,到给特征加权,再到 CNN 自动学习更丰富的像素特征,最后进入 Transformer 与多模态模型,把图像向量和文本向量放到同一空间比较。林老师随后用自己的研究作了延展:AI 对技术发展可能是“踩油门”,也可能是“改方向盘”;专利图像可能比文本更早暴露技术信息。因此,多模态不是为了追新模型,而是为了回答“图像模态是否提供了文本之外的技术信号”。
📝 本次(2026-06-17)
你的汇报(RAG 与图像向量学习)
- 解释了 RAG 如何通过外部知识库缓解幻觉、知识滞后和领域不精的问题
- 用苹果识别案例说明人工特征、权重、训练集和 CNN 的差异
- 梳理了图像从像素块到向量、再到语义识别和边界定位的基本路径
- 结合参会内容反思:管理学研究不能停留在原有知识体系,应主动理解 AI 方法能回答什么新问题
林老师指导
- 大论文与方法学习要平行推进,不能只学工具而搁置论文
- 继续沿 CLIP / DINOv2 及其后续图像嵌入模型梳理:新模型究竟好在哪里,能解决哪个专利研究问题
- 多模态接入专利研究的关键,不是把图片转成文字,而是直接比较图像向量与文本向量的差异
- 可围绕“专利图像中的技术信息是否早于文本出现”设计新研究,而不是停留在单件专利先进性判断
⏭️ 下次预期(2026-06-24)
- [ ] 整理一张“CLIP / DINOv2 / 后续模型—输入—输出—优势—可回答问题”的表
- [ ] 同步推进大论文中期相关文字和数据准备
- [ ] 设计 1 个专利图像与文本向量对比的小实验
- [ ] 把参会案例中对管理学方法的启发压缩成 3-5 条可写进研究计划的判断
🤖 AI 实操建议
① 用一张表把“模型名”变成“论文问题”
| 模型/方法 | 处理对象 | 输出 | 对专利研究的意义 |
|---|---|---|---|
| RAG | 文献/资料库 | 带外部证据的回答 | 做综述、审稿意见响应、政策材料核查 |
| CLIP | 图像 + 文本 | 跨模态向量 | 比较专利图和摘要是否讲同一件事 |
| DINOv2 | 图像 | 视觉表征向量 | 不依赖文字描述,直接看结构和外观差异 |
| 图像分割模型 | 图像局部区域 | 边界/区域 | 定位专利附图中的关键部件或结构 |
② 一个小实验就够开局
先抽 200 件 AI 芯片或 EDA 相关专利,每件取摘要向量和第一张核心附图向量。不要一开始就训练新模型,只做三件事:聚类、计算图文相似度、找出“文本相似但图像差异大”的样本。这个结果就能判断图像模态是否提供新增信息。
③ 资源链接
可先看四个入口:LangChain Retrieval 文档(https://docs.langchain.com/oss/python/langchain/retrieval )、Hugging Face Transformers 文档(https://huggingface.co/docs/transformers/index )、Sentence Transformers 文档(https://www.sbert.net/ )、DINOv2 项目页(https://github.com/facebookresearch/dinov2 )。
⚠️ 风险预警
- 不要把学习报告写成模型发展史,论文里只保留能服务研究问题的部分
- 专利图像常有重复图、流程图、框图和低质量扫描图,必须先做图像类型筛选
- 如果只把图像转成文字再分析,创新点会变弱,因为关键模态信息已经被压缩掉了
🎯 四、王硕 — 咨询报告、AIGC 修改与 fsQCA 审稿意见预案
📚 研究历程
王硕的主线是存算一体领域典型企业技术突破驱动因素,方法链条包括 BERTopic 语义距离、TOE 框架和 fsQCA。最近几周,他的工作从论文内容本身扩展到结题报告、咨询报告、投稿格式和 AIGC 检测:同一项研究正在被压成多种产品形态。
本周重点转为投稿前的审稿意见预演。AI 审稿提出了题目过长、校准口径、15 个条件与 15 个案例、过拟合、普通企业排除、企业报道文本代表性等问题。林老师的指导很清楚:能改表述的地方就改,牵动整篇重跑的方法问题要谨慎;不能把“数据收不到”当成样本选择理由,而要从研究设计出发正向解释为什么只研究典型企业。
📝 本次(2026-06-17)
你的汇报(投稿前检查)
- 咨询报告及结题报告修改要求基本完成,并用批注标出了修改位置
- 对 AIGC 高风险部分做了重点改写,当前检测约为人工 66%、AI 32%、混合 2%
- 对题目过长、TOE/fsQCA 是否写入标题、隶属度校准、覆盖率过高等问题逐条思考
- 认为普通企业样本缺失、企业报道文本与真实情况差异是较难处理的审稿风险
林老师指导
- 题目不必完全照 AI 建议改,可用 TOE 和 fsQCA 的缩写压缩长度
- 隶属度和校准方式如果牵动重跑,不能轻易为了审稿建议整体推翻
- 15 个案例与过拟合问题可通过稳定性检验、删去典型案例后的结果变化来补充说明
- 样本选择要从研究问题正向解释:为什么研究典型企业,而不是说普通企业数据收不到
⏭️ 下次预期(2026-06-24)
- [ ] 写出一版投稿题目备选,保留方法信息同时压缩长度
- [ ] 补充稳定性检验说明,可放正文或附录
- [ ] 重写“为什么选择典型企业”的研究设计段
- [ ] 对照目标期刊投稿模板,检查匿名信息、英文信息和格式要求
🤖 AI 实操建议
① 审稿意见响应表先于投稿准备
建议现在就建一张表:问题、是否采纳、修改位置、解释理由、是否牵动结果。对“题目过长”“英文信息缺失”这类低成本问题直接改;对“0/1 改为 0.95/0.05”这类高成本问题,写清为什么不直接采纳。
② 样本选择段要正向写
可直接改成:
本文关注存算一体领域典型企业的技术突破路径,研究目的并非估计行业平均水平,而是识别已形成较高技术投入、较强公开报道和可观察创新结果的企业如何通过技术、组织与环境条件组合实现突破。因此,样本选择遵循典型案例研究逻辑,优先纳入能够提供完整技术报道、专利活动和组织情境信息的企业。
③ 稳定性检验可以放附录
如果正文篇幅紧,可以把“逐一剔除典型案例后核心组态仍保持较高一致性/覆盖率”的表放附录。正文只保留一句:“为缓解小样本组态分析的过拟合担忧,本文进一步进行逐案剔除稳定性检验,结果见附录 X。”
④ 资源链接
fsQCA 软件与手册入口:https://sites.socsci.uci.edu/~cragin/fsQCA/software.shtml 。如果投稿前要核对 consistency、coverage、calibration 的术语,优先按手册和已发表中文 CSSCI 论文的译法统一。
⚠️ 风险预警
- AI 审稿意见不能逐条机械采纳,尤其是会导致重跑或重写方法的建议
- “数据不可得”不是强理由,研究设计理由才是强理由
- AIGC 检测数值只能辅助,不能为了降低比例把组态解释改得含糊
🎯 五、南迪柯 — BERT / Transformer 环境配置与文本分类入门
📚 研究历程
南迪柯本科阶段围绕老年用户在线政务服务和适老化建设完成论文,近期开始为硕士阶段补文本分析与深度学习基础。她此前已经接触过 LDA、BERTopic、困惑度曲线和主题模型复现,本周开始学习 BERT / Transformer 相关内容,说明方法学习正在从传统主题模型转向预训练语言模型。
她目前遇到的不是研究问题本身,而是技术入门阶段最常见的环境问题:教程要求导入模型并运行文本分类,但安装或模型下载一直报错。这个阶段不用着急追求完整项目,先把一个最小 demo 跑通,理解数据、tokenizer、模型、预测输出之间的关系,比一口气学完所有概念更重要。
📝 本次(2026-06-17)
你的汇报(BERT 入门)
- 已学完第一个链接,开始学习 BERT 相关内容
- 正在尝试文本分类任务,已进行导入和基础配置
- 按教程调用 Transformer 模型时一直报错,暂时没有成功跑通
- 因在外网络环境不稳定,准备回去后继续排查
林老师指导
- 这类安装和模型下载问题大家都遇到过,不必焦虑
- 可能是网络环境或镜像配置问题,可以尝试切换国内镜像
- 回去后先把环境跑通,不懂的地方多问师兄
- 先完成最小例子,再进入更复杂的数据和论文问题
⏭️ 下次预期(2026-06-24)
- [ ] 记录完整报错信息,包括命令、环境、Python 版本和错误行
- [ ] 跑通一个 BERT / Transformer 文本分类最小 demo
- [ ] 整理“输入文本—tokenizer—模型—输出标签”的流程图
- [ ] 向师兄确认模型下载、镜像和本地缓存的常用做法
🤖 AI 实操建议
① 先做一个干净环境
可以先只检查环境,不急着跑教程全文:
python -m venv .venv-bert
source .venv-bert/bin/activate
python -m pip install -U pip
pip install torch transformers scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple
python -c "import torch, transformers; print(torch.__version__); print(transformers.__version__)"
如果最后一行能输出版本号,说明 Python 包安装成功;如果模型仍下载失败,那问题更可能在模型权重下载或网络访问。
**② 报错要按四件套记录**
下次问师兄时不要只说“它错了”,最好给四个信息:运行命令、Python 版本、完整报错截图、你要下载的模型名。这样别人能判断是包没装、版本不匹配、网络失败,还是模型路径写错。
**③ 资源链接**
Hugging Face 安装文档:https://huggingface.co/docs/transformers/installation ;Transformers 的 PyPI 页面:https://pypi.org/project/transformers/ 。两个入口一个看官方使用说明,一个看安装版本和 Python 要求。
**⚠️ 风险预警**
- 清华 PyPI 镜像只能加速 Python 包安装,不一定能解决模型权重下载
- 不要同时在多个环境里反复安装,容易不知道自己到底在用哪个 Python
- 初学阶段先跑英文或教程自带样本,等流程通了再换成自己的中文数据
散会
本周的共同主题是“从经验和工具回到可执行方案”。周书发把毕业流程压成一张风险地图,管明露把大论文推进到企业样本和专利匹配,李浩铭把 RAG 与多模态学习接到专利研究问题,王硕把 AI 审稿意见转成投稿前预案,南迪柯则先过环境配置这道入门关。
下周最值得看的,是每个人是否能拿出一个可检查的小产物:最终论文提交清单、121 家企业样本表、图文向量小实验设计、审稿意见响应表、BERT demo 运行截图。研究推进很多时候不是突然跃迁,而是把每个模糊问题压成一张表、一个脚本、一段可解释的话。
🎭 本周彩蛋
📢 本周金句
“不是看 AI 有没有影响,而是看它到底是在踩油门,还是在改方向盘。”
这句话很适合概括本周的方法论气质:好的研究不是证明一个大家都知道的趋势,而是把趋势拆成可区分、可测量、可解释的机制。
🧠 本周新词,一句生活化类比
- RAG:像开卷考试,不是让模型凭记忆硬答,而是先翻到相关资料再组织答案。
- 图像向量:像把一张图压成一串坐标,坐标相近的图不一定长得一样,但在模型眼里“意思接近”。
- 逐案剔除稳定性检验:像把队伍里每个人轮流请出场外,看剩下的人还能不能保持同样阵型。
🔮 下周占卜
以下内容不适用于任何学院文件、答辩纪要、培养方案、科研诚信承诺书或会后任务清单。若被系统自动归档为正式材料,请立即打印出来夹进“仅供精神稳定使用”文件夹。
- 周书发 — 会在研究生院系统深处触发隐藏关卡“最终版的最终确认版”。屏幕先弹出“是否确认提交”,再弹出“是否确认你确认过提交”,最后弹出“是否确认未来的你不会后悔现在的你确认过”。他沉着点击三次后,论文自动生成副本《双链融合视角下如何让后辈少踩十八个坑》,并被一枚名为“无条件授予”的电子印章重重盖在命运首页。
- 管明露 — 会率领 121 家上市公司参加一场极其严肃的点名大会。企业代码喊“到”,行业分类喊“在”,专利申请人名称因为曾用名、简称、子公司和括号里的地域信息当场开始分裂。就在 Excel 即将发出白光时,数据库入口缓缓升起,宣布:凡未写筛选日志者,不得进入实证结果大厅。
- 李浩铭 — 会误入一个由向量铺成的地下换乘站:A 口通往文本嵌入,B 口通往专利附图,C 口写着“CLIP 已不再年轻但仍可使用”,D 口贴着“DINOv2 请保持视觉自尊”。他刷卡进站后发现,真正的研究问题不是哪趟车更先进,而是哪一趟车提前三站到达了“技术信号显现”。
- 王硕 — 会被 AI 审稿意见传送进一间全自动投稿整形室。题目先被压缩成 TOE-fsQCA 合金条,15 个条件和 15 个案例在门口互相凝视,覆盖率 1.000 坐在天花板上假装自己只是 0.999 四舍五入。王硕拿出“正向解释典型企业样本选择”的通行证,门禁瞬间解除,并赠送一张附录专用稳定性检验折叠桌。
- 南迪柯 — 会和 Python 解释器签订一份停战协议:不再偷偷切换环境,不再把包装到隔壁虚拟空间,不再在模型下载到 99% 时装作网络突然失忆。Transformer 教程则站在旁边,郑重宣布:“今日起,BERT 不再是四个大写字母,而是一台会要求你先把环境配好的文本分类机器。”
林超然 · 整理于 2026-06-17

