汇报顺序：
硕 3： 周书发 →
硕 2： 管明露 → 李浩铭 →
硕 1： 王硕 →
准硕 S2026： 南迪柯

注：本期组会记录由 Claude 基于录音转文字稿与各位同学的历史组会档案归纳整理。文章按每位汇报同学分节，包含「研究历程」「本次要点」「下次预期」「AI 实操建议」四部分。可能存在由音频转换、AI 幻觉造成的错误（特别是 AI 实操建议节中的工具名、数据库入口、政策或期刊口径），请阅读时甄别，以实际组会过程中的表达为准。

2026-06-17 组会记录

本期讨论 5 位（按汇报顺序）

🎯 周书发 — 毕业论文全流程复盘与 QCA 选题边界
🎯 管明露 — 集成电路上市公司样本与专利数据源
🎯 李浩铭 — RAG、图像向量与多模态研究接口
🎯 王硕 — 咨询报告、AIGC 修改与 fsQCA 审稿意见预案
🎯 南迪柯 — BERT / Transformer 环境配置与文本分类入门

🎯 一、周书发 — 毕业论文全流程复盘与 QCA 选题边界

📚 研究历程

周书发的大论文主线从城市创新能力、颠覆性技术识别、AI 芯片实证一路推进到 fsQCA / 动态 QCA。过去几个月最关键的变化，是从“怎么把方法做出来”转向“怎么让研究对象、条件变量和公共管理学科边界对齐”。6 月初学校专家集中追问变量是否贴近 IC 产业、政策建议是否差异化，本周则在毕业流程结束后，把开题、中期、结题、预审、外审、答辩和后续复审的经验做了一次集中复盘。

这次分享对后面同学很有价值：它不是某一篇论文的局部修改，而是一次毕业论文风险地图。QCA 论文最容易出问题的地方，不只是软件结果，而是变量、对象、题目和学科归属是否能互相支撑。周书发最后的解决路径是把题目、政策属性和 IC 产业创新能力重新压到同一个叙事里，同时把每一轮专家意见转化为可见修改。

📝 本次（2026-06-17）

你的汇报（毕业流程与论文风险复盘）

系统回顾了从开题、中期、结题到预审、外审、答辩及后续复审的完整流程
提醒后续同学：QCA 变量必须和研究对象统一，城市变量解释 IC 产业时要提前补足产业指向
分享了题目与学科边界处理经验：只要整体问题与政策相关，公共管理属性可以通过题目和政策建议呈现
说明答辩后修改会形成多轮意见表，最终可能分为有条件授予和无条件授予两类结果

林老师指导

对后续同学来说，实习与读博目标要区分；读博更看成果和现场交流
最终论文系统提交前，务必保持最新版本，不能漏掉答辩后定稿
对 QCA 或政策论文来说，题目字数、学科边界、变量解释和政策建议来源都要提前纳入风险清单
后续同学要把这次复盘当作“毕业论文流程样本”，不要等到答辩后才第一次理解规则

⏭️ 下次预期（2026-06-24）

[ ] 完成最终论文版本更新与系统提交
[ ] 把毕业流程、修改意见表和关键材料整理成可复用清单
[ ] 将 QCA 变量口径与专家质疑点沉淀给后续同学参考
[ ] 若系统开放或学院通知变化，及时同步最终提交时间点

🤖 AI 实操建议

① 做一张“毕业后验风险表”

建议把自己的经历整理成 5 列：流程节点、材料名称、常见意见、实际修改动作、给师弟师妹的提醒。尤其要把“变量与研究对象不统一”“政策建议不从结果推出”“题目过长或学科归属不清”放在最前面。

② QCA 论文的答辩前自查句式

可以直接给后续同学一段模板：

本文的结果变量是 X，条件变量 A/B/C 分别从资源、主体和环境维度解释 X。虽然部分指标来自城市层面，但其进入模型的理由不是描述城市一般发展水平，而是作为影响 IC 产业创新能力的外部条件。因此，本文在变量说明中补充了产业指向、代理逻辑和数据可得性的限制。

③ 资源链接

fsQCA 软件和中文手册入口可先看 Charles Ragin 团队页面：https://sites.socsci.uci.edu/~cragin/fsQCA/software.shtml 。后续如果要给师弟师妹做方法培训，建议同时保留一个“本组常用参数与截图”文件，因为软件手册不能替代本组论文里的具体口径。

⚠️ 风险预警

复盘稿不要写成情绪记录，要写成后续可执行清单
“公共管理属性”不能只靠一句话，需要题目、变量解释和政策建议共同支撑
最终系统提交看似小事，但一旦漏掉最新版，前面所有修改都会失效

🎯 二、管明露 — 集成电路上市公司样本与专利数据源

📚 研究历程

管明露的小论文主线是 BERTopic + HTM 的集成电路新兴技术识别，大论文则围绕集成电路政策对新兴技术创新的激励效应展开。5 月开题反馈后，她已经从“题目和章节怎么改”进入“数据怎么拿、样本怎么定、实证能不能跑”的阶段。上周讨论的是第三章假设和数据库账号，本周推进到上市公司筛选与专利数据源选择。

这一步很关键，因为大论文的可行性不再取决于概念是否好听，而取决于样本能否稳定复现。她目前按市场分类、行业分类、历史状态等条件筛出 121 家企业，时间范围为 2015-2025 年，并开始下载中介变量、控制变量等表格。接下来最大的堵点是上市公司与专利数据的匹配：如果数据库能直接给出“上市公司-专利”对应关系，工作量会小很多；如果转用智慧芽等专利库，就需要额外处理企业名称、子公司、简称和申请人匹配问题。

📝 本次（2026-06-17）

你的汇报（数据与样本）

下载了大论文所需的部分数据表，包括中介变量和其他控制变量
按沪深主板 A 股、C39 等行业分类以及半导体相关分类筛出 121 家企业
样本时间初步设为 2015-2025 年，并考虑历史 ST / 最新状态对样本保留的影响
发现 CNOpenData 一类数据库可能更适合直接获得上市公司对应专利，但目前学校没有现成权限

林老师指导

先确认是否能获得目标数据库权限；如果能直接下载企业-专利对应数据，优先使用
如果改用智慧芽等专利库，要准备企业名称匹配方案，不能只靠手工模糊匹配
ST 或退市样本不必机械删除，只要能说明十年窗口内数据是否可用
对照组逻辑要讲清：同一行业中未受相应政策或补助影响的企业，为什么可作为可比对象

⏭️ 下次预期（2026-06-24）

[ ] 确认 CNOpenData 或同类数据库是否能购买/借用
[ ] 完成 121 家企业样本清单与筛选日志
[ ] 下载或匹配第一版企业专利数据
[ ] 建立“企业代码—企业名称—申请人名称—专利数量/质量指标”的映射表

🤖 AI 实操建议

① 样本筛选日志要从现在开始写

建议单独建一个 Excel：筛选条件、数据库字段、选择值、筛选后企业数、删除企业数、删除原因、操作日期。后面写“样本选择”时，不要只写“经筛选得到 121 家企业”，要能还原每一步为什么剩下这些企业。

② 企业-专利匹配的最小字段表

可以先建这 7 列：

stock_code	firm_name	applicant_name	year	patent_id	patent_type	data_source

如果数据库直接提供上市公司专利，firm_name 和 applicant_name 的关系也要保留；如果是智慧芽匹配，更要记录匹配规则，避免后面被问“子公司专利算不算母公司”。

③ 资源链接

CNOpenData 官网入口：https://www.cnopendata.com/ 。如果最后使用它，需要留存具体产品页、字段说明和下载时间；如果不用它，也可以把它作为“为什么需要上市公司-专利对应库”的方法参照。

⚠️ 风险预警

C39 行业并不等于集成电路产业，必须解释为什么它适合作为样本池
政府补助变量如果作为处理或机制变量，要避免和 2020 集成电路政策变量混在一起
专利申请人名称匹配是隐性大坑，越晚处理，返工越重

🎯 三、李浩铭 — RAG、图像向量与多模态研究接口

📚 研究历程

李浩铭的小论文主线是 AI 芯片关键核心技术识别，方法上经历了 BERTopic、网络分析、链路预测、GCN/LSTM 等多轮迭代；大论文则围绕双试点政策与城市创新质量。6 月以来，他明显在给下一阶段补方法工具箱：Hugging Face、tokenizer、Transformer、CLIP、DINOv2、多模态向量都开始进入讨论。

本周他把学习内容讲成了一条“模型如何理解现实对象”的脉络：从人工设定颜色、形状、完整性等特征，到给特征加权，再到 CNN 自动学习更丰富的像素特征，最后进入 Transformer 与多模态模型，把图像向量和文本向量放到同一空间比较。林老师随后用自己的研究作了延展：AI 对技术发展可能是“踩油门”，也可能是“改方向盘”；专利图像可能比文本更早暴露技术信息。因此，多模态不是为了追新模型，而是为了回答“图像模态是否提供了文本之外的技术信号”。

📝 本次（2026-06-17）

你的汇报（RAG 与图像向量学习）

解释了 RAG 如何通过外部知识库缓解幻觉、知识滞后和领域不精的问题
用苹果识别案例说明人工特征、权重、训练集和 CNN 的差异
梳理了图像从像素块到向量、再到语义识别和边界定位的基本路径
结合参会内容反思：管理学研究不能停留在原有知识体系，应主动理解 AI 方法能回答什么新问题

林老师指导

大论文与方法学习要平行推进，不能只学工具而搁置论文
继续沿 CLIP / DINOv2 及其后续图像嵌入模型梳理：新模型究竟好在哪里，能解决哪个专利研究问题
多模态接入专利研究的关键，不是把图片转成文字，而是直接比较图像向量与文本向量的差异
可围绕“专利图像中的技术信息是否早于文本出现”设计新研究，而不是停留在单件专利先进性判断

⏭️ 下次预期（2026-06-24）

[ ] 整理一张“CLIP / DINOv2 / 后续模型—输入—输出—优势—可回答问题”的表
[ ] 同步推进大论文中期相关文字和数据准备
[ ] 设计 1 个专利图像与文本向量对比的小实验
[ ] 把参会案例中对管理学方法的启发压缩成 3-5 条可写进研究计划的判断

🤖 AI 实操建议

① 用一张表把“模型名”变成“论文问题”

模型/方法	处理对象	输出	对专利研究的意义
RAG	文献/资料库	带外部证据的回答	做综述、审稿意见响应、政策材料核查
CLIP	图像 + 文本	跨模态向量	比较专利图和摘要是否讲同一件事
DINOv2	图像	视觉表征向量	不依赖文字描述，直接看结构和外观差异
图像分割模型	图像局部区域	边界/区域	定位专利附图中的关键部件或结构

② 一个小实验就够开局

先抽 200 件 AI 芯片或 EDA 相关专利，每件取摘要向量和第一张核心附图向量。不要一开始就训练新模型，只做三件事：聚类、计算图文相似度、找出“文本相似但图像差异大”的样本。这个结果就能判断图像模态是否提供新增信息。

③ 资源链接

可先看四个入口：LangChain Retrieval 文档（https://docs.langchain.com/oss/python/langchain/retrieval ）、Hugging Face Transformers 文档（https://huggingface.co/docs/transformers/index ）、Sentence Transformers 文档（https://www.sbert.net/ ）、DINOv2 项目页（https://github.com/facebookresearch/dinov2 ）。

⚠️ 风险预警

不要把学习报告写成模型发展史，论文里只保留能服务研究问题的部分
专利图像常有重复图、流程图、框图和低质量扫描图，必须先做图像类型筛选
如果只把图像转成文字再分析，创新点会变弱，因为关键模态信息已经被压缩掉了

🎯 四、王硕 — 咨询报告、AIGC 修改与 fsQCA 审稿意见预案

📚 研究历程

王硕的主线是存算一体领域典型企业技术突破驱动因素，方法链条包括 BERTopic 语义距离、TOE 框架和 fsQCA。最近几周，他的工作从论文内容本身扩展到结题报告、咨询报告、投稿格式和 AIGC 检测：同一项研究正在被压成多种产品形态。

本周重点转为投稿前的审稿意见预演。AI 审稿提出了题目过长、校准口径、15 个条件与 15 个案例、过拟合、普通企业排除、企业报道文本代表性等问题。林老师的指导很清楚：能改表述的地方就改，牵动整篇重跑的方法问题要谨慎；不能把“数据收不到”当成样本选择理由，而要从研究设计出发正向解释为什么只研究典型企业。

📝 本次（2026-06-17）

你的汇报（投稿前检查）

咨询报告及结题报告修改要求基本完成，并用批注标出了修改位置
对 AIGC 高风险部分做了重点改写，当前检测约为人工 66%、AI 32%、混合 2%
对题目过长、TOE/fsQCA 是否写入标题、隶属度校准、覆盖率过高等问题逐条思考
认为普通企业样本缺失、企业报道文本与真实情况差异是较难处理的审稿风险

林老师指导

题目不必完全照 AI 建议改，可用 TOE 和 fsQCA 的缩写压缩长度
隶属度和校准方式如果牵动重跑，不能轻易为了审稿建议整体推翻
15 个案例与过拟合问题可通过稳定性检验、删去典型案例后的结果变化来补充说明
样本选择要从研究问题正向解释：为什么研究典型企业，而不是说普通企业数据收不到

⏭️ 下次预期（2026-06-24）

[ ] 写出一版投稿题目备选，保留方法信息同时压缩长度
[ ] 补充稳定性检验说明，可放正文或附录
[ ] 重写“为什么选择典型企业”的研究设计段
[ ] 对照目标期刊投稿模板，检查匿名信息、英文信息和格式要求

🤖 AI 实操建议

① 审稿意见响应表先于投稿准备

建议现在就建一张表：问题、是否采纳、修改位置、解释理由、是否牵动结果。对“题目过长”“英文信息缺失”这类低成本问题直接改；对“0/1 改为 0.95/0.05”这类高成本问题，写清为什么不直接采纳。

② 样本选择段要正向写

可直接改成：

本文关注存算一体领域典型企业的技术突破路径，研究目的并非估计行业平均水平，而是识别已形成较高技术投入、较强公开报道和可观察创新结果的企业如何通过技术、组织与环境条件组合实现突破。因此，样本选择遵循典型案例研究逻辑，优先纳入能够提供完整技术报道、专利活动和组织情境信息的企业。

③ 稳定性检验可以放附录

如果正文篇幅紧，可以把“逐一剔除典型案例后核心组态仍保持较高一致性/覆盖率”的表放附录。正文只保留一句：“为缓解小样本组态分析的过拟合担忧，本文进一步进行逐案剔除稳定性检验，结果见附录 X。”

④ 资源链接

fsQCA 软件与手册入口：https://sites.socsci.uci.edu/~cragin/fsQCA/software.shtml 。如果投稿前要核对 consistency、coverage、calibration 的术语，优先按手册和已发表中文 CSSCI 论文的译法统一。

⚠️ 风险预警

AI 审稿意见不能逐条机械采纳，尤其是会导致重跑或重写方法的建议
“数据不可得”不是强理由，研究设计理由才是强理由
AIGC 检测数值只能辅助，不能为了降低比例把组态解释改得含糊

🎯 五、南迪柯 — BERT / Transformer 环境配置与文本分类入门

📚 研究历程

南迪柯本科阶段围绕老年用户在线政务服务和适老化建设完成论文，近期开始为硕士阶段补文本分析与深度学习基础。她此前已经接触过 LDA、BERTopic、困惑度曲线和主题模型复现，本周开始学习 BERT / Transformer 相关内容，说明方法学习正在从传统主题模型转向预训练语言模型。

她目前遇到的不是研究问题本身，而是技术入门阶段最常见的环境问题：教程要求导入模型并运行文本分类，但安装或模型下载一直报错。这个阶段不用着急追求完整项目，先把一个最小 demo 跑通，理解数据、tokenizer、模型、预测输出之间的关系，比一口气学完所有概念更重要。

📝 本次（2026-06-17）

你的汇报（BERT 入门）

已学完第一个链接，开始学习 BERT 相关内容
正在尝试文本分类任务，已进行导入和基础配置
按教程调用 Transformer 模型时一直报错，暂时没有成功跑通
因在外网络环境不稳定，准备回去后继续排查

林老师指导

这类安装和模型下载问题大家都遇到过，不必焦虑
可能是网络环境或镜像配置问题，可以尝试切换国内镜像
回去后先把环境跑通，不懂的地方多问师兄
先完成最小例子，再进入更复杂的数据和论文问题

⏭️ 下次预期（2026-06-24）

[ ] 记录完整报错信息，包括命令、环境、Python 版本和错误行
[ ] 跑通一个 BERT / Transformer 文本分类最小 demo
[ ] 整理“输入文本—tokenizer—模型—输出标签”的流程图
[ ] 向师兄确认模型下载、镜像和本地缓存的常用做法

🤖 AI 实操建议

① 先做一个干净环境

可以先只检查环境，不急着跑教程全文：

python -m venv .venv-bert
source .venv-bert/bin/activate
python -m pip install -U pip
pip install torch transformers scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple
python -c "import torch, transformers; print(torch.__version__); print(transformers.__version__)"

如果最后一行能输出版本号，说明 Python 包安装成功；如果模型仍下载失败，那问题更可能在模型权重下载或网络访问。

**② 报错要按四件套记录**

下次问师兄时不要只说“它错了”，最好给四个信息：运行命令、Python 版本、完整报错截图、你要下载的模型名。这样别人能判断是包没装、版本不匹配、网络失败，还是模型路径写错。

**③ 资源链接**

Hugging Face 安装文档：https://huggingface.co/docs/transformers/installation ；Transformers 的 PyPI 页面：https://pypi.org/project/transformers/ 。两个入口一个看官方使用说明，一个看安装版本和 Python 要求。

**⚠️ 风险预警**

清华 PyPI 镜像只能加速 Python 包安装，不一定能解决模型权重下载
不要同时在多个环境里反复安装，容易不知道自己到底在用哪个 Python
初学阶段先跑英文或教程自带样本，等流程通了再换成自己的中文数据

散会

本周的共同主题是“从经验和工具回到可执行方案”。周书发把毕业流程压成一张风险地图，管明露把大论文推进到企业样本和专利匹配，李浩铭把 RAG 与多模态学习接到专利研究问题，王硕把 AI 审稿意见转成投稿前预案，南迪柯则先过环境配置这道入门关。

下周最值得看的，是每个人是否能拿出一个可检查的小产物：最终论文提交清单、121 家企业样本表、图文向量小实验设计、审稿意见响应表、BERT demo 运行截图。研究推进很多时候不是突然跃迁，而是把每个模糊问题压成一张表、一个脚本、一段可解释的话。

🎭 本周彩蛋

📢 本周金句

“不是看 AI 有没有影响，而是看它到底是在踩油门，还是在改方向盘。”

这句话很适合概括本周的方法论气质：好的研究不是证明一个大家都知道的趋势，而是把趋势拆成可区分、可测量、可解释的机制。

🧠 本周新词，一句生活化类比

RAG：像开卷考试，不是让模型凭记忆硬答，而是先翻到相关资料再组织答案。
图像向量：像把一张图压成一串坐标，坐标相近的图不一定长得一样，但在模型眼里“意思接近”。
逐案剔除稳定性检验：像把队伍里每个人轮流请出场外，看剩下的人还能不能保持同样阵型。

🔮 下周占卜

以下内容不适用于任何学院文件、答辩纪要、培养方案、科研诚信承诺书或会后任务清单。若被系统自动归档为正式材料，请立即打印出来夹进“仅供精神稳定使用”文件夹。

周书发 — 会在研究生院系统深处触发隐藏关卡“最终版的最终确认版”。屏幕先弹出“是否确认提交”，再弹出“是否确认你确认过提交”，最后弹出“是否确认未来的你不会后悔现在的你确认过”。他沉着点击三次后，论文自动生成副本《双链融合视角下如何让后辈少踩十八个坑》，并被一枚名为“无条件授予”的电子印章重重盖在命运首页。
管明露 — 会率领 121 家上市公司参加一场极其严肃的点名大会。企业代码喊“到”，行业分类喊“在”，专利申请人名称因为曾用名、简称、子公司和括号里的地域信息当场开始分裂。就在 Excel 即将发出白光时，数据库入口缓缓升起，宣布：凡未写筛选日志者，不得进入实证结果大厅。
李浩铭 — 会误入一个由向量铺成的地下换乘站：A 口通往文本嵌入，B 口通往专利附图，C 口写着“CLIP 已不再年轻但仍可使用”，D 口贴着“DINOv2 请保持视觉自尊”。他刷卡进站后发现，真正的研究问题不是哪趟车更先进，而是哪一趟车提前三站到达了“技术信号显现”。
王硕 — 会被 AI 审稿意见传送进一间全自动投稿整形室。题目先被压缩成 TOE-fsQCA 合金条，15 个条件和 15 个案例在门口互相凝视，覆盖率 1.000 坐在天花板上假装自己只是 0.999 四舍五入。王硕拿出“正向解释典型企业样本选择”的通行证，门禁瞬间解除，并赠送一张附录专用稳定性检验折叠桌。
南迪柯 — 会和 Python 解释器签订一份停战协议：不再偷偷切换环境，不再把包装到隔壁虚拟空间，不再在模型下载到 99% 时装作网络突然失忆。Transformer 教程则站在旁边，郑重宣布：“今日起，BERT 不再是四个大写字母，而是一台会要求你先把环境配好的文本分类机器。”

林超然 · 整理于 2026-06-17

组会记录 2026-06-17

2026-06-17 组会记录

本期讨论 5 位（按汇报顺序）

🎯 一、周书发 — 毕业论文全流程复盘与 QCA 选题边界

🎯 二、管明露 — 集成电路上市公司样本与专利数据源

🎯 三、李浩铭 — RAG、图像向量与多模态研究接口

🎯 四、王硕 — 咨询报告、AIGC 修改与 fsQCA 审稿意见预案

🎯 五、南迪柯 — BERT / Transformer 环境配置与文本分类入门

散会

🎭 本周彩蛋

由 Chaoran

组会记录 2026-06-17

2026-06-17 组会记录

本期讨论 5 位（按汇报顺序）

🎯 一、周书发 — 毕业论文全流程复盘与 QCA 选题边界

🎯 二、管明露 — 集成电路上市公司样本与专利数据源

🎯 三、李浩铭 — RAG、图像向量与多模态研究接口

🎯 四、王硕 — 咨询报告、AIGC 修改与 fsQCA 审稿意见预案

🎯 五、南迪柯 — BERT / Transformer 环境配置与文本分类入门

散会

🎭 本周彩蛋

由 Chaoran

相关文章

组会记录 2026-06-10

组会记录 2026-06-04

组会记录 2026-05-20