汇报顺序：
硕 2： 李浩铭 → 管明露 → 李山岚 →
硕 1： 王硕 →
准硕 S2026： 南迪柯

注：本期组会记录由 AI 基于录音转文字稿与各位同学的历史组会档案归纳整理。文章按每位汇报同学分节，包含「研究历程」「本次要点」「下次预期」「AI 实操建议」四部分。可能存在由音频转换或 AI 归纳造成的错误，特别是工具名、方法口径和会务安排，请以实际组会过程与正式通知为准。

2026-07-01 组会记录

本期讨论 5 位（按汇报顺序）

🎯 李浩铭 — 图像表征演进与多模态专利研究
🎯 管明露 — 会议汇报 PPT 收束
🎯 李山岚 — AI 算力专利数据清洗与城市匹配
🎯 王硕 — fsQCA 表述强度、稳健性与会议汇报
🎯 南迪柯 — Sentence Transformers 从跑通到独立实验

🎯 一、李浩铭 — 图像表征演进与多模态专利研究

📚 研究历程

李浩铭的小论文主线一直围绕 AI 芯片关键核心技术识别展开，已经走过 BERTopic、技术网络、链路预测、GCN/LSTM 等多轮方法迭代。6 月以来，他开始系统补充图像与多模态方法：先从 Hugging Face、Transformer 和图像向量入门，再进入 CLIP、DINOv2 以及专利图文能否提供不同技术信号的问题。

这条新线目前来到一个很要紧的分岔口：是写一份“模型发展史”，还是借模型能力回答真正的技术信息问题。本周已经有了小论文大纲和图文特征提取—融合—筛选的基本链条，但“技术融合”与“早期弱信号”仍是两套尚未扣紧的定义。林老师因此把任务再次压回第一步：先说清每类模型究竟比前一类多了什么能力，再决定它能支撑什么研究问题。

📝 本次（2026-07-01）

你的汇报（多模态方法与小论文框架）

已把 CLIP、DINOv2 等放回图像分析方法演进框架
能直观理解通用表征、图文对齐和局部信息等差异，但缺少权威术语和出处
初步设计图文特征提取、融合或构网、筛选技术融合弱信号的研究逻辑
国内专利图像研究已有初步梳理，国外近期工作仍需补充

林老师指导

算法优势必须回到权威论文中的训练目标、输出和适用任务，不能靠直觉概括
要把数据科学能力翻译成技术信息研究问题，而不是罗列模型名
弱信号筛选规则应由“技术融合”定义主导
先把图像向量化演进做实，再决定是否保留当前题目与融合方案

⏭️ 下次预期（暑期下一次组会）

[ ] 带来一张模型对比表：训练目标、输入输出、能力增量、局限、专利研究接口
[ ] 补充 5—10 篇国外近期专利图像或图文多模态研究
[ ] 写清技术融合定义如何导出弱信号筛选条件
[ ] 完成结题材料中的智库报告与阶段合稿

🤖 AI 实操建议

① 不按年份排模型，按训练目标排

建议把表格分成四类，而不是笼统写“新模型优于旧模型”：

类型	训练/学习目标	典型输出	可回答的专利问题
监督视觉分类	预测给定类别	类别与视觉特征	附图属于哪种已知类型
自监督视觉表征	从图像自身学习通用特征	图像/局部特征向量	没有人工标签时比较结构相似性
图文对比学习	拉近匹配图文、推远不匹配图文	同一空间中的图文向量	附图与摘要是否表达一致技术含义
检测/分割	定位对象或像素区域	框、掩码、局部特征	关键部件出现在哪里、如何变化

这样能避免把 CLIP、DINOv2 和分割模型误写成同一条单向升级路线。它们的目标不同，优势也必须相对具体任务来讲。

② 直接可用的“主张—证据”写法

每个模型只写三句话：第一句写原论文的训练目标；第二句写在什么基准或任务上体现能力；第三句写这项能力为什么可能给专利研究增加信息。任何“更好”“更先进”“更关注局部”的说法，后面都必须能接一个比较对象和评价任务。

③ 资源链接

先从原始入口读：CLIP 论文页面（https://proceedings.mlr.press/v139/radford21a.html ）和 DINOv2 官方项目（https://github.com/facebookresearch/dinov2 ）。阅读时不要只摘摘要，重点找 objective、features、downstream tasks 和 limitations。

⚠️ 风险预警

DINOv2、CLIP 与分割模型不是简单的“第一代—第二代—第三代”关系
“图文融合”不是必做动作；如果分别建模更能回答研究问题，就不应为了技术感强行融合
专利附图含流程图、框图、结构图和重复图，进入模型前必须先做图像类型审计

🎯 二、管明露 — 会议汇报 PPT 收束

📚 研究历程

管明露的小论文以 BERTopic + HTM 识别集成电路新兴技术，大论文则把技术识别结果接到产业政策激励效应。过去几周，她已经从第三章假设推进到上市公司样本、企业—专利对应和数据源选择；与此同时，论文进入会议交流节点，需要把一篇完整研究压缩成听众在有限时间内能跟上的口头叙事。

本周她带来约 32 页会议 PPT。视觉风格已经成形，也用了一些 AI 示意图帮助解释，但论文原有的高信息量结果图偏少。现在最重要的不是继续增加页面，而是确认时长后决定：哪些页承担论证，哪些页只是备用，哪些图真正构成证据。

📝 本次（2026-07-01）

你的汇报（会议 PPT）

已完成约 32 页 PPT，会议安排在 7 月 3—5 日
具体汇报日期和时长尚未完全确定
当前使用了一些 AI 生成示意图，论文原图使用较少
希望确认能否带稿以及现有视觉风格是否合适

林老师指导

可以准备讲稿，但要先练习把研究过程讲清楚
把论文中信息量高、能支撑结论的图补回 PPT
AI 图只要严谨且不改变原意，可以作为解释辅助
时长一旦确认，立即按口头汇报逻辑删减

⏭️ 下次预期（会后）

[ ] 确认正式时长并完成核心版 PPT
[ ] 把论文核心结果图补入正文页，装饰性页面移到备用区
[ ] 至少完成一次全程计时演练
[ ] 整理现场提问与会后修改清单

🤖 AI 实操建议

① 做两层 PPT，不要赌时长

在正式通知明确前，把 32 页拆成“核心页 + 备用页”。核心页只保留研究问题、缺口、数据/方法、两到三张关键结果图、结论与贡献；定义细节、变量表、额外检验和完整流程图全部放到备用页。这样不论现场给 8 分钟还是 15 分钟，都只需要调核心页，不必临时拆整套文件。

② 每页写一句必须被听见的话

在备注栏给每页写一句主结论，例如：“这一页只需要让听众知道，我们的样本如何从行业池筛到最终企业。”如果一句话写不出来，这页通常还没有明确功能。逐字稿可以保留，但现场提纲最好只包含主结论、证据和转场句。

③ AI 图与论文图分工

AI 图适合解释背景或抽象机制，论文图负责证明结果。结果页优先使用论文原图；若为了演示重新绘制，数字、坐标、分组和显著性必须与论文一致。Microsoft 的 Speaker Coach 使用说明可作计时和表达自检入口：https://support.microsoft.com/en-us/office/rehearse-your-slide-show-with-speaker-coach-cd7fc941-5c3b-498c-a225-83ef3f64f07b

⚠️ 风险预警

32 页不是问题本身，无法在规定时间讲清主线才是问题
AI 示意图不能替代实证图，也不能让听众误以为是数据结果
讲稿写得太满时，现场一旦被打断就很难重新找回节奏

🎯 三、李山岚 — AI 算力专利数据清洗与城市匹配

📚 研究历程

李山岚的大论文从 GPU 技术融合、区域算力创新一路收束到人工智能政策对城市算力技术创新的影响。6 月的核心任务还是“算力到底如何检索”：从九千多条的窄口径出发，重做词表和约束条件，处理 GPU、算力基础设施、配套设备与普通计算能力之间的边界。

本周研究终于从检索式进入数据工程。大规模专利数据已经分批下载，下一步要合并、去重、确定时间与地址字段，再生成城市—年份指标。此时最危险的不是数据不够，而是“文件能打开”被误当成“数据流程可靠”：字段含义、主表格式、版本记录和城市映射只要有一处含糊，后面的 DID 都会把错误放大。

📝 本次（2026-07-01）

你的汇报（专利数据与实证入口）

已完成大规模 AI 算力专利下载，数据分散在二十余个表格文件
准备合并、清洗并匹配到地级市
时间拟使用申请日，地域字段仍需在申请地、公开地、申请人地之间选择
正在比较 Stata 与 R 的计量分析路线

林老师指导

外部报告的数量只能作参照，自己的检索边界可解释更重要
申请日可作为政策影响的主时间口径
地址字段选择要回到政策究竟影响哪类创新主体
原始与清洗数据改用机器友好的主格式，Excel 留作人工预览

⏭️ 下次预期（暑期下一次组会）

[ ] 带来文件清单、字段字典和重复检查结果
[ ] 生成 Parquet 主表与小规模人工预览表
[ ] 完成地址字段抽样审计和城市匹配规则
[ ] 固定 R 或 Stata 的可复现实证入口

🤖 AI 实操建议

① 先纠正一个容易混淆的点

几十万行没有超过 Excel 单工作表 1,048,576 行的上限；问题不是“绝对放不下”，而是多文件、长文本、重复清洗和版本追踪不适合依赖 Excel。Microsoft 的工作表规格说明在这里：https://support.microsoft.com/en-us/office/excel-specifications-and-limits-1672b34d-7043-467e-8e27-269d656771c3

建议保留三层文件：raw/ 放原始下载，永不覆盖；processed/patents.parquet 放清洗主表；preview/ 放 100—500 行 CSV/XLSX 供人工检查。Apache Parquet 的官方概览：https://parquet.apache.org/docs/overview/

② 先审计字段，再全量匹配

随机抽 100—200 条，做一张表：专利号、申请日、公开日、申请人、申请地、公开地、申请人地、人工判断城市、是否境外主体。只要抽样就能看出“公开地”究竟是国家、机构还是实际创新地点，也能发现多申请人、空地址、历史地名和企业更名。

③ 让研究定义决定地址口径

如果研究的是政策对国内城市创新主体的影响，通常应优先检验申请人地址能否代表创新主体所在地；如果关注所有发生在国内制度环境中的申请，则境外主体在华申请可能需要保留。先写一句纳入规则，再写代码，不能反过来让哪个字段最干净就决定研究对象。

④ R 与 Stata 不是信仰选择

先用同一份城市—年份小样本分别跑通描述统计和基准模型，比较四件事：能否直接读取主数据、代码能否从头复现、图表能否达到投稿要求、本人能否独立排错。哪个链路返工少就用哪个，不必为了“换工具”重学整套研究。

⚠️ 风险预警

申请日与公开日有系统时滞，后续至少要检查替代时间口径
同一专利可能有多个申请人和地址，不能简单取第一项后静默丢失其余主体
Parquet 解决存储与读取问题，不会自动解决检索噪声、重复族和城市归属问题

🎯 四、王硕 — fsQCA 表述强度、稳健性与会议汇报

📚 研究历程

王硕的主线是存算一体领域典型企业技术突破研究，方法链条从扎根理论、BERTopic 语义距离延伸到 TOE 框架与 fsQCA。最近一个月，论文从字数和 AIGC 检测，逐步进入真正的投稿前方法审计：典型案例为什么能回答问题、条件变量是否重叠、校准是否合理、必要性与覆盖率如何解释、有限案例下如何回应稳健性。

本周他已经把多项意见落实到正文：增加逐案剔除检验，补条件及其否定的必要性分析，区分相近条件，并把部分强因果措辞改成组态路径或潜在关系。林老师提醒的风险也很实在：论文当然不能说得超过证据，但如果为了不被挑错而把结论改到只剩“可能、或许、似乎”，研究贡献也会跟着消失。

📝 本次（2026-07-01）

你的汇报（论文修改与会议准备）

调整题目和正文中的强因果表达
补充逐案剔除稳健性检验，并区分含义接近的条件
完善必要性分析与覆盖率展示
会议 PPT 已做到研究框架，核心结果仍需补齐

林老师指导

语言强度要与方法证据匹配，不能机械地把整篇论文改弱
重新核对 fsQCA 能支持的主张，再定题目和结论用词
尽快确认会议时长、压缩页面并突出核心结果
已提交的会议版本不再反复追赶，会后吸收现场反馈即可

⏭️ 下次预期（会后）

[ ] 完成“主张—证据—允许措辞”对照表
[ ] 核对必要性、覆盖率与稳定性检验的表文一致性
[ ] 完成会议 PPT 计时演练与会后反馈记录
[ ] 完成结题材料阶段合并与整稿核验

🤖 AI 实操建议

① 不要做“禁词替换”，做证据分级

建议建三列：论文主张、直接证据、允许措辞。例如，真值表和组态结果直接支持的是“哪些条件组合与结果共同出现，并构成充分性路径”；它不自动支持单个因素具有独立净效应。题目可以突出“组态路径”或“条件组合”，正文仍可在明确限定下讨论因果复杂性，不必把所有机制判断都删掉。

② 稳健性表要让读者看出变化

逐案剔除不要只写“结果依然稳健”。至少报告：删除哪个案例、核心路径是否保留、一致性和覆盖率变化多少、是否出现新路径、为什么该案例重要。小样本中每删一个案例的影响都很大，数值变化应结合案例知识解释。

③ 直接可用的自检句式

把每条结论放进这个句框：“在本文案例范围与校准方案下，组态 X 对结果 Y 表现出较高的一致性；这一发现支持……，但不意味着单一条件 X 具有独立净效应。”它既保留结论，也把边界写在同一句里。

④ 资源链接

术语、软件输出与一致性/覆盖率口径优先回到 fsQCA 官方软件和手册入口核对：https://sites.socsci.uci.edu/~cragin/fsQCA/software.shtml 。中文表述再与目标期刊已发表论文统一，不要只按 AI 审稿意见改。

⚠️ 风险预警

“驱动因素”是否过强要结合整篇设计判断，不是看到 QCA 就一律禁用
覆盖率接近 1 或结果对个别案例敏感时，要检查校准和案例编码，而不是只调整文字
会议提交版、当前修改版和结题材料必须分开命名，避免反馈落到错误版本

🎯 五、南迪柯 — Sentence Transformers 从跑通到独立实验

📚 研究历程

南迪柯本科阶段围绕在线政务服务适老化完成论文，近几个月开始为硕士阶段补文本分析工具。从 LDA、困惑度曲线和 BERTopic，到 BERT/Transformer 环境配置，她已经经历了几轮“先理解概念、再跑通代码”的训练。

上次组会还卡在模型安装与调用，本周在李浩铭帮助下已经解决问题，并准备独立实验。这是一个小但清晰的节点：学习目标不再是跟着教程看到输出，而是能自己换一组文本、解释向量相似度、记录模型和环境，并判断结果是否符合常识。

📝 本次（2026-07-01）

你的汇报（Sentence Transformers）

已跟随李浩铭完成模型学习和调用
上次的环境或下载问题已经解决
下一步准备独立换数据做实验

林老师指导

Sentence Transformers 已经能直接服务后续文本研究，应学得更细
LDA 等前期内容可视为热身，下一阶段要理解向量输出和任务接口
用独立小实验检验是否真正掌握，而不只是复现师兄操作

⏭️ 下次预期（暑期下一次组会）

[ ] 独立完成句子编码、余弦相似度和结果保存
[ ] 用 20—50 条中文文本做人工可解释的小实验
[ ] 记录模型名、版本、向量维度和运行环境
[ ] 解释 Sentence Transformers 与 LDA / BERTopic 的差异

🤖 AI 实操建议

① 最小实验只做四步

from sentence_transformers import SentenceTransformer, util

texts = ["政策支持人工智能基础设施建设", "地方建设智能计算中心", "老年人使用在线政务服务"]
model = SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2")
embeddings = model.encode(texts, normalize_embeddings=True)
scores = util.cos_sim(embeddings, embeddings)
print(scores)

先解释三句话的相似度是否符合直觉，再换成自己的 20—50 条文本。Sentence Transformers 官方快速入门：https://www.sbert.net/docs/quickstart.html

**② 实验日志比截图更重要**

每次记录：日期、Python 环境、模型完整名称、模型版本或下载时间、输入文本文件、向量维度、相似度方法、输出文件。这样下一次结果不同，才能判断是数据变了、模型变了还是代码变了。

**③ 把三类方法说成人话**

LDA 更像从一批文档中找反复共同出现的词群；BERTopic 把语义向量与聚类结合起来形成主题；Sentence Transformers 先把句子变成可比较的向量，本身并不会自动替你完成研究设计。能讲清这三句话，就说明方法开始进入自己的知识体系。

**⚠️ 风险预警**

能成功下载模型不等于实验可复现，必须保存模型名和环境
余弦相似度高只表示向量接近，不自动等于政策含义或因果机制相同
小样本先人工检查前十个近邻，别急着直接跑完整数据

横向协作：结题材料如何避免多人互相覆盖

本周散会后，李浩铭、李山岚和王硕又对结题材料的合稿顺序做了确认。最后采用的是串行交接：李浩铭与王硕先合并后部内容，林老师确认全文结构；结构稳定后，李山岚再统一第一章、图件和文献问题；最后回到王硕做整稿一致性检查。

这个顺序看起来比“三个人同时改”慢，实际会少掉大量版本冲突。多人协作 Word 稿最怕每个人手里都有一个“最终版”，因此交接时应固定文件名、日期、责任人和修改范围，批注未处理完之前不要静默删除。

散会

本周的共同主题，是把“知道很多”压成“下一步能验证什么”。模型演进要落到能力差异，会议 PPT 要落到限时表达，大规模专利要落到字段与主表，fsQCA 修改要落到证据边界，方法学习要落到独立实验。

暑期节奏可以慢一点，但产物反而要更小、更清楚：一张对比表、一套核心页、一份字段审计、一个主张—证据矩阵、一个能独立运行的小实验。研究的很多卡点，都是从这些看起来不起眼的小东西开始松动的。

🎭 本周彩蛋

📢 本周金句

“Excel 是给人看的，你可以用机器能读的格式，比如说 Parquet。”

这句话不必理解成 Excel 不能处理几十万行，而应理解成：给人检查的数据视图，与让机器反复清洗、追踪版本的主数据，可以是两层不同的东西。工具选择从来不只是容量问题，也是工作流问题。

🧠 本周新词，一句生活化类比

跨模态对齐：像给图片和文字发同一种坐标，描述同一件事的两张票最后能在同一站换乘。
Parquet：像仓库按货物类别分区码放，程序只搬需要的那几列，不必每次把整仓纸箱全拆开。
逐案剔除稳定性检验：像让队员轮流离场，看阵型是否还成立；但队伍只有十五人时，每走一个人都不能假装没影响。

🔮 下周占卜

以下内容不适用于会议通知、数据字典、项目结题书、软件手册或任何声称已通过同行评议的文档。若预测命中，请优先归因于任务安排足够明确。

李浩铭 — 会进入“视觉模型谱系馆”，发现 CLIP、DINOv2 和分割模型根本不是按辈分坐席。三位模型长老各自递来一张训练目标卡，要求他先回答“你究竟想从专利图里看见什么”，才肯放行到技术融合信号层。
管明露 — 会驾驶 32 节车厢的 PPT 列车抵达会议站台，却发现站台只允许核心车厢进站。她镇定地把方法细节和完整变量表调度到备用轨道，带着几张论文原图准点出发，Speaker Coach 则在终点举起一块“没有超时”的绿色牌子。
李山岚 — 会在二十余座 Excel 岛之间铺设 Parquet 高铁。申请地、公开地和申请人地化成三位外貌相似的检票员，只有字段审计表能辨认谁真正通往地级市。列车开动前，重复专利族还会试图用同一张票上车三次。
王硕 — 会被传送到“因果措辞调音台”，左边旋钮写着“驱动”，右边写着“可能相关”。他没有把音量一口气拧到最小，而是拿出主张—证据矩阵，让每条组态路径按自己的证据强度发声。逐案剔除小队则在后台轮流请假，认真记录阵型变化。
南迪柯 — 会独自进入句向量试炼场，把三句话投进模型后得到一张相似度星图。最亮的两颗星看起来很近，她却没有立刻宣布它们属于同一主题，而是掏出人工检查放大镜：“先让我看看你们到底像在哪里。”

林超然 · 整理于 2026-07-01