组会记录 2026-07-01

汇报顺序:
硕 2: 李浩铭 → 管明露 → 李山岚 →
硕 1: 王硕 →
准硕 S2026: 南迪柯

注:本期组会记录由 AI 基于录音转文字稿与各位同学的历史组会档案归纳整理。文章按每位汇报同学分节,包含「研究历程」「本次要点」「下次预期」「AI 实操建议」四部分。可能存在由音频转换或 AI 归纳造成的错误,特别是工具名、方法口径和会务安排,请以实际组会过程与正式通知为准。


2026-07-01 组会记录

本期讨论 5 位(按汇报顺序)

  1. 🎯 李浩铭 — 图像表征演进与多模态专利研究
  2. 🎯 管明露 — 会议汇报 PPT 收束
  3. 🎯 李山岚 — AI 算力专利数据清洗与城市匹配
  4. 🎯 王硕 — fsQCA 表述强度、稳健性与会议汇报
  5. 🎯 南迪柯 — Sentence Transformers 从跑通到独立实验

🎯 一、李浩铭 — 图像表征演进与多模态专利研究

📚 研究历程

李浩铭的小论文主线一直围绕 AI 芯片关键核心技术识别展开,已经走过 BERTopic、技术网络、链路预测、GCN/LSTM 等多轮方法迭代。6 月以来,他开始系统补充图像与多模态方法:先从 Hugging Face、Transformer 和图像向量入门,再进入 CLIP、DINOv2 以及专利图文能否提供不同技术信号的问题。

这条新线目前来到一个很要紧的分岔口:是写一份“模型发展史”,还是借模型能力回答真正的技术信息问题。本周已经有了小论文大纲和图文特征提取—融合—筛选的基本链条,但“技术融合”与“早期弱信号”仍是两套尚未扣紧的定义。林老师因此把任务再次压回第一步:先说清每类模型究竟比前一类多了什么能力,再决定它能支撑什么研究问题。

📝 本次(2026-07-01)

你的汇报(多模态方法与小论文框架)

  • 已把 CLIP、DINOv2 等放回图像分析方法演进框架
  • 能直观理解通用表征、图文对齐和局部信息等差异,但缺少权威术语和出处
  • 初步设计图文特征提取、融合或构网、筛选技术融合弱信号的研究逻辑
  • 国内专利图像研究已有初步梳理,国外近期工作仍需补充

林老师指导

  • 算法优势必须回到权威论文中的训练目标、输出和适用任务,不能靠直觉概括
  • 要把数据科学能力翻译成技术信息研究问题,而不是罗列模型名
  • 弱信号筛选规则应由“技术融合”定义主导
  • 先把图像向量化演进做实,再决定是否保留当前题目与融合方案

⏭️ 下次预期(暑期下一次组会)

  • [ ] 带来一张模型对比表:训练目标、输入输出、能力增量、局限、专利研究接口
  • [ ] 补充 5—10 篇国外近期专利图像或图文多模态研究
  • [ ] 写清技术融合定义如何导出弱信号筛选条件
  • [ ] 完成结题材料中的智库报告与阶段合稿

🤖 AI 实操建议

① 不按年份排模型,按训练目标排

建议把表格分成四类,而不是笼统写“新模型优于旧模型”:

类型 训练/学习目标 典型输出 可回答的专利问题
监督视觉分类 预测给定类别 类别与视觉特征 附图属于哪种已知类型
自监督视觉表征 从图像自身学习通用特征 图像/局部特征向量 没有人工标签时比较结构相似性
图文对比学习 拉近匹配图文、推远不匹配图文 同一空间中的图文向量 附图与摘要是否表达一致技术含义
检测/分割 定位对象或像素区域 框、掩码、局部特征 关键部件出现在哪里、如何变化

这样能避免把 CLIP、DINOv2 和分割模型误写成同一条单向升级路线。它们的目标不同,优势也必须相对具体任务来讲。

② 直接可用的“主张—证据”写法

每个模型只写三句话:第一句写原论文的训练目标;第二句写在什么基准或任务上体现能力;第三句写这项能力为什么可能给专利研究增加信息。任何“更好”“更先进”“更关注局部”的说法,后面都必须能接一个比较对象和评价任务。

③ 资源链接

先从原始入口读:CLIP 论文页面(https://proceedings.mlr.press/v139/radford21a.html )和 DINOv2 官方项目(https://github.com/facebookresearch/dinov2 )。阅读时不要只摘摘要,重点找 objective、features、downstream tasks 和 limitations。

⚠️ 风险预警

  • DINOv2、CLIP 与分割模型不是简单的“第一代—第二代—第三代”关系
  • “图文融合”不是必做动作;如果分别建模更能回答研究问题,就不应为了技术感强行融合
  • 专利附图含流程图、框图、结构图和重复图,进入模型前必须先做图像类型审计

🎯 二、管明露 — 会议汇报 PPT 收束

📚 研究历程

管明露的小论文以 BERTopic + HTM 识别集成电路新兴技术,大论文则把技术识别结果接到产业政策激励效应。过去几周,她已经从第三章假设推进到上市公司样本、企业—专利对应和数据源选择;与此同时,论文进入会议交流节点,需要把一篇完整研究压缩成听众在有限时间内能跟上的口头叙事。

本周她带来约 32 页会议 PPT。视觉风格已经成形,也用了一些 AI 示意图帮助解释,但论文原有的高信息量结果图偏少。现在最重要的不是继续增加页面,而是确认时长后决定:哪些页承担论证,哪些页只是备用,哪些图真正构成证据。

📝 本次(2026-07-01)

你的汇报(会议 PPT)

  • 已完成约 32 页 PPT,会议安排在 7 月 3—5 日
  • 具体汇报日期和时长尚未完全确定
  • 当前使用了一些 AI 生成示意图,论文原图使用较少
  • 希望确认能否带稿以及现有视觉风格是否合适

林老师指导

  • 可以准备讲稿,但要先练习把研究过程讲清楚
  • 把论文中信息量高、能支撑结论的图补回 PPT
  • AI 图只要严谨且不改变原意,可以作为解释辅助
  • 时长一旦确认,立即按口头汇报逻辑删减

⏭️ 下次预期(会后)

  • [ ] 确认正式时长并完成核心版 PPT
  • [ ] 把论文核心结果图补入正文页,装饰性页面移到备用区
  • [ ] 至少完成一次全程计时演练
  • [ ] 整理现场提问与会后修改清单

🤖 AI 实操建议

① 做两层 PPT,不要赌时长

在正式通知明确前,把 32 页拆成“核心页 + 备用页”。核心页只保留研究问题、缺口、数据/方法、两到三张关键结果图、结论与贡献;定义细节、变量表、额外检验和完整流程图全部放到备用页。这样不论现场给 8 分钟还是 15 分钟,都只需要调核心页,不必临时拆整套文件。

② 每页写一句必须被听见的话

在备注栏给每页写一句主结论,例如:“这一页只需要让听众知道,我们的样本如何从行业池筛到最终企业。”如果一句话写不出来,这页通常还没有明确功能。逐字稿可以保留,但现场提纲最好只包含主结论、证据和转场句。

③ AI 图与论文图分工

AI 图适合解释背景或抽象机制,论文图负责证明结果。结果页优先使用论文原图;若为了演示重新绘制,数字、坐标、分组和显著性必须与论文一致。Microsoft 的 Speaker Coach 使用说明可作计时和表达自检入口:https://support.microsoft.com/en-us/office/rehearse-your-slide-show-with-speaker-coach-cd7fc941-5c3b-498c-a225-83ef3f64f07b

⚠️ 风险预警

  • 32 页不是问题本身,无法在规定时间讲清主线才是问题
  • AI 示意图不能替代实证图,也不能让听众误以为是数据结果
  • 讲稿写得太满时,现场一旦被打断就很难重新找回节奏

🎯 三、李山岚 — AI 算力专利数据清洗与城市匹配

📚 研究历程

李山岚的大论文从 GPU 技术融合、区域算力创新一路收束到人工智能政策对城市算力技术创新的影响。6 月的核心任务还是“算力到底如何检索”:从九千多条的窄口径出发,重做词表和约束条件,处理 GPU、算力基础设施、配套设备与普通计算能力之间的边界。

本周研究终于从检索式进入数据工程。大规模专利数据已经分批下载,下一步要合并、去重、确定时间与地址字段,再生成城市—年份指标。此时最危险的不是数据不够,而是“文件能打开”被误当成“数据流程可靠”:字段含义、主表格式、版本记录和城市映射只要有一处含糊,后面的 DID 都会把错误放大。

📝 本次(2026-07-01)

你的汇报(专利数据与实证入口)

  • 已完成大规模 AI 算力专利下载,数据分散在二十余个表格文件
  • 准备合并、清洗并匹配到地级市
  • 时间拟使用申请日,地域字段仍需在申请地、公开地、申请人地之间选择
  • 正在比较 Stata 与 R 的计量分析路线

林老师指导

  • 外部报告的数量只能作参照,自己的检索边界可解释更重要
  • 申请日可作为政策影响的主时间口径
  • 地址字段选择要回到政策究竟影响哪类创新主体
  • 原始与清洗数据改用机器友好的主格式,Excel 留作人工预览

⏭️ 下次预期(暑期下一次组会)

  • [ ] 带来文件清单、字段字典和重复检查结果
  • [ ] 生成 Parquet 主表与小规模人工预览表
  • [ ] 完成地址字段抽样审计和城市匹配规则
  • [ ] 固定 R 或 Stata 的可复现实证入口

🤖 AI 实操建议

① 先纠正一个容易混淆的点

几十万行没有超过 Excel 单工作表 1,048,576 行的上限;问题不是“绝对放不下”,而是多文件、长文本、重复清洗和版本追踪不适合依赖 Excel。Microsoft 的工作表规格说明在这里:https://support.microsoft.com/en-us/office/excel-specifications-and-limits-1672b34d-7043-467e-8e27-269d656771c3

建议保留三层文件:raw/ 放原始下载,永不覆盖;processed/patents.parquet 放清洗主表;preview/ 放 100—500 行 CSV/XLSX 供人工检查。Apache Parquet 的官方概览:https://parquet.apache.org/docs/overview/

② 先审计字段,再全量匹配

随机抽 100—200 条,做一张表:专利号、申请日、公开日、申请人、申请地、公开地、申请人地、人工判断城市、是否境外主体。只要抽样就能看出“公开地”究竟是国家、机构还是实际创新地点,也能发现多申请人、空地址、历史地名和企业更名。

③ 让研究定义决定地址口径

如果研究的是政策对国内城市创新主体的影响,通常应优先检验申请人地址能否代表创新主体所在地;如果关注所有发生在国内制度环境中的申请,则境外主体在华申请可能需要保留。先写一句纳入规则,再写代码,不能反过来让哪个字段最干净就决定研究对象。

④ R 与 Stata 不是信仰选择

先用同一份城市—年份小样本分别跑通描述统计和基准模型,比较四件事:能否直接读取主数据、代码能否从头复现、图表能否达到投稿要求、本人能否独立排错。哪个链路返工少就用哪个,不必为了“换工具”重学整套研究。

⚠️ 风险预警

  • 申请日与公开日有系统时滞,后续至少要检查替代时间口径
  • 同一专利可能有多个申请人和地址,不能简单取第一项后静默丢失其余主体
  • Parquet 解决存储与读取问题,不会自动解决检索噪声、重复族和城市归属问题

🎯 四、王硕 — fsQCA 表述强度、稳健性与会议汇报

📚 研究历程

王硕的主线是存算一体领域典型企业技术突破研究,方法链条从扎根理论、BERTopic 语义距离延伸到 TOE 框架与 fsQCA。最近一个月,论文从字数和 AIGC 检测,逐步进入真正的投稿前方法审计:典型案例为什么能回答问题、条件变量是否重叠、校准是否合理、必要性与覆盖率如何解释、有限案例下如何回应稳健性。

本周他已经把多项意见落实到正文:增加逐案剔除检验,补条件及其否定的必要性分析,区分相近条件,并把部分强因果措辞改成组态路径或潜在关系。林老师提醒的风险也很实在:论文当然不能说得超过证据,但如果为了不被挑错而把结论改到只剩“可能、或许、似乎”,研究贡献也会跟着消失。

📝 本次(2026-07-01)

你的汇报(论文修改与会议准备)

  • 调整题目和正文中的强因果表达
  • 补充逐案剔除稳健性检验,并区分含义接近的条件
  • 完善必要性分析与覆盖率展示
  • 会议 PPT 已做到研究框架,核心结果仍需补齐

林老师指导

  • 语言强度要与方法证据匹配,不能机械地把整篇论文改弱
  • 重新核对 fsQCA 能支持的主张,再定题目和结论用词
  • 尽快确认会议时长、压缩页面并突出核心结果
  • 已提交的会议版本不再反复追赶,会后吸收现场反馈即可

⏭️ 下次预期(会后)

  • [ ] 完成“主张—证据—允许措辞”对照表
  • [ ] 核对必要性、覆盖率与稳定性检验的表文一致性
  • [ ] 完成会议 PPT 计时演练与会后反馈记录
  • [ ] 完成结题材料阶段合并与整稿核验

🤖 AI 实操建议

① 不要做“禁词替换”,做证据分级

建议建三列:论文主张、直接证据、允许措辞。例如,真值表和组态结果直接支持的是“哪些条件组合与结果共同出现,并构成充分性路径”;它不自动支持单个因素具有独立净效应。题目可以突出“组态路径”或“条件组合”,正文仍可在明确限定下讨论因果复杂性,不必把所有机制判断都删掉。

② 稳健性表要让读者看出变化

逐案剔除不要只写“结果依然稳健”。至少报告:删除哪个案例、核心路径是否保留、一致性和覆盖率变化多少、是否出现新路径、为什么该案例重要。小样本中每删一个案例的影响都很大,数值变化应结合案例知识解释。

③ 直接可用的自检句式

把每条结论放进这个句框:“在本文案例范围与校准方案下,组态 X 对结果 Y 表现出较高的一致性;这一发现支持……,但不意味着单一条件 X 具有独立净效应。”它既保留结论,也把边界写在同一句里。

④ 资源链接

术语、软件输出与一致性/覆盖率口径优先回到 fsQCA 官方软件和手册入口核对:https://sites.socsci.uci.edu/~cragin/fsQCA/software.shtml 。中文表述再与目标期刊已发表论文统一,不要只按 AI 审稿意见改。

⚠️ 风险预警

  • “驱动因素”是否过强要结合整篇设计判断,不是看到 QCA 就一律禁用
  • 覆盖率接近 1 或结果对个别案例敏感时,要检查校准和案例编码,而不是只调整文字
  • 会议提交版、当前修改版和结题材料必须分开命名,避免反馈落到错误版本

🎯 五、南迪柯 — Sentence Transformers 从跑通到独立实验

📚 研究历程

南迪柯本科阶段围绕在线政务服务适老化完成论文,近几个月开始为硕士阶段补文本分析工具。从 LDA、困惑度曲线和 BERTopic,到 BERT/Transformer 环境配置,她已经经历了几轮“先理解概念、再跑通代码”的训练。

上次组会还卡在模型安装与调用,本周在李浩铭帮助下已经解决问题,并准备独立实验。这是一个小但清晰的节点:学习目标不再是跟着教程看到输出,而是能自己换一组文本、解释向量相似度、记录模型和环境,并判断结果是否符合常识。

📝 本次(2026-07-01)

你的汇报(Sentence Transformers)

  • 已跟随李浩铭完成模型学习和调用
  • 上次的环境或下载问题已经解决
  • 下一步准备独立换数据做实验

林老师指导

  • Sentence Transformers 已经能直接服务后续文本研究,应学得更细
  • LDA 等前期内容可视为热身,下一阶段要理解向量输出和任务接口
  • 用独立小实验检验是否真正掌握,而不只是复现师兄操作

⏭️ 下次预期(暑期下一次组会)

  • [ ] 独立完成句子编码、余弦相似度和结果保存
  • [ ] 用 20—50 条中文文本做人工可解释的小实验
  • [ ] 记录模型名、版本、向量维度和运行环境
  • [ ] 解释 Sentence Transformers 与 LDA / BERTopic 的差异

🤖 AI 实操建议

① 最小实验只做四步

from sentence_transformers import SentenceTransformer, util

texts = ["政策支持人工智能基础设施建设", "地方建设智能计算中心", "老年人使用在线政务服务"]
model = SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2")
embeddings = model.encode(texts, normalize_embeddings=True)
scores = util.cos_sim(embeddings, embeddings)
print(scores)

先解释三句话的相似度是否符合直觉,再换成自己的 20—50 条文本。Sentence Transformers 官方快速入门:https://www.sbert.net/docs/quickstart.html

**② 实验日志比截图更重要**

每次记录:日期、Python 环境、模型完整名称、模型版本或下载时间、输入文本文件、向量维度、相似度方法、输出文件。这样下一次结果不同,才能判断是数据变了、模型变了还是代码变了。

**③ 把三类方法说成人话**

LDA 更像从一批文档中找反复共同出现的词群;BERTopic 把语义向量与聚类结合起来形成主题;Sentence Transformers 先把句子变成可比较的向量,本身并不会自动替你完成研究设计。能讲清这三句话,就说明方法开始进入自己的知识体系。

**⚠️ 风险预警**

  • 能成功下载模型不等于实验可复现,必须保存模型名和环境
  • 余弦相似度高只表示向量接近,不自动等于政策含义或因果机制相同
  • 小样本先人工检查前十个近邻,别急着直接跑完整数据

横向协作:结题材料如何避免多人互相覆盖

本周散会后,李浩铭、李山岚和王硕又对结题材料的合稿顺序做了确认。最后采用的是串行交接:李浩铭与王硕先合并后部内容,林老师确认全文结构;结构稳定后,李山岚再统一第一章、图件和文献问题;最后回到王硕做整稿一致性检查。

这个顺序看起来比“三个人同时改”慢,实际会少掉大量版本冲突。多人协作 Word 稿最怕每个人手里都有一个“最终版”,因此交接时应固定文件名、日期、责任人和修改范围,批注未处理完之前不要静默删除。

散会

本周的共同主题,是把“知道很多”压成“下一步能验证什么”。模型演进要落到能力差异,会议 PPT 要落到限时表达,大规模专利要落到字段与主表,fsQCA 修改要落到证据边界,方法学习要落到独立实验。

暑期节奏可以慢一点,但产物反而要更小、更清楚:一张对比表、一套核心页、一份字段审计、一个主张—证据矩阵、一个能独立运行的小实验。研究的很多卡点,都是从这些看起来不起眼的小东西开始松动的。


🎭 本周彩蛋

📢 本周金句

“Excel 是给人看的,你可以用机器能读的格式,比如说 Parquet。”

这句话不必理解成 Excel 不能处理几十万行,而应理解成:给人检查的数据视图,与让机器反复清洗、追踪版本的主数据,可以是两层不同的东西。工具选择从来不只是容量问题,也是工作流问题。

🧠 本周新词,一句生活化类比

  • 跨模态对齐:像给图片和文字发同一种坐标,描述同一件事的两张票最后能在同一站换乘。
  • Parquet:像仓库按货物类别分区码放,程序只搬需要的那几列,不必每次把整仓纸箱全拆开。
  • 逐案剔除稳定性检验:像让队员轮流离场,看阵型是否还成立;但队伍只有十五人时,每走一个人都不能假装没影响。

🔮 下周占卜

以下内容不适用于会议通知、数据字典、项目结题书、软件手册或任何声称已通过同行评议的文档。若预测命中,请优先归因于任务安排足够明确。

  • 李浩铭 — 会进入“视觉模型谱系馆”,发现 CLIP、DINOv2 和分割模型根本不是按辈分坐席。三位模型长老各自递来一张训练目标卡,要求他先回答“你究竟想从专利图里看见什么”,才肯放行到技术融合信号层。
  • 管明露 — 会驾驶 32 节车厢的 PPT 列车抵达会议站台,却发现站台只允许核心车厢进站。她镇定地把方法细节和完整变量表调度到备用轨道,带着几张论文原图准点出发,Speaker Coach 则在终点举起一块“没有超时”的绿色牌子。
  • 李山岚 — 会在二十余座 Excel 岛之间铺设 Parquet 高铁。申请地、公开地和申请人地化成三位外貌相似的检票员,只有字段审计表能辨认谁真正通往地级市。列车开动前,重复专利族还会试图用同一张票上车三次。
  • 王硕 — 会被传送到“因果措辞调音台”,左边旋钮写着“驱动”,右边写着“可能相关”。他没有把音量一口气拧到最小,而是拿出主张—证据矩阵,让每条组态路径按自己的证据强度发声。逐案剔除小队则在后台轮流请假,认真记录阵型变化。
  • 南迪柯 — 会独自进入句向量试炼场,把三句话投进模型后得到一张相似度星图。最亮的两颗星看起来很近,她却没有立刻宣布它们属于同一主题,而是掏出人工检查放大镜:“先让我看看你们到底像在哪里。”

林超然 · 整理于 2026-07-01