汇报顺序:
研3:周书发 → 文柘青 →
研2:李浩铭 → 管明露 → 李山岚 →
研1:王硕 → 朱丹晨 → 马婧怡 →
研0:南迪柯
注:该组会记录内容,录音音频由通义听悟转为文字并识别说话人、由 Google Gemini 2.5 Pro 归纳、由 n8n 触发自动发布文章。因此可能存在由音频转换、AI 幻觉造成的错误,请阅读时甄别,以实际组会过程中的表达为准。
1. 周书发(专利数据匹配与城市技术创新度测算)
- [核心产出] 完成了大论文第三章的核心工作,通过将专利摘要切词并与主题关键词进行相似度匹配,成功识别出专利对应的定论性主题。通过对“智慧芽”导出的申请人地址进行字段分裂,提取出省份及城市信息,从而得到了QCA研究中所需的城市技术创新度(结果变量)。
- [数据清洗建议] 目前采用字符串分裂法提取省份存在约 7%-8% 的数据损失(主要为国外专利或格式不规范地址),林老师建议未来可尝试使用 Ollama 部署大模型进行地址要素的精准抽取。
- [下一步工作计划] 进入第四章研究,重点参考相关文献以确定指标体系,并尝试利用 QCA 方法进行指标结果的初步测算。
2. 李浩铭(链路预测算法优化与标签泄露排查)
- [算法逻辑纠偏] 针对上周出现的“标签泄露”及“预测分值过于集中(0.98-0.99)”的问题进行了排查。初步判定原因为预测权重被错误写回原图,导致模型将候选边视为既定结构输入。林老师指出,由于该部分并非核心创新点,建议通过模块化重写或简化预测算法来获取合理分布的结果,不必过度复杂化。
- [开发环境调优] 林老师建议在处理此类复杂逻辑时,应将
.ipynb(Jupyter Notebook)文件转换为纯.py文件交由 AI 调优,因为大模型对.py文件的上下文理解能力及全局变量把控远强于 sale 块结构的 Notebook。 - [下一步工作计划] 逐一函数排查预测代码,调通后同步更新论文的引言及文献综述部分,重点调整语言表述的学术感。
3. 王硕(存算一体典型企业 QCA 数据收集)
- [数据源质量管理] 确立了“官方媒体 > 行业垂直媒体 > 自媒体”的数据筛选原则,以防止 AI 编造的内容污染 QCA 组态分析的数据质量。目前发现直接搜索“存算一体”关键词在人民网等权威媒体产出较少,已调整策略,提取专利检索公式中的细分关键词结合企业名进行定向搜索。
- [样本策略调整] 针对“专注型企业”资料匮乏的问题,决定将研究重心转向“双优企业(跨领域且占比高)”和“综合大型企业”。林老师建议利用 AI 的深度搜索(Deep Research)功能扩大搜索范围,并推荐通过万德(Wind)数据库或年报文本库获取研发体系等定性指标的描述。
- [下一步工作计划] 利用大模型辅助提取年报及新闻中的文本特征,扩大关键词搜索范围,尽快完成存算一体典型企业的维度赋值表。
4. 朱丹晨(新兴技术弱信号识别框架设计)
- [研究框架设计] 拟采用“多元数据融合 + Top2Vec/BERTopic 主题模型 + 弱信号过滤机制”的路径。通过新颖性、关注度、成长性三个维度构建识别指标。林老师建议在“数据扩充”上做文章,除专利论文外,需评估政策文件、科技新闻及行业报告的批量获取可行性。
- [创新点对标] 现有文献虽在标题提及“弱信号”,但在实际计算中往往回归传统指标。林老师提出创新思路:应将弱信号直接接入到 BERTopic 的输出层,从海量主题信息中挖掘“处于萌芽状态”的信号,实现弱信号与指标体系的深层耦合。
- [下一步工作计划] 调研科技新闻与行业报告的批量抓取方法,评估政策文件在识别新兴技术中的时滞性,并完善弱信号支撑指标的测度方法。
5. 马婧怡(数字政府政策价值评估与文本爬取)
- [数据采集进展] 利用维普(CQVIP)旗下的“上证通路”网站,成功爬取了 1000 余条数字政府相关政策,清洗后保留约 200 余项有效文本。林老师要求在导出数据时必须保证“正文、标题、发文机关、时间、省份”字段的完整性,存入 Excel 方便后续量化分析。
- [技术路线优化] 计划调用大模型 API 对政策正文进行关键词提取并生成向量。林老师建议先以“数字政府”作为测试跑通流程,待数据处理方案成熟后,再根据最终选定的热点选题重新检索并获取全量数据。
- [下一步工作计划] 优化爬虫脚本,确保获取完整的政策正文及省份字段,测试大模型批量提取关键词的准确度。
6. 南迪柯(县域行政主体选题变更)
- [论文结构调整] 研究对象从“乡村级”提升至“县域级”,行政主体的变动导致前期收集的大量文献需重新筛选。目前已按照县域视角完成了开题报告中相关文献综述的改写。
- [下一步工作计划] 论文整体逻辑已基本顺畅,下一步将全面转入初稿撰写阶段。
会议花絮(非学术相关)
- 关于“闲鱼黑产”的学术应用:由于部分专业数据库(如智慧芽)个人账号昂贵且智慧芽系统近期可能存在使用限制,周书发分享了通过“闲鱼/淘宝”寻找数据代查或购买短期共享账号的“实战经验”,林老师对此表示认可,认为这是解决数据来源问题的便捷途径。
- 关于“大模型处理能力”的差异:林老师在指导李浩铭时,普及了 AI 在处理不同格式代码文件时的底层逻辑差异,提出“JupyterNotebook 里的 AI 比较笨”的评价,提醒大家在进行复杂 Debug 时要先“转档”为 py 文件。

