汇报顺序:
研3:周书发 → 文柘青 →
研2:李浩铭 → 管明露 → 李山岚 →
研1:王硕 → 朱丹晨 → 马婧怡 →
研0:南迪柯
注:该组会记录内容,录音音频由通义听悟转为文字并识别说话人、由 Google Gemini 3 Pro 归纳、由 n8n 触发自动发布文章。因此可能存在由音频转换、AI 幻觉造成的错误,请阅读时甄别,以实际组会过程中的表达为准。
1. 周书发(城市创新能力评价指标数据获取困境与替代方案)
- 数据获取困境:
- 统计年鉴数据缺失: 发现《城市统计年鉴》中关于“规模以上企业”的数据仅有数量和资产,缺乏关键的“技术投入”、“研发费用”等指标。
- 科技创新指标单一: 现有数据仅能提供专利授权量,缺乏高校与企业合作等深度指标。目前能获取的指标仅有8-10个,且部分指标(如能耗、污染物排放)与创新能力的相关性较弱。
- 替代方案探讨:
- 区域创新能力: 提出将研究对象从“城市”调整为“区域”创新能力,以获取更完善的数据指标。
- 指标体系优化建议:
- 脱离书籍框架: 老师建议不必拘泥于理论书籍的指标体系,因为书籍往往缺乏实际数据支撑。
- 参考实证论文: 应重点参考已发表的实证论文(不限于fsQCA方法),直接采用其已验证过的指标体系,确保数据可得性。
- 数据补充来源: 建议查阅各城市的单独统计年鉴,或在论文数据库中寻找使用fsQCA等方法描述城市创新的文章,借鉴其指标。
- 双链融合数据: 确认将使用现有数据支撑“双链融合”作为结果变量。
2. 李浩铭(链路预测结果可视化优化与理论机制阐释)
- 可视化优化:
- 边线处理: 针对链路预测结果图,老师建议通过调整粗细和透明度,区分原有边线(降低透明度)与当年新增边线(红色/加粗),以确保黑白打印时的清晰度。
- 动态呈现需求: 老师指出当前“识别”与“预测”之间缺乏动态演变过程的展示。建议尝试将图10(预测结果)扩展为三维图或轨迹图,展示关键核心技术从出现到成熟的动态轨迹。
- 理论机制阐释:
- 双链融合机制: 需在引言或文献综述部分清晰解释双链融合研究的演变逻辑(主体融合→要素融合),即“为什么要这么做”。
- 预测递减趋势解释: 针对预测结果中新增边数逐年递减的现象,不能仅归因于节点固定,需引入“资源有限性”、“技术机会被逐步发现”等学术化解释。
- 算法与验证:
- BERTopic验证: 关于BERTopic结果的验证,老师建议参考目标期刊的常规做法(如主题一致性),不必过度追求专家验证。
- 阈值设定: 确认对预测结果的阈值设定进行简化,不必在论文中过度呈现阈值变化的细节。
3. 王硕(基于BERTopic与TOE框架的企业技术创新组态分析)
- 分析流程与代码实现:
- 数据预处理: 编写代码将企业报道(.docx)按公司分类并转换为.csv格式,用于后续分析。
- 距离测度: 利用BERTopic测量企业报道文本与TOE(技术-组织-环境)框架各维度关键词之间的语义距离(相似度)。
- 数据校准(Calibration): 采用分位数法(前10%为1,后10%为0,中位数0.5)将相似度数据转换为fsQCA所需的隶属度分数(0-1),以拉大组间差异。
- QCA分析结果:
- 必要条件分析: 发现单个因素的解释力较弱(最高0.9),未达到必要条件标准,说明单一因素不足以解释企业创新。
- 组态路径分析: 识别出多条解释力较强的路径。
- 环境维度(E): 发现“存在E1”或“不存在E1但存在其他因素”均可导致高绩效,体现了环境影响的多重路径。
- 技术维度(T): T维度的解释力最强,是核心驱动因素。
- 方法论探讨:
- 创新点确认: 确认将“利用BERTopic测度语义距离并转化为QCA隶属度”作为论文的方法论创新点。
- 数据分布调整: 引入0.5中位数进行数据缩放,以解决数据分布偏态问题,老师认可该处理方式。
4. 马婧怡(专利数据获取渠道与成本问题探讨)
- 数据获取困境:
- API限制: 指出当前使用的API每月免费额度仅100条,无法满足研究需求。
- 成本问题: 付费方案成本过高,需寻找替代方案。
- 解决方案探讨:
- 替代数据库: 老师建议尝试“智慧芽(PatSnap)”或“Derwent”数据库,并考虑通过二手平台(如淘宝)购买短期账号以降低成本。
- 数据质量对比: 老师指出某数据库(疑似Derwent或智慧芽)比当前API更全面,尤其在引用信息方面更丰富。
- 后续行动:
- 领域确定: 需尽快确定具体的研究领域方向。
- 渠道调研: 调研API付费机制及二手账号的可行性。

