汇报顺序:
研3:周书发 → 文柘青 →
研2:李浩铭 → 管明露 → 李山岚 →
研1:王硕 → 朱丹晨 → 马婧怡 →
研0:南迪柯
注:该组会记录内容,录音音频由通义听悟转为文字并识别说话人、由 Google Gemini 2.5 Pro 归纳、由 n8n 触发自动发布文章。因此可能存在由音频转换、AI 幻觉造成的错误,请阅读时甄别,以实际答辩过程中的表达为准。
1. 周书发(汇报关于双链融合视角下颠覆性技术识别的论文框架与初稿进展)
- 论文题目与框架构建:
- 展示了初步设想的论文框架和一张可视化图表。
- 提出了一个备选题目,但担心过长。林老师建议将题目简化为“双链融合视角下颠覆性技术识别研究”,并指出无需在标题中体现“专利”或“语义信息”,因为研究中融合的数据不止于此。
- 最终的落脚点可以是一个具体的案例,例如“以集成电路产业为例”。
- 论文结构讨论与调整:
- 初步框架包含理论背景、颠覆性技术、双链融合、逻辑设计等部分。
- 根据林老师的建议进行调整:将“双链融合”作为一个核心的二级标题(2.1),而具体的实现算法和技术细节(如语义挖掘等)应作为其下的子内容进行阐述。
- 关于理论背景部分,林老师建议初稿可以先参考上一篇论文的结构(如分为技术定义和识别方法),后续根据投稿期刊的要求再进行调整或压缩。
- 图表优化建议:
- 林老师针对其展示的Python图表提出了具体的修改建议,以便在论文中更美观、清晰地呈现:
- X轴的主题名称无需重复,在左侧标注一次即可。
- 图例(色带)可以调整得扁平一些,以缩小整体尺寸。
- 建议将图表保存为SVG或EMF格式,以便在Visio等工具中进行后期编辑。
- 林老师针对其展示的Python图表提出了具体的修改建议,以便在论文中更美观、清晰地呈现:
- 下一步核心工作:
- 优先完成论文中已有思路的文本部分的撰写。
- 一项重要的任务是:根据自己构建的指标体系,反向推导出“颠覆性技术”的定义,并将其体现在引言或理论背景部分。
2. 李浩铭(完成了关于“双链融合”和“关键核心技术识别”两部分的文献综述撰写)
- “双链融合”文献综述梳理:
- 演进逻辑: 从单一的创新链、产业链研究 -> 双链融合的理论模式与机制研究 -> 基于案例的微观研究 -> 基于专利、供应链数据的量化研究。
- 方法演进:
- 早期使用直观可测度的结构化数据(如专利热图、投入产出数据)。
- 引入IPC分类号进行分析,但存在滞后性。
- 采用LDA等主题模型,以弥补IPC分类号的不足,能更细分地揭示技术关系。
- 发展到构建单层及多层网络进行耦合关系分析。
- 修改建议: 林老师指出,综述写作应更侧重于“讲故事”,清晰地阐述不同研究方法之间的逻辑演进关系和优缺点,而不是简单罗列学者姓名和研究。引用文献时,可将作者和年份放在括号中。
- “关键核心技术识别”文献综述梳理:
- 演进逻辑: 从依赖专家小组的主观方法 -> 基于专利信息构建指标体系的客观方法 -> 结合机器学习验证指标有效性 -> 采用专利网络分析方法。
- 网络分析方法演进:
- 早期使用“结构洞”指标。
- 后续综合了局部中心性(如度中心性)和全局中心性(如中介中心性、PageRank)。
- 最新的研究在PageRank算法中引入“时间衰变因子”,以评估技术的长期价值。
- 当前进度与问题:
- 文献综述主体已完成,但部分计算工作尚未完成。
- 绘制的图表存在中文字体无法正常显示的问题。
- 下一步工作:
- 尽快完成数据计算和结果分析部分,保证论文的完整性。
- 根据林老师的建议,优化文献综述的文字表达和叙事逻辑。
- 解决图表的字体显示问题。
3. 管明露(使用部分数据测试新兴技术识别模型,并汇报了初步结果与遇到的问题)
- 工作内容与初步结果:
- 使用近期的4万条数据对新兴技术识别模型进行了测试。
- 生成了包括最新年份(2025年)Top 10技术、历年得分趋势、指标权重以及2021-2025年每年的Top 10技术等结果。
- 从结果看,识别出的技术主题词(如“深度学习模型”、“AI芯片”)质量较好,具有实际意义。
- 遇到的问题与讨论:
- 结果时间跨度问题: 尽管使用了2011年以来的数据,但模型只输出了2021-2025年的新兴技术结果。林老师建议需探究是算法本身需要前序多年数据进行预测,还是代码设置问题。
- 模型运行效率问题: 在全量数据(14万条)下,模型运行时间极长(超过一周)。她提出是否可以保存中间模型以避免重复训练。林老师肯定了这一思路,并指出可以保存embedding和Bertopic的模型结果,后续直接调用。
- 结果解释问题: 2025年的得分整体偏低,推测是由于该年度数据不完整(仅有前两个月)所致。
- 下一步工作:
- 在已经跑完的全量数据结果上,首先检查是否能解决“结果时间跨度”的问题。
- 如果无法解决,需从算法原理上寻找解释,或调整代码设置。
- 若需重新运行,研究并实践如何保存和复用Bertopic的中间模型,以提高效率。
4. 李山岚(根据代码实际流程,对论文的方法和结果部分进行重写和修正)
- 工作进展: 论文已接近完成,主要剩余预测和结论部分。
- 核心修正内容:
- 根据林老师之前的指导,她重新审视了代码逻辑,发现之前对HMM(隐马尔可夫模型)的理解有误。
- 关键修正点: 模型的观测序列并非之前所认为的“主题”,而是基于网络结构提取出的“特征”(如中介中心性等)。
- 基于这一新理解,她正在对论文的方法(3.2, 3.3)和实证(4.2, 4.3)部分进行彻底的重写。
- 遇到的问题: 担心重写后的部分因为缺少图表(如状态转移矩阵)会显得内容空洞。
- 解决方案与下一步工作:
- 林老师建议,可以在文中清晰地阐述特征提取的过程(例如,从多个原始特征中综合提取出几个核心特征),然后用表格形式呈现最终的矩阵,这样既能说明问题,也能丰富内容。
- 当前首要任务是确保内容的完整性和逻辑的正确性,格式问题可以后续再调整。
5. 王硕(完成了专利数据的深度清洗工作,并规划了下一步识别典型企业的方案)
- 专利数据清洗流程:
- 统一时间基准: 为每个专利族统一增加“最早申请日”,以准确捕捉技术突破的初始时间点。
- 数据去噪: 删除了因包含汉字而被错误匹配的日本专利。
- 去重与筛选:
- 首先,按申请号去重。
- 然后,删除法律状态为“驳回”或“撤回”的专利记录。
- 最后,按“优先权号”去重。他解释了将此步骤放在最后,是为了防止一个有效的专利族因其最后一条记录被驳回而整体被错误删除。
- 技术问题解决:
- 成功解决了之前遇到的“空向量”问题。原因有二:一是CSV文件的表头被错误地当作数据处理;二是数据时间未对齐。通过删除表头和重新对齐数据,问题得到解决。
- 模型已在清洗后的数据上成功运行,产出了49个主题。
- 下一步工作:识别典型企业
- 初步方案: 通过两种方式筛选典型企业:1)在某一特定技术主题下拥有大量专利的“纵深型”企业;2)专利布局广泛、涉及多个技术主题的“广博型”企业。
- 林老师建议: 在具体筛选前,先从概念层面给出一个“典型企业”的抽象定义(例如,它在行业中的地位和作用),然后再将上述两种筛选方式作为这一定义的具体操作化解释。
- 后续将与高老师对接,探讨访谈或其他获取企业信息的方法。
6. 朱丹晨(汇报了运行Bertopic代码流程的进展,并解决了遇到的问题)
- 工作进展:
- 成功在3万条的数据集上运行了Bertopic模型的主体流程,得到了初步结果。
- 遇到的问题与解决方案:
- 问题1:模型复用推理失败。 代码第五步报错,提示找不到目录或无权限。
- 林老师解释: 该步骤主要用于处理超大规模数据集,通过保存和复用已训练好的模型来提高效率。对于当前的数据量,此步骤并非必需,可以暂时跳过。
- 问题2:可视化模块报错。 原因是运行该模块时,前面训练好的模型变量已丢失。
- 原因分析: 经其他同学提示,这通常是由于中途“重启内核”(Restart Kernel)导致的。重启会清空所有内存中的变量。
- 解决方案: 运行代码时应从头到尾一气呵成,如果某个单元格出错,可以中断并重新运行该单元格,但不要重启整个内核。
- 问题1:模型复用推理失败。 代码第五步报错,提示找不到目录或无权限。
- 下一步工作:
- 鉴于她已成功跑通了基础模型,林老师将在后续为她确定具体的选题和相应的专利数据,以正式开始论文研究工作。
7. 马婧怡(分享了Python图表中文显示问题的代码技巧,并计划开始跑通模型)
- 近期工作: 主要在完成其他课程的小组作业,尚未在研究项目上投入太多时间。
- 技术分享:
- 针对其他同学图表中出现的中文乱码(显示为方框)和负号无法显示的问题,她分享了自己之前使用过的Python代码解决方案:
- 通过
matplotlib.rcParams['font.sans-serif']来指定一个支持中文的字体(如SimHei)。 - 通过
matplotlib.rcParams['axes.unicode_minus'] = False来确保坐标轴的负号可以正常显示。
- 通过
- 针对其他同学图表中出现的中文乱码(显示为方框)和负号无法显示的问题,她分享了自己之前使用过的Python代码解决方案:
- 林老师的建议与后续计划:
- 林老师肯定了她有良好的编程和数据分析基础,建议她亲手将整个Bertopic模型流程完整跑一遍。
- 原因: 亲身实践对于深入理解研究方法、应对未来求职面试很重要。
【附】关于Bertopic模型调参的讨论
- 在会议结尾,李浩铭补充分享了他在Bertopic模型调参上的一些经验:
- 关键参数: 主要通过网格搜索优化五个核心参数,包括
n_neighbors,n_components,min_topic_size,nr_topics等。 - 评价指标: 使用“一致性(Coherence)”和“多样性(Diversity)”两个指标来评价主题质量,并将两者相乘得到一个综合分数,选择分数最高的参数组合。
- 实现细节: 他参考一篇文献,计算一致性时使用前10个主题词,计算多样性时使用前25个。他将默认基于词频的多样性计算方式,改为了基于c-TF-IDF重要性函数的计算方式。
- 林老师指出,这块优化仍有很大探索空间,例如可以引入embedding来更精准地计算语义层面的多样性,鼓励他在完成当前论文后继续深入。
- 关键参数: 主要通过网格搜索优化五个核心参数,包括
有道是:
《算法攻关行》
数据奔流铸铁肩,双链纵横启新篇。
书发初试屠龙策,柘青已绘破阵篇。
浩铭文成惊四座,明露算定动星躔。
山岚重整隐马尔,王硕清洗百万笺。
丹晨巧破空向量,婧怡码渡乱码渊。
网格寻优参透彻,主题聚类意雄坚。
专利为戈开混沌,指标作甲照幽玄。
会当共执硅晶剑,直取星辰瀚海前!

