组会记录 2025-10-15

周书发（使用熵权法和TOPSIS方法对技术进行综合评价与排名）
- 工作进展：按照上次会议要求，使用熵权法和TOPSIS方法，结合两份数据，对八个指标重新计算了权重，并得出了最终的技术综合得分与排名。
- 老师指导与后续工作：
  - 林超然老师建议将评价结果按年份进行分析，并通过可视化的方式（如折线图或热力图）来检验结果是否符合预期。
  - 周书发计划下一步进行绘图，之后开始撰写小论文。
- 待解决问题：如何从排名和得分中明确界定哪些技术是“颠覆性技术”。仅凭排序的高低来判断，缺乏一个明确的客观标准。
- 解决方案探讨：
  - 林超然老师建议可以借鉴之前用过的设定中间值的方法（可能指象限图法），对最终得分设定一个阈值，以区分颠覆性与非颠覆性技术。
  - 最终决定先完成数据可视化，观察技术得分的分布情况后，再确定具体的划分标准。
李浩铭（构建双链异构网络模型以识别关键核心技术）
- 工作进展：
  - 方法论构建：重写了关键核心技术识别方法部分。构建了一个产业-创新双链异构网络模型，并计划从“影响广泛性”和“不可替代性”两个维度进行识别。
    - 影响广泛性：采用MLP-CI指标，通过考察节点的“一跳邻居”的度数来评估其影响范围。
    - 不可替代性：采用改进的多层PageRank算法，该算法综合了现有文献的方法，并考虑了节点失效的情况。
  - 数据计算：已完成两个指标的得分计算。
- 老师指导与后续工作：
  - 关于双链网络中两层网络（创新链与产业链）的相对重要性，林老师建议目前可设定为同等重要，以简化模型并避免主观设定权重。
  - 关于第三个维度“高壁垒性”，林老师认为当前两个维度已足够复杂，可以将“高壁垒性”的概念内涵融入到“不可替代性”的解释中。
  - 结果呈现：林老师建议从两个角度进行可视化：
    1. 按年份切片：绘制特定年份的二维散点图（X、Y轴为两个指标得分），点的尺寸可代表专利量，重点分析最新年份（2023年）的图。
    2. 按技术主题切片：追踪特定技术主题在不同年份的得分变化，绘制其在二维图上的演化轨迹。
  - 下一步工作是完成上述可视化，并基于图形结果识别出关键核心技术（位于散点图右上角的点），然后开始撰写实证部分。
管明露（利用主题聚类和多指标评价识别新兴技术）
- 工作进展：
  - 使用主题聚类方法（可能为BERTopic）将专利数据划分出400多个技术簇。
  - 使用TF-IDF方法对每个技术簇进行了自动命名。
  - 使用熵权法和TOPSIS方法计算了各技术簇的“新兴度”得分并进行了排名。
- 问题与讨论：
  - 命名问题：自动生成的簇命名过于宽泛（如“IC电路设计”），导致无法准确判断其是否为新兴技术。
  - 评价问题：当前的新兴度得分是基于全部时间段的数据计算的，无法体现技术在特定时间点的新兴程度。
- 老师指导与后续工作：
  - 命名优化：林老师建议增加生成命名所用的关键词数量（例如从3个增加到5个），以获得更具体、更精确的技术主题名称。
  - 评价优化：林老师指出新兴度评价必须与时间关联。建议修改算法，使之能够计算出每个技术簇在每一年的得分，或者（作为次选方案）仅使用最近几年的数据进行滚动计算。
  - 下一步工作是优化命名和评价方法，实现按年份评估技术的新兴度。
李山岚（撰写技术融合趋势识别与预测的文献综述，并明确研究方法）
- 工作进展：
  - 文献综述：已完成综述的初步撰写。逻辑上，将自己的研究方法（BERTopic + HMM）定位为对现有方法的改进和优化，并清晰阐述了选择HMM的合理性（擅长识别演化规律和阶段特征）。
  - 方法论澄清：与林老师探讨后，明确了“技术融合”的判断标准：并非简单的相似度高，而是两个技术主题的词向量（Embedding）随着时间推移从疏远变得相似，这体现了融合的动态趋势。
- 问题与讨论：
  - 可视化难题：现有的融合关系图因连线过多而难以分析，特别是无法突出“度”中心性高的关键节点。
  - 实证验证困难：难以找到现成的产业报告或新闻来直接验证模型识别出的“技术融合”事件。
- 老师指导与后续工作：
  - 可视化方案：林老师建议绘制一张新的热力图。以技术主题为X轴，年份为Y轴，图中每个单元格的颜色深浅代表该技术主题在该年份的“度”（即融合关系的密集程度）。这能直观地展示出热点融合领域的演化路径。
  - 实证验证方案：改变策略，不再“自上而下”寻找普适的报告来验证，而是“自下而上”：先通过模型分析得出具体的融合技术对，再拿着这些具体的技术名称去学术文献（如SCI论文）中搜索，寻找已有研究作为佐证。
  - 下一步工作是绘制新的热力图进行分析，并在得出结论后据此寻找文献进行验证。
王硕（应用BERTopic模型进行专利主题聚类与技术问题排查）
- 工作进展：
  - 成功运用课题组的BERTopic模型代码，对自己领域的3238条专利数据进行了主题聚类，共生成88个有效主题。
  - 详细记录并解决了在运行代码过程中遇到的多个技术问题，为其他同学提供了宝贵参考。
- 技术问题与解决方案分享：
  1. 环境冲突：可视化部分依赖会自动更新NumPy版本，导致与模型主体部分不兼容。解决方案：安装指定版本的NumPy包。
  2. 空变量错误：在生成向量时遇到空变量导致程序中断。解决方案：在代码中加入try...except容错机制，跳过出错的部分。
  3. 本地模型使用：成功配置并使用本地Ollama模型进行主题命名，但耗时较长（一整晚）。
- 老师指导与后续工作：
  - 林老师肯定了其解决问题的能力，并要求他将修改内容和解决方法（如NumPy版本号）在代码文件中做好注释，方便共享。
  - 下一步工作：从聚类出的88个主题中，识别出每个主题下的“典型企业”。
  - 企业识别方法：初步计划以企业在某主题下的专利申请数量为主要依据。林老师认为这是可行的基准方法，并鼓励他思考是否有更全面的定量算法。
  - 林老师指导他通过doc_vs_topic.csv这个输出文件，来找到每个主题具体包含哪些专利。
朱丹晨（调研BERTopic模型的应用场景）
- 工作进展：
  - 通过文献调研，了解了BERTopic模型的多种应用方式。
  - 发现该模型既可以独立用于主题识别与演化分析，也常常作为其他复杂模型（如机器学习模型）的前序步骤，起到数据处理和特征提取的“铺垫作用”。
- 老师指导与后续工作：
  - 林超然老师肯定了其文献调研工作，并指出下一步需要进行实践操作。
  - 下一步工作：尝试复现课题组共享代码示例，将理论学习应用到实际操作中。王硕同学分享的技术问题排查经验将对她有很大帮助。

组会记录 2025-10-15

By Chaoran

相关文章

密码保护：HD/KD 研究讨论记录

密码保护：研究生团队组会记录（0911 更新）

密码保护：与 王锐康/赵达 的讨论

密码保护：与王锐康/赵达的讨论