汇报顺序:
研3:周书发 → 文柘青 →
研2:李浩铭 → 管明露 → 李山岚 →
研1:王硕 → 朱丹晨 → 马婧怡 →
研0:南迪柯
注:该组会记录内容,录音音频由通义听悟转为文字并识别说话人、由 Google Gemini 2.5 Pro 归纳、由 n8n 触发自动发布文章。因此可能存在由音频转换、AI 幻觉造成的错误,请阅读时甄别,以实际组会过程中的表达为准。
组会会议记录
- 文柘青(基于文本分析与计量模型研究集成电路政策对专利质量的影响)
- 大论文思路: 将已发表的小论文(关于专利文本分析)作为大论文的前半部分,后半部分进行扩展。
- 前半部分(已有基础): 通过文本分析方法(如LDA)对专利进行分析,并构建了一套专利质量评价指标。
- 后半部分(计划工作):
- 数据处理: 利用大语言模型(计划从ChatGLM更换为“通义千问”)对专利文本进行关键句提取和质量打分。目前在运行代码提取关键句时遇到进程卡住的问题。浩铭建议使用
tqdm库来优化进度条显示,并通过查看GPU/CPU占用率来判断程序是否仍在运行。 - 计量分析: 将得到的“专利质量分”作为关键指标,使用双重差分法(DID)分析特定政策对芯片发明专利创造质量的影响。
- 政策选取: 初步选定2020年发布的集成电路重要文件作为研究的政策变量。林老师认为该政策在领域、时间节点(技术封锁后)和对质量的关注度上都与研究主题非常契合。
- 数据处理: 利用大语言模型(计划从ChatGLM更换为“通义千问”)对专利文本进行关键句提取和质量打分。目前在运行代码提取关键句时遇到进程卡住的问题。浩铭建议使用
- 下一步计划:
- 解决代码运行卡顿问题,完成数据处理。
- 确定并优化大论文题目。
- 待数据跑出后,开始撰写论文初稿。
- 大论文思路: 将已发表的小论文(关于专利文本分析)作为大论文的前半部分,后半部分进行扩展。
- 李浩铭(基于双链融合视角的AI芯片技术创新路径研究)
- 工作内容: 汇报毕业论文答辩PPT的准备情况和内容框架。
- PPT内容结构:
- 研究背景: 从国家强调“创新链”与“产业链”融合的宏观政策背景切入,引出AI领域的重要性,并进一步聚焦于作为AI领域核心硬件的“AI芯片”,从而确立研究对象。
- 研究框架与方法:
- 整体框架: 基于“双链融合”理论,利用专利(创新链)和企业(产业链)的多元数据构建研究框架。
- 创新链分析: 详细阐述了数据处理、
BERTopic主题建模(展示了参数选择依据)、以及技术主题演化网络构建的过程。 - 产业链分析: 介绍了如何通过CNRDS平台数据和模糊匹配算法,筛选出AI芯片相关的产业链数据。
- 实证结果: 展示了产业链关键节点的识别结果。林老师建议将图中X轴和Y轴的指标名称(影响广泛性、不可替代性)直接标注在坐标轴上,使图表更清晰易读。对于图中部分节点出现多次的情况,文柘青解释是由于按时间窗口滑动计算导致的,林老师认为可以在PPT中简要解释,但论文中可视情况决定是否详述。
- 未来展望: 计划从“多链融合”(如加入资金链、人才链)和“决策支持”两个方向进行展望。林老师建议参考他分享的文献,将资金链、人才链等具体内容补充进去,使展望更扎实。
- 要求与提醒: 林老师强调PPT汇报时要像讲故事一样,而不是念论文。
- 管明露(新兴技术识别研究的论文修改)
- 工作内容: 汇报中文小论文的修改进展,主要集中在引言部分。
- 引言部分修改:
- 研究动机: 梳理并撰写了研究问题的缘由(为何识别新兴技术、为何选集成电路领域、为何用专利文本)。
- 创新点: 凝练了三个主要创新点:1) 结合语义信息提升主题挖掘准确性;2) 应用层次主题模型(HTM);3) 采用轮廓系数进行二次聚类,提升识别的精细度。林老师建议对创新点的文字表述进行再精炼,突出核心优势。
- 文献综述: 认识到现有引言中对他人研究的评述过多,而对现有研究脉络的描述不足。已通过AI工具(scispace)查找了相关文献,下一步需要将这些文献内容系统地组织起来,补充到引言中,清晰地呈现该领域的研究发展历程。
- 其他讨论:
- 与林老师探讨了AI工具发现的其他潜在创新点(如指标体系优化、引入调整因子),林老师认为目前这几点创新性相对较弱,建议作为备选,暂时仍以之前确定的三个创新点为主。
- 下一步计划:
- 补充和完善引言部分的文献综述内容。
- 完成论文的实验结果等正文部分的撰写。
- 开始构思大论文选题,林老师建议可以考虑在当前识别结果的基础上,结合一个政策进行计量分析。
- 李山岚(基于府际协作与技术融合关系的大论文开题构思)
- 工作内容: 汇报大论文开题的思路和方案。
- 研究思路演进:
- 旧方案: 直接将“府际协作”(省际关系)与“技术融合”(主题间关系)进行匹配,存在样本量过少、难以对应的问题。
- 新方案(核心思路): 将“省际关系”的变量转化为每个省份自身的“属性”变量。即,一个省的“府际协作强度”由它与其他所有省的协作关系共同计算得出一个数值,技术融合度也进行类似处理,从而将数据转化为面板数据进行计量分析。
- 变量衡量方法:
- 自变量(府际协作强度): 借鉴现有文献,通过衡量协作的“广度”(与多少省份协作)和“深度”(协作了多少事项/文件),并结合相应理论(如F-framework的12种协作机制)来构建指标。数据来源初步考虑政府工作报告,备选方案为各省日报数据。
- 因变量(技术融合度): 需要将小论文中“主题间”的融合度,转化为每个“省份”的融合度。具体方法是将专利数据按申请人地址归属到各省,再结合小论文的算法进行计算。
- 研究框架与大纲:
- 参考了一篇关于“大气污染治理”的类似研究,计划借鉴其结构。
- 该研究不仅构建了府际协作强度指标,还构建了“府际协作网络”,并基于网络的度、中心性等指标提出了更多研究假设。管明露计划也引入网络分析,以丰富研究内容和篇幅。
- 讨论与建议: 林老师对新方案表示认可,并提醒在衡量“府际协作”时,应尽量限定在“技术协作”的范畴内,以增强自变量与因变量(技术融合)之间的逻辑关联。
- 下一步计划: 基于新方案撰写开题报告初稿,并准备开题PPT。
- 王硕(技术典型企业识别方法的优化)
- 工作内容: 针对上周遇到的问题,改进典型企业的识别方法。
- 问题一:数据清洗(剔除高校和研究所)
- 解决方案: 调整了代码,只统计名称以“公司”结尾的实体。同时,选择在
BERTopic主题分类之后再进行数据清洗,这样做可以利用包含高校在内的更全面的数据进行主题建模,可能使主题划分更准确。
- 解决方案: 调整了代码,只统计名称以“公司”结尾的实体。同时,选择在
- 问题二:典型企业识别算法优化
- 旧方法问题: 手动设定一条斜线作为阈值,参数(斜率、截距)难以解释。
- 新方法探索: 尝试了K-Means、DBSCAN等聚类算法,但效果不佳(会将华为等极端值识别为异常点)。最终采用了一种“双维度分位数阈值分类法”。
- 新方法原理: 不再画斜线,而是分别在两个维度(X轴:总专利数;Y轴:主题专利数占比)上,选取前15%(该阈值可调)的数值作为阈值线,将散点图划分为四个象限。右上角象限(两个维度均超过阈值)的企业被识别为典型企业。
- 优势: 该方法相比旧方法,需要人为设定的参数从两个(斜率、截距)减少到一个(分位数阈值,如15%),更具科学性和可解释性。
- 典型企业定义优化: 根据新的识别方法,优化了“典型企业”的定义,强调其在“技术发展水平”与“战略倾向性”上的标杆作用。林老师建议参考学术界对“典型企业”的通用定义,进行对比和完善。
- 下一步计划:
- 获取已识别出的41家典型企业的二手数据(如企业年报)。
- 与高老师沟通,确定需要从年报中提取哪些具体数据来衡量企业的“关键突破因素”(如研发投入等)。
- 朱丹晨
- 上周主要在复习并参加《应用统计学》等课程的期末考试,本周科研工作暂停。
- 马婧怡(机器学习在专利分析领域应用的文献综述)
- 工作内容: 深入阅读了两篇相关文献。
- 第一篇文献(综述类):
- 主题: 系统总结了机器学习在专利分析中的应用现状、技术挑战和未来趋势。
- 核心内容:
- 四大任务: 梳理了机器学习在专利分类、检索、推荐、评估四个核心任务中的应用。
- 方法总结: 总结了在不同任务中常用的机器学习模型(如深度学习、集成学习、图神经网络GNN等)。
- 未来方向: 指出了未来值得研究的技术挑战和方向,例如处理专利图像信息、提高模型可解释性等。
- 价值: 该文献对后续研究选题和方法选择具有很高的参考价值。林老师建议将此文献发到群共享,并指出基于专利图像的分析是一个很有潜力的研究方向。
- 第二篇文献(实证类):
- 主题: 提出一个混合模型(
X-BERT+ K近邻),用于提升专利文本分类的效率和准确性。 - 核心方法: 通过一个精准但计算慢的模型,为无标签的专利数据生成“伪标签”,再用这个生成的数据集去训练一个速度更快的新模型,从而实现效率和效果的平衡。
- 主题: 提出一个混合模型(
- 南迪柯(开题报告修改与技术学习)
- 开题报告修改:
- 根据老师们的意见,对开题报告进行了修改,重点在“国内外研究现状”部分补充了关于老年用户在线政务服务体验及适老化改造等相关的文献。目前除框架图外,其余部分已基本修改完毕。
- 课程与学习:
- 正在撰写
Events课程的期末作业。 - 继续跟着视频教程学习
BERTopic模型,但在安装和配置环境时遇到了“文件名、目录名或卷标语法不正确”的报错。
- 正在撰写
- 问题与建议: 林老师判断该报错可能是因为命令输入的位置不正确(应在某个配置文件中修改,而非直接在CMD窗口输入),建议她再仔细查看视频教程中关于该命令的使用说明。
- 开题报告修改:
书发今朝心意浓,A 刊一纸惊学宫。
情报学报登高第,独得清闲步芳丛。
静怡窗下探文献,机器学习究本源。
分类检索与推荐,评估四事记心田。
硕哥算法求精妙,典企识别思万千。
象限四分寻要领,十五为阈别新天。

