一、AI 工具与论文工程:把大模型放进可复用流程
咨询报告型多 Agent 系统中,企业方、政策方、技术专家、财务顾问、环境评估只能覆盖部分维度。更完整的架构要增加法律合规、市场竞争、风险控制、供应链、人力组织、数字化转型等职能角色,也要增加不直接生产内容的元角色:主持人负责冲突仲裁、节奏推进和观点收敛,红队负责攻击逻辑漏洞和证据薄弱处。系统不要把角色做成静态摆设,而要按项目类型动态加载角色池。例如面向跨境数据项目,法律合规和市场准入权重上升;面向工程建设项目,供应链、环保和风险控制权重上升。多 Agent 的价值不是“热闹讨论”,而是把报告中的利益相关方、证据链、反证、风险和决策建议拆成可检查的结构。
Claude Code 等工具生成的网页常常像同一个模板:灰色字体、蓝色按钮、圆角卡片、侧栏导航、Tailwind 风格。这不是模型没有见过其他设计,而是模型在“能运行、少出错、代码短、依赖少”的约束下自然收敛到最大公约数。Tailwind 把样式压进原子类,适合线性文本生成;shadcn/ui 一类组件结构模块化,适合拼装;系统提示词又常常要求干净、现代、可访问。要打破这种默认审美,不能只说“做得特别一点”,必须显式指定流派、年代、布局禁忌、颜色逻辑和技术限制,甚至明确禁止常见组件库。默认概率不会自动产生设计个性,个性需要被写成强约束。
OpenCode、Claude Code、Gemini CLI 不是同一种工具换名字。OpenCode 的核心优势是供应商无关,可以切换不同模型,也可以接本地模型;Claude Code 的优势是与 Claude 模型深度适配,复杂代码修改、权限控制和交互式 diff 更稳;Gemini CLI 的优势是大上下文和 Google 生态。选择时不要先问哪个“更强”,而要先问任务:复杂重构优先稳定工具调用和代码正确率,超大仓库阅读优先上下文窗口,多模型比较和成本控制优先供应商无关,本地隐私任务优先 Ollama 或可接本地模型的工具。AI CLI 的本质不是聊天入口,而是一个能读文件、执行命令、修改项目、管理上下文的工程代理。
AI 帮助写完整论文,不能停留在网页聊天框里。论文应被组织成工程项目:main.tex 或 main.md 作为入口,章节文件、图表、数据、参考文献、模板论文、写作规范、术语表和审稿偏好都放入可版本控制的目录。Claude Code 或类似工具负责跨文件读取、结构重构、编译排错、引用检查和大段生成;个人经验通过注释、规则文件、模板库和任务清单介入;BibTeX、Zotero、PDF、实验数据通过 MCP 或本地脚本暴露给模型。关键不是让 AI 一次写出全文,而是让它在同一项目语境中反复执行:读规则、查数据、写一段、编译、对照前文、修订、提交版本。论文的可复用性来自目录结构、规则文件和迁移脚本,不来自某次对话的临场发挥。
用 Claude Code 现场完成技术分析产品制造,课程结构会从“理论讲解后做练习”变成“讲一个概念,立刻把概念变成可运行功能”。例如数据基础对应行情数据中心,趋势线对应交互式图表,形态识别对应信号标注,指标知识对应可勾选仪表盘,交易系统对应回测引擎。课堂参与者提出的“能否看实时数据”“能否增加成交量条件”“金叉是否真的有效”等问题,不再是插话,而是产品需求。教师的任务变成控制功能迭代的方向:每个新功能必须回扣当前知识点,不能让现场编程变成纯工具演示。这样课程的吸引力来自“输入会改变系统”,但知识主线仍由教师控制。
二、技术识别与弱信号:从主题统计走向结构和边界
新兴技术早期往往文档量小、术语不稳定、分布边缘化,只用主题热度会把它当成噪声。更有效的框架是把专利、论文、新闻等多源文本映射到统一语义空间,按时间切片观察主题中心的速度、加速度和漂移方向;再计算不同来源之间是否在同一时间窗口出现语义对齐。单一数据源的微弱波动很可能是噪声,多源数据同时在相近语义区域发生轻微但同步的移动,才更像有效弱信号。BERTopic 中的 outlier 也不能直接丢弃,弱信号常常就藏在主流主题边缘,需要二次聚类、距离测量和轨迹可视化。
CPC 文本代表专家共识下的规范性技术分类知识,可以作为“标准技术语义”的锚点。把 CPC 定义文本向量化后,用 One-Class SVM 学习其最小体积边界,本质是在语义空间中构造现行分类体系的 semantic envelope。边界内表示符合当前分类定义的常规技术区域,边界外表示偏离规范分类的语义点。这个方法的合理性来自三点:CPC 是规范知识,OC-SVM 适合只用正类样本学习边界,RBF 核可以把离散定义泛化成连续语义场。技术空白要分两类:圈外专利表示分类外的新组合或跨界偏离,圈内稀疏区域表示分类定义存在但现实专利落地不足。两者含义不同,不能混写。
One-Class SVM 只使用正常样本学习边界,适合故障、入侵、技术范围、异常点等负样本稀缺问题。nu 决定允许训练集中多少样本被视为异常,也影响支持向量比例;gamma 决定 RBF 边界的复杂程度。它的优势是无监督、能处理非线性、高维场景尚可;缺点是参数敏感、样本量大时计算慢、多簇正常分布时边界可能扭曲。用于技术空白识别时,不要把二维降维图上的“圈”解释成真实物理边界,而应把它解释成基于规范文本、语义向量和核函数共同构造的判别区域。模型给出边界,论文仍要解释边界的知识来源、参数选择和稳健性。
三、影像与音频:格式、同步和后期都要按链条理解
HLG/HEIF 静态照片可以理解为静态 HDR 视频帧:10-bit 色深、更宽动态范围、更大色域、更高压缩效率。它能记录 JPEG 容易丢掉的高光亮度和色彩过渡,但正确观看依赖完整链条:HDR 显示器、系统 HDR 支持、HEIF 解码、色彩管理和支持 HDR 的查看或编辑软件。RAW 与 HIF 的关系要分清:原始传感器信息在 RAW 中更完整,HIF 不包含 RAW 没有的原始数据;但 HIF 包含机内处理决策,如色彩、降噪、镜头校正和厂商直出风格。不能保存 HIF 的相机理论上可以由 RAW 后期转出 HDR/HEIF,但能否复刻机内观感取决于软件色彩科学和处理链。
多机位同步中,系统时间只适合按日期找文件,不能替代时间码。系统时间通常到秒,录制帧率却是 24、30、60fps,秒级同步天然有数十帧误差;不同设备晶振还会随温度和硬件差异产生时钟漂移。时间码按帧编号,Free Run 模式停录也持续流动,可以让后期软件把多个片段自动排进真实时间线。没有专业时间码设备时,音频波形同步和拍手峰值比系统时间可靠,LTC 音频时间码则可以把时间码写进音轨后再由软件解析。同步问题的核心是帧级精度和长期漂移,不是开拍前把两台机器时间调到一致。
H.265 相比 H.264 的优势是同画质下体积小、4K/8K 和 10-bit HDR 支持更好;劣势是解码复杂,剪辑更吃硬件。剪辑卡不卡主要看硬件解码,不是硬件编码。显卡宣传支持 HEVC,并不等于支持所有 H.265 规格,尤其是 10-bit 4:2:2。很多消费级独显能流畅处理 4:2:0,却无法硬解 4:2:2,此时 CPU 会被迫承担解码。Intel QuickSync 和 Apple Silicon 媒体引擎在部分专业素材上更稳。代理剪辑仍然是最终稳定方案:原片保留画质,代理保障时间线流畅,导出时再回到原片。
Open Gate 是使用传感器全宽和全高录制,保留原生 3:2 或接近全画幅比例;从 16:9 视频后期裁出 3:2,则是在已经丢失上下视野后再砍掉左右画面。两者看似得到相同比例,实际视野、分辨率和二次构图空间完全不同。没有 Open Gate 的相机想模拟 3:2,只能用更广镜头、开安全框、拍摄时给左右留弃用余量。原生 Open Gate 的价值不是比例本身,而是保留垂直视野,让横屏、竖屏、变形宽银幕和二次构图都有更大余量。
四、兴趣问题也有工程骨架
Betamaxx 一类 Synthwave 开头常常听起来像在重复,但体验上持续推进,原因是音符没有明显变化,滤波器、空间和编曲密度在变化。低通滤波器 Cutoff 从低到高,会让同一段琶音从闷到亮,形成“开门效应”;每 4 或 8 小节加入踩镲、铺底和声、白噪上升音效,会增加能量密度;PWM、Detune、LFO 等微调制会让合成器声音带有流动感。制作这类 intro 时,关键不是堆旋律,而是控制能量释放速度。重复不是问题,静止才是问题。

