2026 年 2 月收获

一、判断框架：数据、算法和人的经验各有边界

1. “意会”的防线不能只放在直觉上，而要放在难以客体化的体验价值上

《意会》反对把世界全部数据化、工具化和模型化，强调厚数据、文化背景、真实场景和人文理解。这个方向是对的，但如果把防线放在“人类有无法言说的直觉，算法无法捕捉”，这个防线已经被深度神经网络部分击穿。神经网络本来就在处理大量人类无法显式概括的模式，很多系统一式直觉已经可以被模型近似。更稳的防线不是“直觉不可算法化”，而是“人的直接体验、主体价值和不可客体化的意义本身不能被还原为功能输出”。算法可以逼近模式，未必拥有体验；它可以预测行为，未必替代行为对主体的价值。

2. 搜索中的变音符号匹配，是字符归一化，不是玄学

搜索 polica 能搜到 Poliça，核心机制是忽略变音符号或 ASCII folding。ç、ć、č 等带附加符号的字符会被映射到基础字母 c，这与忽略大小写属于同一类便利性设计。Everything 这类本地搜索工具默认这样做，是为了让普通键盘用户不用输入特殊字符也能找到文件。这个机制也提醒文本分析不要把字符形态当成稳定实体：做跨语言、跨编码、跨平台文件名和标题检索时，Unicode 归一化、大小写归一化、重音符号处理和精确匹配开关必须被显式记录。

二、数据与开发环境：结构先于工具

1. 多领域专利分析优先单库多表，不要按领域拆成多个数据库

不同领域的专利分析，不应轻易为每个领域建立独立数据库。独立库会阻断交叉分析，增加连接、备份和权限维护成本，也会浪费数据库缓存。更好的结构是一个研究数据库，内部用多张表、项目字段、领域标签或统一大表区分不同技术域。字段一致时优先大表加 domain_tag，这样可以做跨域去重、跨领域共现和技术迁移分析。让 AI 编程工具帮忙建库时，只提供架构信息和凭据读取方式，不把凭据写进提示词或代码。凭据应放入本地 .env、环境变量或受控配置文件，代码只负责读取变量。

2. Git 短哈希是前缀匹配，安全性来自仓库范围内唯一

Git 中的 10 位短哈希只是 40 位 SHA-1 的前缀。它能使用，不是因为前缀本身绝对不会碰撞，而是因为 Git 在当前仓库对象库中做前缀匹配和歧义检查。找到 1 个对象就补全，找到多个对象就报错要求更长前缀。短哈希长度是工程妥协：足够短，适合路径、日志和版本号；又足够长，在当前仓库规模下歧义概率很低。大型仓库会自动提高默认缩写长度。完整哈希碰撞是另一层问题，Git 已通过碰撞检测版 SHA-1 和 SHA-256 迁移路径降低风险。短哈希不是标识宇宙唯一对象，而是标识当前仓库中可无歧义解析的对象。

3. 在线 VS Code 要按“长期自建”和“临时云端环境”区分

频繁切换电脑时，浏览器版开发环境有几条路线。code-server 适合自建长期环境，代码、插件和终端都在服务端，浏览器只负责显示；VS Code Remote Tunnels 适合不想折腾公网和穿透，直接通过官方隧道连接自己的主机；GitHub Codespaces 和 Gitpod 适合用容器快速启动一次性开发环境；vscode.dev 只适合轻量编辑，不能替代有终端的工作站。选择逻辑很简单：需要长期、可控、能跑后端和数据库，走自建；需要免维护和临时开发，走云端托管；只是改文本，浏览器前端版就够。

4. Docker 的 -d 是服务化运行和调试运行的分界线

docker-compose up 不加 -d 是前台模式，日志直接占用终端，按 Ctrl+C 或断开窗口可能停止服务；加 -d 是 detached 后台模式，容器继续运行，终端立即回到可输入状态。正式部署服务应使用后台模式，调试报错时才前台盯日志。后台模式不是看不到日志，而是用 docker-compose logs -f 或指定服务日志再进入观察。这个参数背后是两种心态：调试时把终端当现场，部署时把容器当守护进程。

5. VS Code 时间线是 Git 的补丁，不是 Git 的替代

Git 记录项目级提交，前提是用户显式 commit；VS Code 时间线聚合当前文件的 Git 历史和本地保存历史，哪怕从未提交也能找回某次保存。它的价值在于防止两次 commit 之间的误删、误改和撤销链断裂。时间线只看单文件，不管理分支，不替代提交记录。可以隐藏 UI，也可以关闭 Local History，但更合理的做法是保留底层记录，只隐藏不常看的面板。Git 负责长期版本事实，时间线负责短期编辑后悔药。

6. Claude Code Skills 跨设备同步，本质是配置文件同步

Claude Code Skills 当前不是云端自动同步能力，而是本地文件系统能力。全局 Skills 通常在用户目录下，项目级 Skills 在项目目录下。同步方案可以很朴素：用 Git 管理全局 Skills，私有仓库跨设备克隆；项目级 Skills 跟随项目仓库一起提交；如果追求无感同步，可以用云盘加软链接，但要承担同步冲突风险；更系统的方案是把它纳入 dotfiles 工具。Skills 不是神秘资产，就是可版本控制的文本和脚本；越早把它们当作代码管理，越不容易丢失习惯和能力。

三、计算、存储与稳定性：先判断瓶颈再买硬件

1. BERTopic 内存爆掉时，先确认 GPU 是否真的介入

使用 cuML 跑 BERTopic 时，如果内存和 swap 爆满、CPU 全核高负载、GPU 只占几百 MB 显存，就说明实际计算仍在 CPU 侧。此时问题不一定是硬件太弱，而可能是 UMAP、HDBSCAN 或降维模型没有换成 cuML 版本。百万级 embedding 不能直接把 768 维扔给 UMAP，标准做法是先 PCA 到几十维，再进入 UMAP 和 HDBSCAN。先用 profiler、显存占用和 CPU/GPU 使用率确认数据路径，再决定是否加内存。硬件升级能兜底，代码路径错误会让升级收益变小。

2. 叠瓦盘适合冷归档，不适合频繁增量备份

SMR 叠瓦盘通过重叠磁道提升密度，随机修改会触发读-改-写和内部垃圾回收。把它用于写满后少动的冷备份可以接受；用于增量同步、版本控制、加密盘、频繁插拔和大量小文件改动就不适合。BitLocker 一类加密会让底层写入更像随机数据流，叠瓦盘可能出现极端掉速、超时和文件系统风险。活动备份应优先 CMR 或企业盘，备份工具负责版本，硬盘负责稳定写入。不要为了省小钱，把备份安全性放到硬盘主控的整理逻辑上。

3. 本地搜索和开发工具的小功能，背后都有明确机制

Everything 的忽略变音符号、VS Code 时间线、Project Manager 扫描 .git 项目，本质都不是“智能判断”，而是固定规则。Everything 扩展字符匹配范围，时间线读取保存历史，项目管理器把 .git 文件夹当作项目特征。理解机制后，工具就变得可控：需要精确匹配时关掉模糊规则，需要恢复文件时找本地历史，需要批量导入项目时配置扫描根目录。工具好用不是因为它懂你，而是因为它把某些判断规则做成了默认。

由

相关文章

2026 年 5 月收获

2026 年 4 月收获

2026 年 3 月收获